Gemini API قادر است تصاویر و ویدیوها را پردازش کند و بسیاری از موارد استفاده هیجان انگیز توسعه دهندگان را قادر می سازد. برخی از قابلیت های بینایی Gemini عبارتند از:
- شرح تصاویر و پاسخ به سوالات
- رونویسی و استدلال روی فایل های PDF، از جمله اسناد طولانی تا سقف 2 میلیون پنجره زمینه
- توصیف، بخشبندی، و استخراج اطلاعات از ویدیوها، از جمله فریمهای بصری و صوتی، تا 90 دقیقه
- اشیاء را در یک تصویر شناسایی کنید و مختصات جعبه مرزی را برای آنها برگردانید
این آموزش برخی از راههای ممکن برای درخواست Gemini API با تصاویر و ورودی ویدیو را نشان میدهد، نمونههای کد را ارائه میدهد و بهترین روشهای پیشنهادی را با قابلیتهای دید چندوجهی نشان میدهد. تمام خروجی ها فقط متنی است.
بعدش چی
این راهنما نحوه بارگذاری فایلهای تصویر و ویدیویی را با استفاده از API فایل نشان می دهد و سپس خروجی های متنی را از ورودی های تصویر و ویدیویی تولید می کند. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:
- استراتژی های فرکانس پرونده : API Gemini از ارسال با داده های متن ، تصویر ، صدا و ویدیویی پشتیبانی می کند ، همچنین به عنوان فرکانس چند حالته شناخته می شود.
- دستورالعمل های سیستم : دستورالعمل های سیستم به شما امکان می دهد رفتار مدل را بر اساس نیازهای خاص خود هدایت کنید و موارد استفاده کنید.
- راهنمایی ایمنی : گاهی اوقات مدل های هوش مصنوعی تولیدی خروجی های غیر منتظره مانند خروجی هایی را که نادرست ، مغرضانه یا توهین آمیز هستند ، تولید می کنند. پس از پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب از چنین خروجی ها ضروری است.