Gemini API میتواند استنتاج را روی تصاویر و ویدیوهای ارسال شده به آن اجرا کند. هنگامی که یک تصویر، یک سری از تصاویر یا یک ویدیو ارسال می شود، Gemini می تواند:
- در مورد محتوا توضیح دهید یا به سوالات پاسخ دهید
- مطالب را خلاصه کنید
- از محتوا استنباط کنید
این آموزش برخی از راههای ممکن برای درخواست Gemini API با تصاویر و ورودی ویدیو را نشان میدهد. تمام خروجی ها فقط متنی هستند.
بعدش چی
این راهنما نحوه استفاده از generateContent
و تولید خروجی متن از ورودی های تصویر و ویدیو را نشان می دهد. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:
- درخواست با فایل های رسانه ای : Gemini API از درخواست با داده های متنی، تصویری، صوتی و تصویری پشتیبانی می کند که به عنوان درخواست چندوجهی نیز شناخته می شود.
- دستورالعملهای سیستم : دستورالعملهای سیستم به شما امکان میدهد رفتار مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید.
- راهنمایی ایمنی : گاهی اوقات مدلهای هوش مصنوعی تولیدی خروجیهای غیرمنتظره مانند خروجیهای نادرست، جانبدارانه یا توهینآمیز تولید میکنند. پس پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب ناشی از چنین خروجیهایی ضروری است.