قابلیت‌های بینایی را با Gemini API کاوش کنید

Gemini API می‌تواند استنتاج را روی تصاویر و ویدیوهای ارسال شده به آن اجرا کند. هنگامی که یک تصویر، یک سری از تصاویر یا یک ویدیو ارسال می شود، Gemini می تواند:

  • در مورد محتوا توضیح دهید یا به سوالات پاسخ دهید
  • مطالب را خلاصه کنید
  • از محتوا استنباط کنید

این آموزش برخی از راه‌های ممکن برای درخواست Gemini API با تصاویر و ورودی ویدیو را نشان می‌دهد. تمام خروجی ها فقط متنی هستند.

بعدش چی

این راهنما نحوه استفاده از generateContent و تولید خروجی متن از ورودی های تصویر و ویدیو را نشان می دهد. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:

  • درخواست با فایل های رسانه ای : Gemini API از درخواست با داده های متنی، تصویری، صوتی و تصویری پشتیبانی می کند که به عنوان درخواست چندوجهی نیز شناخته می شود.
  • دستورالعمل‌های سیستم : دستورالعمل‌های سیستم به شما امکان می‌دهد رفتار مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید.
  • راهنمایی ایمنی : گاهی اوقات مدل‌های هوش مصنوعی تولیدی خروجی‌های غیرمنتظره مانند خروجی‌های نادرست، جانبدارانه یا توهین‌آمیز تولید می‌کنند. پس پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب ناشی از چنین خروجی‌هایی ضروری است.