قابلیت‌های بینایی را با Gemini API کاوش کنید

Gemini API قادر است تصاویر و ویدیوها را پردازش کند و بسیاری از موارد استفاده هیجان انگیز توسعه دهندگان را قادر می سازد. برخی از قابلیت های بینایی Gemini عبارتند از:

  • شرح تصاویر و پاسخ به سوالات
  • رونویسی و استدلال روی فایل های PDF، از جمله اسناد طولانی تا سقف 2 میلیون پنجره زمینه
  • توصیف، بخش‌بندی، و استخراج اطلاعات از ویدیوها، از جمله فریم‌های بصری و صوتی، تا 90 دقیقه
  • اشیاء را در یک تصویر شناسایی کنید و مختصات جعبه مرزی را برای آنها برگردانید

این آموزش برخی از راه‌های ممکن برای درخواست Gemini API با تصاویر و ورودی ویدیو را نشان می‌دهد، نمونه‌های کد را ارائه می‌دهد و بهترین روش‌های پیشنهادی را با قابلیت‌های دید چندوجهی نشان می‌دهد. تمام خروجی ها فقط متنی است.

بعدش چی

این راهنما نحوه آپلود فایل های تصویری و ویدئویی را با استفاده از File API و سپس تولید خروجی متن از ورودی های تصویر و ویدئو را نشان می دهد. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:

  • استراتژی‌های درخواست فایل : Gemini API از درخواست با داده‌های متنی، تصویری، صوتی و ویدیویی پشتیبانی می‌کند که به عنوان درخواست چندوجهی نیز شناخته می‌شود.
  • دستورالعمل‌های سیستم : دستورالعمل‌های سیستم به شما امکان می‌دهد رفتار مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید.
  • راهنمایی ایمنی : گاهی اوقات مدل‌های هوش مصنوعی تولیدی خروجی‌های غیرمنتظره مانند خروجی‌های نادرست، جانبدارانه یا توهین‌آمیز تولید می‌کنند. پس پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب ناشی از چنین خروجی‌هایی ضروری است.