قابلیت‌های بینایی را با Gemini API کاوش کنید

مدل‌های Gemini می‌توانند تصاویر و ویدیوها را پردازش کنند، و بسیاری از موارد استفاده از توسعه‌دهندگان مرزی را که از لحاظ تاریخی به مدل‌های دامنه خاصی نیاز دارند، ممکن می‌سازند. برخی از قابلیت های بینایی Gemini عبارتند از:

  • شرح تصاویر و پاسخ به سوالات
  • رونویسی و استدلال روی فایل های PDF، از جمله تا 2 میلیون توکن
  • توصیف، بخش‌بندی و استخراج اطلاعات از ویدیوهای تا ۹۰ دقیقه
  • اشیاء را در یک تصویر شناسایی کنید و مختصات جعبه مرزی را برای آنها برگردانید

Gemini به گونه ای ساخته شده است که از ابتدا چند وجهی باشد و ما همچنان به پیشبرد مرزهای ممکن ادامه می دهیم.

بعدش چی

این راهنما نحوه بارگذاری فایلهای تصویر و ویدیویی را با استفاده از API فایل نشان می دهد و سپس خروجی های متنی را از ورودی های تصویر و ویدیویی تولید می کند. برای کسب اطلاعات بیشتر ، به منابع زیر مراجعه کنید:

  • استراتژی های فرکانس پرونده : API Gemini از ارسال با داده های متن ، تصویر ، صدا و ویدیویی پشتیبانی می کند ، همچنین به عنوان فرکانس چند حالته شناخته می شود.
  • دستورالعمل های سیستم : دستورالعمل های سیستم به شما امکان می دهد رفتار مدل را بر اساس نیازهای خاص خود هدایت کنید و موارد استفاده کنید.
  • راهنمایی ایمنی : گاهی اوقات مدل های هوش مصنوعی تولیدی خروجی های غیر منتظره مانند خروجی هایی را که نادرست ، مغرضانه یا توهین آمیز هستند ، تولید می کنند. پس از پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب از چنین خروجی ها ضروری است.
،

مدل های جمینی قادر به پردازش تصاویر و فیلم ها هستند ، بسیاری از موارد استفاده از توسعه دهنده مرزی را که از نظر تاریخی مدل های خاص دامنه لازم دارند ، امکان پذیر می کند. برخی از قابلیت های دید جمینی شامل توانایی:

  • عنوان و پاسخ به س questions الات در مورد تصاویر
  • رونویسی و استدلال از طریق PDF ، از جمله حداکثر 2 میلیون نشانه
  • اطلاعات را از فیلم ها تا 90 دقیقه توصیف ، بخش و استخراج کنید
  • اشیاء را در یک تصویر تشخیص دهید و مختصات جعبه اتصال را برای آنها برگردانید

جمینی ساخته شده است که از سطح زمین چند حالته است و ما همچنان به مرزهای آنچه ممکن است فشار می آوریم.

بعدش چی

This guide shows how to upload image and video files using the File API and then generate text outputs from image and video inputs. To learn more, see the following resources:

  • File prompting strategies : The Gemini API supports prompting with text, image, audio, and video data, also known as multimodal prompting.
  • System instructions : System instructions let you steer the behavior of the model based on your specific needs and use cases.
  • Safety guidance : Sometimes generative AI models produce unexpected outputs, such as outputs that are inaccurate, biased, or offensive. Post-processing and human evaluation are essential to limit the risk of harm from such outputs.