درک سند

Gemini API از ورودی PDF، از جمله اسناد طولانی (تا 1000 صفحه) پشتیبانی می کند. مدل‌های Gemini فایل‌های PDF را با دید بومی پردازش می‌کنند و بنابراین می‌توانند محتوای متن و تصویر درون اسناد را درک کنند. با پشتیبانی از دید PDF بومی، مدل‌های Gemini قادرند:

  • نمودارها، نمودارها و جداول داخل اسناد را تجزیه و تحلیل کنید
  • استخراج اطلاعات به فرمت های خروجی ساخت یافته
  • به سوالات مربوط به محتوای تصویری و متنی در اسناد پاسخ دهید
  • اسناد را خلاصه کنید
  • رونویسی محتوای سند (به عنوان مثال به HTML) با حفظ طرح‌بندی و قالب‌بندی، برای استفاده در برنامه‌های پایین دست

این آموزش راه های ممکن برای استفاده از Gemini API برای پردازش اسناد PDF را نشان می دهد.

جزئیات فنی

Gemini حداکثر 1000 صفحه سند را پشتیبانی می کند. صفحات سند باید در یکی از انواع MIME داده متنی زیر باشند:

  • PDF - application/pdf
  • جاوا اسکریپت - application/x-javascript ، text/javascript
  • پایتون - application/x-python ، text/x-python
  • TXT - text/plain
  • HTML - text/html
  • CSS - text/css
  • Markdown - text/md
  • CSV - text/csv
  • XML - text/xml
  • RTF - text/rtf

هر صفحه سند معادل 258 توکن است.

در حالی که هیچ محدودیت خاصی برای تعداد پیکسل ها در یک سند به جز پنجره زمینه مدل وجود ندارد، صفحات بزرگتر تا حداکثر وضوح 3072x3072 با حفظ نسبت تصویر اصلی خود کوچک می شوند، در حالی که صفحات کوچکتر تا 768x768 پیکسل کوچک می شوند. هیچ کاهش هزینه ای برای صفحات با اندازه های پایین تر، به جز پهنای باند، یا بهبود عملکرد برای صفحات با وضوح بالاتر وجود ندارد.

برای بهترین نتایج:

  • قبل از آپلود، صفحات را به جهت صحیح بچرخانید.
  • از صفحات تار خودداری کنید.
  • اگر از یک صفحه استفاده می کنید، اعلان متن را بعد از صفحه قرار دهید.

بعدش چی

برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:

  • استراتژی‌های درخواست فایل : Gemini API از درخواست با داده‌های متنی، تصویری، صوتی و ویدیویی پشتیبانی می‌کند که به عنوان درخواست چندوجهی نیز شناخته می‌شود.
  • دستورالعمل‌های سیستم : دستورالعمل‌های سیستم به شما امکان می‌دهد رفتار مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید.