قابلیت های پردازش اسناد را با Gemini API کاوش کنید

Gemini API از ورودی PDF، از جمله اسناد طولانی (تا 3600 صفحه) پشتیبانی می کند. مدل‌های Gemini فایل‌های PDF را با دید بومی پردازش می‌کنند و بنابراین می‌توانند محتوای متن و تصویر درون اسناد را درک کنند. با پشتیبانی از دید PDF بومی، مدل‌های Gemini قادرند:

  • نمودارها، نمودارها و جداول داخل اسناد را تجزیه و تحلیل کنید.
  • استخراج اطلاعات به فرمت های خروجی ساخت یافته
  • به سوالات مربوط به محتوای تصویری و متنی در اسناد پاسخ دهید.
  • اسناد را خلاصه کنید
  • محتوای سند (مثلاً به HTML) را با حفظ طرح‌بندی و قالب‌بندی، برای استفاده در برنامه‌های پایین دستی (مانند خطوط لوله RAG) رونویسی کنید.

این آموزش راه های ممکن برای استفاده از Gemini API با اسناد PDF را نشان می دهد. تمام خروجی ها فقط متنی هستند.

بعدش چی

این راهنما نحوه استفاده از generateContent و تولید خروجی متن از اسناد پردازش شده را نشان می دهد. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:

  • استراتژی‌های درخواست فایل : Gemini API از درخواست با داده‌های متنی، تصویری، صوتی و ویدیویی پشتیبانی می‌کند که به عنوان درخواست چندوجهی نیز شناخته می‌شود.
  • دستورالعمل‌های سیستم : دستورالعمل‌های سیستم به شما امکان می‌دهد رفتار مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید.
  • راهنمایی ایمنی : گاهی اوقات مدل‌های هوش مصنوعی تولیدی خروجی‌های غیرمنتظره مانند خروجی‌های نادرست، جانبدارانه یا توهین‌آمیز تولید می‌کنند. پس پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب ناشی از چنین خروجی‌هایی ضروری است.