Gemini API از ورودی PDF، از جمله اسناد طولانی (تا 3600 صفحه) پشتیبانی می کند. مدلهای Gemini فایلهای PDF را با دید بومی پردازش میکنند و بنابراین میتوانند محتوای متن و تصویر درون اسناد را درک کنند. با پشتیبانی از دید PDF بومی، مدلهای Gemini قادرند:
- نمودارها، نمودارها و جداول داخل اسناد را تجزیه و تحلیل کنید.
- استخراج اطلاعات به فرمت های خروجی ساخت یافته
- به سوالات مربوط به محتوای تصویری و متنی در اسناد پاسخ دهید.
- اسناد را خلاصه کنید
- محتوای سند (مثلاً به HTML) را با حفظ طرحبندی و قالببندی، برای استفاده در برنامههای پایین دستی (مانند خطوط لوله RAG) رونویسی کنید.
این آموزش راه های ممکن برای استفاده از Gemini API با اسناد PDF را نشان می دهد. تمام خروجی ها فقط متنی هستند.
بعدش چی
این راهنما نحوه استفاده از generateContent
و تولید خروجی متن از اسناد پردازش شده را نشان می دهد. برای کسب اطلاعات بیشتر به منابع زیر مراجعه کنید:
- استراتژیهای درخواست فایل : Gemini API از درخواست با دادههای متنی، تصویری، صوتی و ویدیویی پشتیبانی میکند که به عنوان درخواست چندوجهی نیز شناخته میشود.
- دستورالعملهای سیستم : دستورالعملهای سیستم به شما امکان میدهد رفتار مدل را بر اساس نیازهای خاص و موارد استفاده خود هدایت کنید.
- راهنمایی ایمنی : گاهی اوقات مدلهای هوش مصنوعی تولیدی خروجیهای غیرمنتظره مانند خروجیهای نادرست، جانبدارانه یا توهینآمیز تولید میکنند. پس پردازش و ارزیابی انسانی برای محدود کردن خطر آسیب ناشی از چنین خروجیهایی ضروری است.