Gemini API תומך בקלט בפורמט PDF, כולל מסמכים ארוכים (עד 3,600 דפים). המודלים של Gemini מעבדים קובצי PDF באמצעות ראייה מקורית, ולכן הם יכולים להבין גם תוכן טקסט וגם תוכן תמונה במסמכים. בעזרת תמיכה מקורית ב-PDF, מודלים של Gemini יכולים:
- לנתח דיאגרמות, תרשימים וטבלאות במסמכים.
- חילוץ מידע לפורמטים של פלט מובנה.
- משיבים על שאלות לגבי תוכן חזותי וטקסטואלי במסמכים.
- לסכם מסמכים.
- תמלול תוכן של מסמכים (למשל ל-HTML) תוך שמירה על פריסות ועיצוב, לשימוש באפליקציות במורד הזרם (למשל בצינורות עיבוד נתונים של RAG).
במדריך הזה נסביר כמה דרכים אפשריות לשימוש ב-Gemini API עם מסמכי PDF. כל הפלט הוא טקסט בלבד.
המאמרים הבאים
במדריך הזה מוסבר איך להשתמש ב-generateContent
וליצור פלט טקסט ממסמכים שעברו עיבוד. מידע נוסף זמין במשאבים הבאים:
- אסטרטגיות להצגת בקשות להעלאת קבצים: Gemini API תומך בהצגת בקשות להעלאת קבצים עם נתוני טקסט, תמונות, אודיו ווידאו, שנקראות גם בקשות להעלאת קבצים במגוון מודלים.
- הוראות מערכת: הוראות המערכת מאפשרות לכם לקבוע את התנהגות המודל בהתאם לצרכים ולתרחישים הספציפיים שלכם.
- הנחיות בטיחות: לפעמים מודלים של AI גנרטיבי יוצרים תוצאות לא צפויות, כמו תוצאות לא מדויקות, מוטה או פוגעניות. עיבוד תמונה (Post Processing) והערכה אנושית הם חיוניים כדי להגביל את הסיכון לנזק כתוצאה מפלט כזה.