Esplora le funzionalità di elaborazione dei documenti con l'API Gemini

L'API Gemini supporta l'input PDF, inclusi i documenti lunghi (fino a 3600 pagine). I modelli Gemini elaborano i PDF con la visione nativa e sono quindi in grado di comprendere sia i contenuti di testo che quelli delle immagini all'interno dei documenti. Con il supporto della visione di PDF nativa, i modelli Gemini sono in grado di:

  • Analizza diagrammi, grafici e tabelle all'interno dei documenti.
  • Estrai le informazioni in formati di output strutturati.
  • Rispondere a domande sui contenuti visivi e di testo nei documenti.
  • Riassumere i documenti.
  • Trascrivere i contenuti dei documenti (ad es.in HTML) preservando i layout e la formattazione, per l'utilizzo in applicazioni a valle (ad es. nelle pipeline RAG).

Questo tutorial mostra alcuni possibili modi per utilizzare l'API Gemini con i documenti PDF. Tutto l'output è solo di testo.

Passaggi successivi

Questa guida mostra come utilizzare generateContent e generare output di testo dai documenti elaborati. Per saperne di più, consulta le seguenti risorse:

  • Strategie di prompt dei file: l'API Gemini supporta i prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali.
  • Istruzioni di sistema: le istruzioni di sistema ti consentono di indirizzare il comportamento del modello in base alle tue esigenze e ai tuoi casi d'uso specifici.
  • Indicazioni per la sicurezza: a volte i modelli di IA generativa producono output inaspettati, ad esempio imprecisi, biassati o offensivi. Il post-trattamento e la valutazione umana sono essenziali per limitare il rischio di danni derivanti da questi output.