L'API Gemini supporta l'input PDF, inclusi i documenti lunghi (fino a 1000 pagine). I modelli Gemini elaborano i PDF con la visione nativa e sono quindi in grado di comprendere sia i contenuti di testo che quelli delle immagini all'interno dei documenti. Con il supporto della visione di PDF nativa, i modelli di Gemini sono in grado di:
- Analizzare diagrammi, grafici e tabelle all'interno dei documenti
- Estrai le informazioni in formati di output strutturati
- Rispondere a domande sui contenuti visivi e di testo nei documenti
- Riassunto di documenti
- Trascrivere i contenuti dei documenti (ad es. in HTML) preservando i layout e la formattazione, per l'utilizzo in applicazioni a valle
Questo tutorial mostra alcuni possibili modi per utilizzare l'API Gemini per elaborare i documenti PDF.
Dettagli tecnici
Gemini supporta un massimo di 1000 pagine di documento. Le pagine del documento devono essere in uno dei seguenti tipi MIME di dati di testo:
- PDF -
application/pdf
- JavaScript -
application/x-javascript
,text/javascript
- Python -
application/x-python
,text/x-python
- TXT -
text/plain
- HTML -
text/html
- CSS -
text/css
- Markdown -
text/md
- CSV -
text/csv
- XML -
text/xml
- RTF -
text/rtf
Ogni pagina del documento equivale a 258 token.
Sebbene non esistano limiti specifici al numero di pixel in un documento oltre alla finestra di contesto del modello, le pagine più grandi vengono ridimensionate a una risoluzione massima di 3072 x 3072 mantenendo le proporzioni originali, mentre le pagine più piccole vengono ridimensionate a 768 x 768 pixel. Non è prevista alcuna riduzione dei costi per le pagine di dimensioni inferiori, ad eccezione della larghezza di banda, né un miglioramento delle prestazioni per le pagine di risoluzione superiore.
Per ottenere risultati ottimali:
- Ruota le pagine nell'orientamento corretto prima del caricamento.
- Evita pagine sfocate.
- Se utilizzi una singola pagina, posiziona il prompt di testo dopo la pagina.
Passaggi successivi
Per saperne di più, consulta le seguenti risorse:
- Strategie di prompt dei file: l'API Gemini supporta i prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali.
- Istruzioni di sistema: le istruzioni di sistema ti consentono di indirizzare il comportamento del modello in base alle tue esigenze e ai tuoi casi d'uso specifici.