Visualizza su ai.google.dev | Esegui in Google Colab | Visualizza il codice sorgente su GitHub |
L'API Gemini supporta prompt con dati di testo, immagini, audio e video, noti anche come prompt multimodali, il che significa che puoi includere questi tipi di file multimediali nei tuoi prompt. Per i file di piccole dimensioni, puoi indirizzare il modello Gemini direttamente a un file locale quando fornisci un prompt. Carica file di dimensioni maggiori con l'API File prima di includerli nei prompt.
L'API File consente di archiviare fino a 20 GB di file per progetto, con dimensioni che ogni file non supera i 2 GB. I file vengono archiviati per 48 ore e sono accessibili con la chiave API per la generazione entro questo periodo di tempo e non possono essere scaricati dall'API. L'API Files è disponibile senza costi in tutte le regioni in cui è disponibile l'API Gemini.
L'API File gestisce gli input che possono essere utilizzati per generare contenuti con model.generateContent
o model.streamGenerateContent
. Per informazioni sui formati di file validi (tipi MIME) e sui modelli supportati, consulta Formati di file supportati.
Questa guida mostra come utilizzare l'API File per caricare file multimediali e includerli in una chiamata GenerateContent
all'API Gemini. Per saperne di più, consulta gli esempi di codice.
Formati di file supportati
Gemini supportano i prompt con più formati file. Questa sezione illustra alcune considerazioni relative all'utilizzo di formati multimediali generici per prompt, in particolare file di immagine, audio, video e testo normale. Puoi utilizzare i file multimediali per inviare prompt solo con versioni specifiche del modello, come mostrato nella tabella seguente.
Modello | Immagini | Audio | Video | Testo normale |
---|---|---|---|---|
Gemini 1.5 Pro (release 008 e successive) | ✔ (massimo 3600 file immagine) | ✔ | ✔ | ✔ |
Gemini Pro Vision | ✔ (massimo 16 file immagine) | ✔ |
Formati dell'immagine
Puoi utilizzare i dati immagine per i prompt con i modelli gemini-pro-vision
e gemini-1.5-pro
. Quando utilizzi immagini per i prompt, queste sono soggette alle seguenti limitazioni e requisiti:
- Le immagini devono essere in uno dei seguenti tipi MIME di dati immagine:
- PNG - immagine/png
- JPEG - immagine/jpeg
- WEBP - immagine/webp
- HEIC - immagine/heic
- HEIF - immagine/heif
- Massimo 16 immagini singole per
gemini-pro-vision
e immagini sferiche pergemini-1.5-pro
- Non esistono limiti specifici al numero di pixel in un'immagine; tuttavia, le immagini più grandi vengono ridotte per adattarsi a una risoluzione massima di 3072 x 3072, mantenendo le proporzioni originali.
Formati audio
Puoi utilizzare i dati audio per i prompt con il modello gemini-1.5-pro
. Quando utilizzi
l'audio per i prompt, questi sono soggetti alle seguenti limitazioni e
requisiti:
- I dati audio sono supportati nei seguenti tipi MIME comuni:
- WAV: audio/wav
- MP3: audio/mp3
- AIFF - audio/aiff
- AAC - audio/aac
- OGG Vorbis - audio/ogg
- FLAC - audio/flac
- La durata massima supportata dei dati audio in un singolo prompt è di 9,5 ore.
- I file audio vengono ricampionati a una risoluzione dei dati di 16 Kbps e più canali audio vengono combinati in un unico canale.
- Non esiste un limite specifico al numero di file audio in un singolo prompt; tuttavia, la lunghezza totale combinata di tutti i file audio in un singolo prompt non può superare le 9,5 ore.
Formati video
Puoi usare i dati video per i prompt con il modello gemini-1.5-pro
.
I dati video sono supportati nei seguenti tipi MIME comuni:
- video/mp4
- video/mpeg
- video/mov
- video/avi
- video/x-flv
- video/mpg
- video/webm
- video/wmv
- video/3GPP
Il servizio API File campiona i video in immagini a 1 frame al secondo (FPS) e può essere soggetto a modifiche per offrire la migliore qualità di inferenza. Le singole immagini richiedono 258 token, indipendentemente dalla risoluzione e dalla qualità.
Formati di testo normale
L'API File supporta il caricamento di file di testo normale con i seguenti tipi MIME:
- testo/normale
- text/html
- text/css
- text/javascript
- application/x-javascript
- testo/x-typescript
- application/x-typescript
- testo/csv
- testo/markdown
- testo/x-python
- application/x-python-code
- application/json
- text/xml
- applicazione/rtf
- testo/rtf
Per i file di testo normale con un tipo MIME non presente nell'elenco, puoi provare a specificare manualmente uno dei tipi MIME precedenti.