Gemini è una famiglia di modelli di IA generativa che consente agli sviluppatori di generare contenuti e risolvere problemi. Questi modelli sono progettati e addestrati per gestire testo e immagini come input. Questa guida fornisce informazioni su ogni variante di modello per aiutarti a decidere quale è la più adatta al tuo caso d'uso.
Lingue disponibili
I modelli Gemini sono addestrati per funzionare con le seguenti lingue: arabo (ar
),
bengalese (bn
), bulgaro (bg
), cinese semplificato e tradizionale (zh
),
Croato (hr
), ceco (cs
), danese (da
), olandese (nl
), inglese (en
),
estone (et
), finlandese (fi
), francese (fr
), tedesco (de
), greco (), greco (),el
iw
hi
hu
id
it
ja
ko
lv
lt
no
pl
pt
ro
ru
sr
sk
sl
es
sw
sv
th
tr
uk
vi
I modelli PaLM funzionano bene solo con l'inglese. L'uso di altri linguaggi può produrre risultati inaspettati.
Varianti del modello
L'API Gemini offre diversi modelli ottimizzati per casi d'uso specifici. Ecco una breve panoramica delle varianti di Gemini disponibili:
Variante del modello | Input | parzialmente impostato | Ottimizzato per |
---|---|---|---|
Gemini 1.5 Pro (anteprima) | Audio, immagini, video e testo | Testo | Attività di ragionamento inclusi, a titolo esemplificativo, generazione di codice e testo, modifica del testo, risoluzione dei problemi, estrazione e generazione di dati |
Gemini 1.5 Flash (anteprima) | Audio, immagini, video e testo | Testo | Prestazioni rapide e versatili per un'ampia varietà di attività |
Gemini 1.0 Pro | Testo | Testo | Attività di elaborazione del linguaggio naturale, chat di testo e codice in più passaggi e generazione di codice |
Gemini 1.0 Pro Vision | Immagini, video e testo | Testo | Prestazioni ottimizzate per attività visive, come la generazione di descrizioni delle immagini o l'identificazione di oggetti nelle immagini |
Incorporamento del testo | Testo | Incorporamenti di testo | Genera incorporamenti di testo elastici con un massimo di 768 dimensioni per testo fino a 2048 token |
Incorporamento | Testo | Incorporamenti di testo | Genera incorporamenti di testo con 768 dimensioni per testo fino a 2048 token |
AQA | Testo | Testo | Eseguire attività attribuite alla risposta alle domande rispetto al testo fornito |
La seguente tabella descrive gli attributi dei modelli Gemini comuni a tutte le varianti del modello:
Attributo | Descrizione |
---|---|
Dati di addestramento | Il limite di conoscenze per Gemini è all'inizio del 2023. Le conoscenze sugli eventi successivi a questo periodo sono limitate. |
Lingue supportate | Vedi le lingue disponibili |
Parametri del modello configurabili |
|
Per informazioni su ciascuno di questi parametri, consulta la sezione relativa ai parametri del modello della guida sui modelli generativi.
Gemini 1.5 Pro (anteprima)
Gemini 1.5 Pro è un modello multimodale di medie dimensioni ottimizzato per un'ampia gamma di attività di ragionamento come:
- Generazione del codice
- Generazione di testo
- Modifica del testo
- Risoluzione dei problemi
- Generazione di suggerimenti
- Estrazione di informazioni
- Estrazione o generazione di dati
- Creazione di agenti IA
1.5 Pro è in grado di elaborare grandi quantità di dati contemporaneamente, tra cui 1 ora di video, 9,5 ore di audio, codebase con oltre 30.000 righe di codice o più di 700.000 parole.
1.5 Pro è in grado di gestire attività di apprendimento zero, one-shot e few-shot.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | models/gemini-1.5-pro-latest |
Input | Audio, immagini, video e testo |
parzialmente impostato | Testo |
Metodi di generazione supportati |
generateContent
|
Limite token di input[**] | 1.048.576 |
Limite di token di output[**] | 8.192 |
Numero massimo di immagini per prompt | 3.600 |
Durata massima del video | 1 ora |
Lunghezza audio massima | Circa 9,5 ore |
Numero massimo di file audio per prompt | 1 |
Sicurezza del modello | Impostazioni di sicurezza applicate automaticamente che possono essere regolate dagli sviluppatori. Consulta la nostra pagina sulle impostazioni di sicurezza per i dettagli. |
Limiti di frequenza[*] |
|
Istruzioni di sistema | Prove di supporto |
Modalità JSON | Prove di supporto |
Versione più recente | gemini-1.5-pro-latest |
Ultima versione stabile | gemini-1.5-pro |
Ultimo aggiornamento | Aprile 2024 |
Gemini 1.5 Flash (anteprima)
Gemini 1.5 Flash è un modello multimodale veloce e versatile per la scalabilità in diverse attività.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | gemini-1.5-flash-latest |
Input | Audio, immagini, video e testo |
parzialmente impostato | Testo |
Metodi di generazione supportati |
generateContent
|
Limite token di input[**] | 1.048.576 |
Limite di token di output[**] | 8.192 |
Numero massimo di immagini per prompt | 3.600 |
Durata massima del video | 1 ora |
Lunghezza audio massima | Circa 9,5 ore |
Numero massimo di file audio per prompt | 1 |
Sicurezza del modello | Impostazioni di sicurezza applicate automaticamente che possono essere regolate dagli sviluppatori. Consulta la nostra pagina sulle impostazioni di sicurezza per i dettagli. |
Limiti di frequenza[*] |
|
Istruzioni di sistema | Prove di supporto |
Modalità JSON | Prove di supporto |
Versione più recente | gemini-1.5-flash-latest |
Ultima versione stabile | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro è un modello NLP che gestisce attività come la chat di testo e codice in più passaggi e la generazione del codice.
1.0 Pro è in grado di gestire attività di apprendimento zero, one-shot e few-shot.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | models/gemini-pro |
Salvaguardie | Testo |
parzialmente impostato | Testo |
Metodi di generazione supportati |
generate_content
generateContent
|
Limiti di frequenza[*] |
|
Istruzioni di sistema | Non supportato |
Modalità JSON | Non supportato |
Versione più recente | gemini-1.0-pro-latest |
Ultima versione stabile | gemini-1.0-pro |
Versioni stabili | gemini-1.0-pro-001 |
Ultimo aggiornamento | February 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision è un modello multimodale ottimizzato per le prestazioni che può eseguire attività di tipo visivo. Ad esempio, 1.0 Pro Vision può generare descrizioni delle immagini, identificare oggetti presenti nelle immagini, fornire informazioni sui luoghi o sugli oggetti presenti nelle immagini e altro ancora.
1.0 Pro Vision è in grado di gestire attività zero-shot, one-shot e few-shot.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | models/gemini-pro-vision |
Input | Testo, video e immagini |
parzialmente impostato | Testo |
Metodi di generazione supportati |
generate_content
generateContent
|
Limite token di input[*] | 12.288 |
Limite di token di output[*] | 4096 |
Dimensione massima immagine | Nessun limite |
Numero massimo di immagini per prompt | 16 |
Durata massima del video | 2 minuti |
Numero massimo di video per richiesta | 1 |
Sicurezza del modello | Impostazioni di sicurezza applicate automaticamente che possono essere regolate dagli sviluppatori. Consulta la nostra pagina sulle impostazioni di sicurezza per i dettagli. |
Limite di frequenza[*] | 60 richieste al minuto |
Versione più recente | gemini-1.0-pro-vision-latest |
Ultima versione stabile | gemini-1.0-pro-vision |
Ultimo aggiornamento | Dicembre 2023 |
Incorporamento di testo
Incorporamento del testo
Puoi utilizzare il modello di incorporamento del testo per generare incorporamenti di testo per il testo di input. Per ulteriori informazioni sul modello di incorporamento di testo, consulta la documentazione sull'IA generativa su Vertex AI sugli incorporamenti di testo.
Il modello di incorporamento di testo è ottimizzato per creare incorporamenti con 768 dimensioni per testi fino a 2048 token. L'incorporamento di testo offre dimensioni di incorporamento elastiche inferiori a 768. Puoi utilizzare gli incorporamenti elastici per generare dimensioni di output più piccole e risparmiare potenzialmente sui costi di elaborazione e archiviazione con una minima perdita delle prestazioni.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello |
models/text-embedding-004
(text-embedding-preview-0409 in
Vertex AI)
|
Salvaguardie | Testo |
parzialmente impostato | Incorporamenti di testo |
Limite di token di input | 2048 |
Dimensioni della dimensione di output | 768 |
Metodi di generazione supportati |
embed_content
embedContent
|
Sicurezza del modello | Nessuna impostazione di sicurezza regolabile. |
Limite di frequenza[*] | 1500 richieste al minuto |
Ultimo aggiornamento | Aprile 2024 |
Incorporamento
Puoi utilizzare il modello di incorporamento per generare incorporamenti di testo per il testo di input.
Il modello di incorporamento è ottimizzato per creare incorporamenti con 768 dimensioni per testo fino a 2048 token.
Incorporamento dei dettagli del modello
Proprietà | Descrizione |
---|---|
Codice modello | models/embedding-001 |
Salvaguardie | Testo |
parzialmente impostato | Incorporamenti di testo |
Limite di token di input | 2048 |
Dimensioni della dimensione di output | 768 |
Metodi di generazione supportati |
embed_content
embedContent
|
Sicurezza del modello | Nessuna impostazione di sicurezza regolabile. |
Limite di frequenza[*] | 1500 richieste al minuto |
Ultimo aggiornamento | Dicembre 2023 |
AQA
Puoi utilizzare il modello AQA per eseguire attività relative alla Question answering (AQA) relative a un documento, un corpus o una serie di passaggi. Il modello AQA restituisce le risposte alle domande basate sulle fonti fornite, insieme a una stima della probabilità di risposta.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | models/aqa |
Salvaguardie | Testo |
parzialmente impostato | Testo |
Metodi di generazione supportati |
GenerateAnswerRequest
generateAnswer
|
Lingue supportate | Inglese |
Limite token di input[**] | 7168 |
Limite di token di output[**] | 1024 |
Sicurezza del modello | Impostazioni di sicurezza applicate automaticamente che possono essere regolate dagli sviluppatori. Consulta la nostra pagina sulle impostazioni di sicurezza per i dettagli. |
Limite di frequenza[*] | 60 richieste al minuto |
Ultimo aggiornamento | Dicembre 2023 |
Guarda gli esempi per esplorare le capacità di queste varianti del modello.
[*] Un token equivale a circa 4 caratteri per i modelli Gemini. 100 token equivalgono a circa 60-80 parole inglesi.
[**] RPM: richieste al minuto
TPM: token al minuto
RPD: richieste al giorno
TPD: token al giorno
A causa delle limitazioni della capacità, i limiti di frequenza massimi specificati non sono
garantiti.
Pattern dei nomi di versione del modello
I modelli Gemini sono disponibili in versione anteprima o stabile. Nel codice, puoi utilizzare uno dei seguenti formati di nome del modello per specificare il modello e la versione da utilizzare.
Più recente: rimanda alla versione più avanzata del modello per una generazione e una variante specificate. Il modello sottostante viene aggiornato regolarmente e potrebbe essere una versione di anteprima. Questo alias dovrebbe essere usato solo per le app per i test esplorativi e i prototipi.
Per specificare la versione più recente, utilizza il seguente pattern:
<model>-<generation>-<variation>-latest
. Ad esempio,gemini-1.0-pro-latest
.Stabile più recente:rimanda alla versione stabile più recente rilasciata per la generazione e la variante del modello specificate.
Per specificare la versione stabile più recente, utilizza il seguente pattern:
<model>-<generation>-<variation>
. Ad esempio,gemini-1.0-pro
.Stabile:rimanda a un modello stabile specifico. I modelli stabili non cambiano. La maggior parte delle app di produzione dovrebbe usare un modello stabile specifico.
Per specificare una versione stabile, utilizza il seguente pattern:
<model>-<generation>-<variation>-<version>
. Ad esempio,gemini-1.0-pro-001
.