Gemini è una famiglia di modelli di IA generativa che consente agli sviluppatori di generare contenuti e risolvere problemi. Questi modelli sono progettati e addestrati per gestire testo e immagini come input. Questa guida fornisce informazioni su ogni variante di modello per aiutarti a decidere qual è la più adatta al tuo caso d'uso.
Sicurezza e utilizzo previsto
I modelli di intelligenza artificiale generativa sono strumenti potenti, ma non sono privi di limitazioni. La loro versatilità e applicabilità a volte possono generare risultati imprevisti, ad esempio output imprecisi, distorti o offensivi. La post-elaborazione e la rigorosa valutazione manuale sono essenziali per limitare il rischio di danni derivanti da questo tipo di output. Consulta le linee guida sulla sicurezza per ulteriori suggerimenti sull'utilizzo sicuro.
I modelli forniti dall'API Gemini possono essere utilizzati per un'ampia gamma di applicazioni di IA generativa e di elaborazione del linguaggio naturale (NLP). L'utilizzo di queste funzioni è disponibile solo tramite l'API Gemini o l'app web Google AI Studio. L'utilizzo dell'API Gemini è inoltre soggetto alle Norme relative all'uso vietato dell'IA generativa e ai Termini di servizio dell'API Gemini.
Varianti del modello
L'API Gemini offre diversi modelli ottimizzati per casi d'uso specifici. Ecco una breve panoramica delle varianti di Gemini disponibili:
Variante del modello | Input | Output | Ottimizzato per |
---|---|---|---|
Gemini 1.5 Pro (anteprima) | Audio, immagini e testo | Testo | Attività di ragionamento tra cui, a titolo esemplificativo, generazione di codice e testo, modifica del testo, risoluzione dei problemi, estrazione e generazione di dati |
Gemini 1.5 Flash (anteprima) | Audio, immagini e testo | Testo | Prestazioni rapide e versatili per una vasta gamma di attività |
Gemini 1.0 Pro | Testo | Testo | Attività in linguaggio naturale, chat di codice e testo in più passaggi e generazione di codice |
Gemini 1.0 Pro Vision | Immagini e testo | Testo | Prestazioni ottimizzate per attività di carattere visivo, come la generazione di descrizioni delle immagini o l'identificazione di oggetti nelle immagini |
Incorporamento del testo | Testo | Incorporamenti di testo | Genera incorporamenti di testo elastici con un massimo di 768 dimensioni per testo fino a 2048 token |
Incorporamento | Testo | Incorporamenti di testo | Genera incorporamenti di testo con 768 dimensioni per testo fino a 2048 token |
AQA | Testo | Testo | Eseguire attività attribuite alle risposte alle domande rispetto al testo fornito |
La seguente tabella descrive gli attributi dei modelli Gemini che sono comuni a tutte le varianti di modello:
Attributo | Descrizione |
---|---|
Dati di addestramento | La soglia delle conoscenze per Gemini è l'inizio del 2023. La conoscenza degli eventi successivi a questo periodo è limitata. |
Lingue supportate | Scopri le lingue disponibili |
Parametri del modello configurabili |
|
Consulta la sezione dei parametri del modello della guida ai modelli generativi per informazioni su ciascuno di questi parametri.
Gemini 1.5 Pro (anteprima)
Gemini 1.5 Pro è un modello multimodale di medie dimensioni ottimizzato per un'ampia gamma di attività di ragionamento come:
- Generazione del codice
- Generazione di testo
- Modifica del testo
- Risoluzione dei problemi
- Generazione di suggerimenti
- Estrazione di informazioni
- Estrazione o generazione di dati
- Creazione di agenti IA
1.5 Pro è in grado di elaborare grandi quantità di dati contemporaneamente, tra cui 1 ora di video, 9,5 ore di audio, codebase con oltre 30.000 righe di codice o più di 700.000 parole.
1.5 Pro è in grado di gestire le attività di apprendimento zero, uno e few-shot.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | models/gemini-1.5-pro-latest |
nascosti | Audio, immagini e testo |
Output | Testo |
Metodi di generazione supportati |
generateContent
|
Limite token di input[**] | 1.048.576 |
Limite token di output[**] | 8.192 |
Numero massimo di immagini per prompt | 3.600 |
Durata massima del video | 1 ora |
Durata massima audio | Circa 9,5 ore |
Numero massimo di file audio per prompt | 1 |
Sicurezza del modello | Impostazioni di sicurezza applicate automaticamente che possono essere modificate dagli sviluppatori. Consulta la nostra pagina delle impostazioni di sicurezza per i dettagli. |
Limiti di frequenza[*] |
|
Istruzioni di sistema | Prove di supporto |
Modalità JSON | Prove di supporto |
Versione più recente | gemini-1.5-pro-latest |
Ultima versione stabile | gemini-1.5-pro |
Ultimo aggiornamento | Aprile 2024 |
Gemini 1.5 Flash (anteprima)
Gemini 1.5 Flash è un modello multimodale veloce e versatile per la scalabilità in diverse attività.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | gemini-1.5-flash |
Input | Audio, immagini e testo |
Output | Testo |
Metodi di generazione supportati |
generateContent
|
Limite token di input[**] | 1.048.576 |
Limite token di output[**] | 8.192 |
Numero massimo di immagini per prompt | 3.600 |
Durata massima del video | 1 ora |
Durata massima audio | Circa 9,5 ore |
Numero massimo di file audio per prompt | 1 |
Sicurezza del modello | Impostazioni di sicurezza applicate automaticamente che possono essere modificate dagli sviluppatori. Consulta la nostra pagina delle impostazioni di sicurezza per i dettagli. |
Limiti di frequenza[*] |
|
Istruzioni di sistema | Prove di supporto |
Modalità JSON | Prove di supporto |
Versione più recente | gemini-1.5-flash-latest |
Ultima versione stabile | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro è un modello NLP che gestisce attività come testo in più passaggi e chat di codice e generazione di codice.
1.0 Pro è in grado di gestire le attività di apprendimento zero, uno e few-shot.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | models/gemini-pro |
Input | Testo |
Output | Testo |
Metodi di generazione supportati |
generate_content
generateContent
|
Limiti di frequenza[*] |
|
Istruzioni di sistema | Non supportato |
Modalità JSON | Non supportato |
Versione più recente | gemini-1.0-pro-latest |
Ultima versione stabile | gemini-1.0-pro |
Versioni stabili | gemini-1.0-pro-001 |
Ultimo aggiornamento | February 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision è un modello multimodale ottimizzato per le prestazioni in grado di eseguire attività di tipo visivo. Ad esempio, 1.0 Pro Vision può generare descrizioni delle immagini, identificare oggetti presenti nelle immagini, fornire informazioni su luoghi o oggetti all'interno delle immagini e altro ancora.
1.0 Pro Vision è in grado di gestire attività zero, uno e few-shot.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | models/gemini-pro-vision |
nascosti | Testo e immagini |
Output | Testo |
Metodi di generazione supportati |
generate_content
generateContent
|
Limite token di input[*] | 12.288 |
Limite token di output[*] | 4096 |
Dimensione massima immagine | Nessun limite |
Numero massimo di immagini per prompt | 16 |
Durata massima del video | 2 minuti |
Numero massimo di video per richiesta | 1 |
Sicurezza del modello | Impostazioni di sicurezza applicate automaticamente che possono essere modificate dagli sviluppatori. Consulta la nostra pagina delle impostazioni di sicurezza per i dettagli. |
Limite di frequenza[*] | 60 richieste al minuto |
Versione più recente | gemini-1.0-pro-vision-latest |
Ultima versione stabile | gemini-1.0-pro-vision |
Ultimo aggiornamento | Dicembre 2023 |
Incorporamento di testo
Incorporamento del testo
Puoi utilizzare il modello di incorporamento di testo per generare incorporamenti di testo per il testo di input. Per saperne di più sul modello di incorporamento di testo, consulta la documentazione relativa all'IA generativa su Vertex AI sugli incorporamenti di testo.
Il modello di incorporamento di testo è ottimizzato per creare incorporamenti con 768 dimensioni per testi fino a 2048 token. L'incorporamento di testo offre dimensioni di incorporamento elastiche inferiori a 768. Puoi utilizzare incorporamenti elastici per generare dimensioni di output più piccole e potenzialmente risparmiare sui costi di computing e archiviazione con una minima perdita di prestazioni.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello |
models/text-embedding-004
(text-embedding-preview-0409 in
Vertex AI)
|
Input | Testo |
Output | Incorporamenti di testo |
Limite token di input | 2048 |
Dimensioni dimensioni di output | 768 |
Metodi di generazione supportati |
embed_content
embedContent
|
Sicurezza del modello | Nessuna impostazione di sicurezza regolabile. |
Limite di frequenza[*] | 1500 richieste al minuto |
Ultimo aggiornamento | Aprile 2024 |
Incorporamento
Puoi utilizzare il modello di incorporamento per generare incorporamenti di testo per il testo di input.
Il modello di incorporamento è ottimizzato per creare incorporamenti con 768 dimensioni per testi fino a 2048 token.
Dettagli del modello di incorporamento
Proprietà | Descrizione |
---|---|
Codice modello | models/embedding-001 |
Input | Testo |
Output | Incorporamenti di testo |
Limite token di input | 2048 |
Dimensioni dimensioni di output | 768 |
Metodi di generazione supportati |
embed_content
embedContent
|
Sicurezza del modello | Nessuna impostazione di sicurezza regolabile. |
Limite di frequenza[*] | 1500 richieste al minuto |
Ultimo aggiornamento | Dicembre 2023 |
AQA
Puoi utilizzare il modello AQA per eseguire attività relative alla risposta alle domande attribuite (AQA) su un documento, un corpus o un insieme di passaggi. Il modello AQA restituisce le risposte alle domande che si basano su fonti fornite, oltre a stimare la probabilità rispostabile.
Dettagli modello
Proprietà | Descrizione |
---|---|
Codice modello | models/aqa |
Input | Testo |
Output | Testo |
Metodi di generazione supportati |
GenerateAnswerRequest
generateAnswer
|
Lingue supportate | Inglese |
Limite token di input[**] | 7.168 |
Limite token di output[**] | 1024 |
Sicurezza del modello | Impostazioni di sicurezza applicate automaticamente che possono essere modificate dagli sviluppatori. Consulta la nostra pagina delle impostazioni di sicurezza per i dettagli. |
Limite di frequenza[*] | 60 richieste al minuto |
Ultimo aggiornamento | Dicembre 2023 |
Consulta gli esempi per esplorare le funzionalità di queste varianti dei modelli.
[*] Un token equivale a circa 4 caratteri per i modelli Gemini. 100 token corrispondono a circa 60-80 parole inglesi.
[**] RPM: richieste al minuto
TPM: token al minuto
RPD: richieste al giorno
TPD: token al giorno
A causa delle limitazioni di capacità, i limiti di frequenza massimi specificati non sono garantiti.
Pattern dei nomi delle versioni del modello
I modelli Gemini sono disponibili in versione anteprima o stabile. Nel codice, puoi utilizzare uno dei seguenti formati dei nomi dei modelli per specificare quale modello e versione vuoi utilizzare.
Più recente: rimanda alla versione all'avanguardia del modello per una generazione e una variazione specificate. Il modello sottostante viene aggiornato regolarmente e potrebbe essere una versione in anteprima. Solo le app e i prototipi di test esplorativo dovrebbero utilizzare questo alias.
Per specificare la versione più recente, utilizza il seguente pattern:
<model>-<generation>-<variation>-latest
. Ad esempio,gemini-1.0-pro-latest
.Stabile più recente: rimanda alla versione stabile più recente rilasciata per la generazione e la variazione del modello specificate.
Per specificare l'ultima versione stabile, utilizza il seguente pattern:
<model>-<generation>-<variation>
. Ad esempio,gemini-1.0-pro
.Stabile: rimanda a un modello stabile specifico. I modelli stabili non cambiano. La maggior parte delle app di produzione dovrebbe utilizzare un modello stabile specifico.
Per specificare una versione stabile, utilizza il seguente pattern:
<model>-<generation>-<variation>-<version>
. Ad esempio,gemini-1.0-pro-001
.