Gemini

Gemini è una famiglia di modelli di IA generativa che consente agli sviluppatori di generare contenuti e risolvere problemi. Questi modelli sono progettati e addestrati per gestire testo e immagini come input. Questa guida fornisce informazioni su ogni variante di modello per aiutarti a decidere qual è la più adatta al tuo caso d'uso.

Sicurezza e utilizzo previsto

I modelli di intelligenza artificiale generativa sono strumenti potenti, ma non sono privi di limitazioni. La loro versatilità e applicabilità a volte possono generare risultati imprevisti, ad esempio output imprecisi, distorti o offensivi. La post-elaborazione e la rigorosa valutazione manuale sono essenziali per limitare il rischio di danni derivanti da questo tipo di output. Consulta le linee guida sulla sicurezza per ulteriori suggerimenti sull'utilizzo sicuro.

I modelli forniti dall'API Gemini possono essere utilizzati per un'ampia gamma di applicazioni di IA generativa e di elaborazione del linguaggio naturale (NLP). L'utilizzo di queste funzioni è disponibile solo tramite l'API Gemini o l'app web Google AI Studio. L'utilizzo dell'API Gemini è inoltre soggetto alle Norme relative all'uso vietato dell'IA generativa e ai Termini di servizio dell'API Gemini.

Varianti del modello

L'API Gemini offre diversi modelli ottimizzati per casi d'uso specifici. Ecco una breve panoramica delle varianti di Gemini disponibili:

Variante del modello Input Output Ottimizzato per
Gemini 1.5 Pro (anteprima) Audio, immagini e testo Testo Attività di ragionamento tra cui, a titolo esemplificativo, generazione di codice e testo, modifica del testo, risoluzione dei problemi, estrazione e generazione di dati
Gemini 1.5 Flash (anteprima) Audio, immagini e testo Testo Prestazioni rapide e versatili per una vasta gamma di attività
Gemini 1.0 Pro Testo Testo Attività in linguaggio naturale, chat di codice e testo in più passaggi e generazione di codice
Gemini 1.0 Pro Vision Immagini e testo Testo Prestazioni ottimizzate per attività di carattere visivo, come la generazione di descrizioni delle immagini o l'identificazione di oggetti nelle immagini
Incorporamento del testo Testo Incorporamenti di testo Genera incorporamenti di testo elastici con un massimo di 768 dimensioni per testo fino a 2048 token
Incorporamento Testo Incorporamenti di testo Genera incorporamenti di testo con 768 dimensioni per testo fino a 2048 token
AQA Testo Testo Eseguire attività attribuite alle risposte alle domande rispetto al testo fornito

La seguente tabella descrive gli attributi dei modelli Gemini che sono comuni a tutte le varianti di modello:

Attributo Descrizione
Dati di addestramento La soglia delle conoscenze per Gemini è l'inizio del 2023. La conoscenza degli eventi successivi a questo periodo è limitata.
Lingue supportate Scopri le lingue disponibili
Parametri del modello configurabili
  • Top-p
  • Top-k
  • Temperatura
  • Interrompi sequenza
  • Lunghezza massima dell'output
  • Numero di candidati a risposta

Consulta la sezione dei parametri del modello della guida ai modelli generativi per informazioni su ciascuno di questi parametri.

Gemini 1.5 Pro (anteprima)

Gemini 1.5 Pro è un modello multimodale di medie dimensioni ottimizzato per un'ampia gamma di attività di ragionamento come:

  • Generazione del codice
  • Generazione di testo
  • Modifica del testo
  • Risoluzione dei problemi
  • Generazione di suggerimenti
  • Estrazione di informazioni
  • Estrazione o generazione di dati
  • Creazione di agenti IA

1.5 Pro è in grado di elaborare grandi quantità di dati contemporaneamente, tra cui 1 ora di video, 9,5 ore di audio, codebase con oltre 30.000 righe di codice o più di 700.000 parole.

1.5 Pro è in grado di gestire le attività di apprendimento zero, uno e few-shot.

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-1.5-pro-latest
nascosti Audio, immagini e testo
Output Testo
Metodi di generazione supportati generateContent
Limite token di input[**] 1.048.576
Limite token di output[**] 8.192
Numero massimo di immagini per prompt 3.600
Durata massima del video 1 ora
Durata massima audio Circa 9,5 ore
Numero massimo di file audio per prompt 1
Sicurezza del modello Impostazioni di sicurezza applicate automaticamente che possono essere modificate dagli sviluppatori. Consulta la nostra pagina delle impostazioni di sicurezza per i dettagli.
Limiti di frequenza[*]
Senza costi:
  • 2 rpm
  • 32.000 T/M
  • 50 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 rpm
  • 10 milioni di TPM
  • 10.000 RPD
  • 14.400.000.000 TPD
Contesto Due milioni:
  • 1 rpm
  • 2 milioni di TPM
  • 50 RPD
Istruzioni di sistema Prove di supporto
Modalità JSON Prove di supporto
Versione più recente gemini-1.5-pro-latest
Ultima versione stabile gemini-1.5-pro
Ultimo aggiornamento Aprile 2024

Gemini 1.5 Flash (anteprima)

Gemini 1.5 Flash è un modello multimodale veloce e versatile per la scalabilità in diverse attività.

Dettagli modello

Proprietà Descrizione
Codice modello gemini-1.5-flash
Input Audio, immagini e testo
Output Testo
Metodi di generazione supportati generateContent
Limite token di input[**] 1.048.576
Limite token di output[**] 8.192
Numero massimo di immagini per prompt 3.600
Durata massima del video 1 ora
Durata massima audio Circa 9,5 ore
Numero massimo di file audio per prompt 1
Sicurezza del modello Impostazioni di sicurezza applicate automaticamente che possono essere modificate dagli sviluppatori. Consulta la nostra pagina delle impostazioni di sicurezza per i dettagli.
Limiti di frequenza[*]
Senza costi:
  • 15 rpm
  • 1 milione di TPM
  • 1500 RPD
Pay-as-you-go:
  • 360 rpm
  • 10 milioni di TPM
  • 10.000 RPD
Istruzioni di sistema Prove di supporto
Modalità JSON Prove di supporto
Versione più recente gemini-1.5-flash-latest
Ultima versione stabile gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro è un modello NLP che gestisce attività come testo in più passaggi e chat di codice e generazione di codice.

1.0 Pro è in grado di gestire le attività di apprendimento zero, uno e few-shot.

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-pro
Input Testo
Output Testo
Metodi di generazione supportati
Python: generate_content
REST: generateContent
Limiti di frequenza[*]
Senza costi:
  • 15 rpm
  • 32.000 T/M
  • 1.500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 rpm
  • 120.000 T/M
  • 30.000 RPD
  • 172.800.000 TPD
Istruzioni di sistema Non supportato
Modalità JSON Non supportato
Versione più recente gemini-1.0-pro-latest
Ultima versione stabile gemini-1.0-pro
Versioni stabili gemini-1.0-pro-001
Ultimo aggiornamento February 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision è un modello multimodale ottimizzato per le prestazioni in grado di eseguire attività di tipo visivo. Ad esempio, 1.0 Pro Vision può generare descrizioni delle immagini, identificare oggetti presenti nelle immagini, fornire informazioni su luoghi o oggetti all'interno delle immagini e altro ancora.

1.0 Pro Vision è in grado di gestire attività zero, uno e few-shot.

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-pro-vision
nascosti Testo e immagini
Output Testo
Metodi di generazione supportati
Python: generate_content
REST: generateContent
Limite token di input[*] 12.288
Limite token di output[*] 4096
Dimensione massima immagine Nessun limite
Numero massimo di immagini per prompt 16
Durata massima del video 2 minuti
Numero massimo di video per richiesta 1
Sicurezza del modello Impostazioni di sicurezza applicate automaticamente che possono essere modificate dagli sviluppatori. Consulta la nostra pagina delle impostazioni di sicurezza per i dettagli.
Limite di frequenza[*] 60 richieste al minuto
Versione più recente gemini-1.0-pro-vision-latest
Ultima versione stabile gemini-1.0-pro-vision
Ultimo aggiornamento Dicembre 2023

Incorporamento di testo

Incorporamento del testo

Puoi utilizzare il modello di incorporamento di testo per generare incorporamenti di testo per il testo di input. Per saperne di più sul modello di incorporamento di testo, consulta la documentazione relativa all'IA generativa su Vertex AI sugli incorporamenti di testo.

Il modello di incorporamento di testo è ottimizzato per creare incorporamenti con 768 dimensioni per testi fino a 2048 token. L'incorporamento di testo offre dimensioni di incorporamento elastiche inferiori a 768. Puoi utilizzare incorporamenti elastici per generare dimensioni di output più piccole e potenzialmente risparmiare sui costi di computing e archiviazione con una minima perdita di prestazioni.

Dettagli modello
Proprietà Descrizione
Codice modello models/text-embedding-004 (text-embedding-preview-0409 in Vertex AI)
Input Testo
Output Incorporamenti di testo
Limite token di input 2048
Dimensioni dimensioni di output 768
Metodi di generazione supportati
Python: embed_content
REST: embedContent
Sicurezza del modello Nessuna impostazione di sicurezza regolabile.
Limite di frequenza[*] 1500 richieste al minuto
Ultimo aggiornamento Aprile 2024

Incorporamento

Puoi utilizzare il modello di incorporamento per generare incorporamenti di testo per il testo di input.

Il modello di incorporamento è ottimizzato per creare incorporamenti con 768 dimensioni per testi fino a 2048 token.

Dettagli del modello di incorporamento
Proprietà Descrizione
Codice modello models/embedding-001
Input Testo
Output Incorporamenti di testo
Limite token di input 2048
Dimensioni dimensioni di output 768
Metodi di generazione supportati
Python: embed_content
REST: embedContent
Sicurezza del modello Nessuna impostazione di sicurezza regolabile.
Limite di frequenza[*] 1500 richieste al minuto
Ultimo aggiornamento Dicembre 2023

AQA

Puoi utilizzare il modello AQA per eseguire attività relative alla risposta alle domande attribuite (AQA) su un documento, un corpus o un insieme di passaggi. Il modello AQA restituisce le risposte alle domande che si basano su fonti fornite, oltre a stimare la probabilità rispostabile.

Dettagli modello

Proprietà Descrizione
Codice modello models/aqa
Input Testo
Output Testo
Metodi di generazione supportati
Python: GenerateAnswerRequest
REST: generateAnswer
Lingue supportate Inglese
Limite token di input[**] 7.168
Limite token di output[**] 1024
Sicurezza del modello Impostazioni di sicurezza applicate automaticamente che possono essere modificate dagli sviluppatori. Consulta la nostra pagina delle impostazioni di sicurezza per i dettagli.
Limite di frequenza[*] 60 richieste al minuto
Ultimo aggiornamento Dicembre 2023

Consulta gli esempi per esplorare le funzionalità di queste varianti dei modelli.

[*] Un token equivale a circa 4 caratteri per i modelli Gemini. 100 token corrispondono a circa 60-80 parole inglesi.

[**] RPM: richieste al minuto
TPM: token al minuto
RPD: richieste al giorno
TPD: token al giorno

A causa delle limitazioni di capacità, i limiti di frequenza massimi specificati non sono garantiti.

Pattern dei nomi delle versioni del modello

I modelli Gemini sono disponibili in versione anteprima o stabile. Nel codice, puoi utilizzare uno dei seguenti formati dei nomi dei modelli per specificare quale modello e versione vuoi utilizzare.

  • Più recente: rimanda alla versione all'avanguardia del modello per una generazione e una variazione specificate. Il modello sottostante viene aggiornato regolarmente e potrebbe essere una versione in anteprima. Solo le app e i prototipi di test esplorativo dovrebbero utilizzare questo alias.

    Per specificare la versione più recente, utilizza il seguente pattern: <model>-<generation>-<variation>-latest. Ad esempio, gemini-1.0-pro-latest.

  • Stabile più recente: rimanda alla versione stabile più recente rilasciata per la generazione e la variazione del modello specificate.

    Per specificare l'ultima versione stabile, utilizza il seguente pattern: <model>-<generation>-<variation>. Ad esempio, gemini-1.0-pro.

  • Stabile: rimanda a un modello stabile specifico. I modelli stabili non cambiano. La maggior parte delle app di produzione dovrebbe utilizzare un modello stabile specifico.

    Per specificare una versione stabile, utilizza il seguente pattern: <model>-<generation>-<variation>-<version>. Ad esempio, gemini-1.0-pro-001.