Gemini

Gemini è una famiglia di modelli di IA generativa che consente agli sviluppatori di generare contenuti e risolvere problemi. Questi modelli sono progettati e addestrati per gestire testo e immagini come input. Questa guida fornisce informazioni su ogni variante di modello per aiutarti a decidere quale è la più adatta al tuo caso d'uso.

Lingue disponibili

I modelli Gemini sono addestrati per funzionare con le seguenti lingue: arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), Croato (hr), ceco (cs), danese (da), olandese (nl), inglese (en), estone (et), finlandese (fi), francese (fr), tedesco (de), greco (), greco (),eliwhihuiditjakolvltnoplptrorusrskslesswsvthtrukvi

I modelli PaLM funzionano bene solo con l'inglese. L'uso di altri linguaggi può produrre risultati inaspettati.

Varianti del modello

L'API Gemini offre diversi modelli ottimizzati per casi d'uso specifici. Ecco una breve panoramica delle varianti di Gemini disponibili:

Variante del modello Input parzialmente impostato Ottimizzato per
Gemini 1.5 Pro (anteprima) Audio, immagini, video e testo Testo Attività di ragionamento inclusi, a titolo esemplificativo, generazione di codice e testo, modifica del testo, risoluzione dei problemi, estrazione e generazione di dati
Gemini 1.5 Flash (anteprima) Audio, immagini, video e testo Testo Prestazioni rapide e versatili per un'ampia varietà di attività
Gemini 1.0 Pro Testo Testo Attività di elaborazione del linguaggio naturale, chat di testo e codice in più passaggi e generazione di codice
Gemini 1.0 Pro Vision Immagini, video e testo Testo Prestazioni ottimizzate per attività visive, come la generazione di descrizioni delle immagini o l'identificazione di oggetti nelle immagini
Incorporamento del testo Testo Incorporamenti di testo Genera incorporamenti di testo elastici con un massimo di 768 dimensioni per testo fino a 2048 token
Incorporamento Testo Incorporamenti di testo Genera incorporamenti di testo con 768 dimensioni per testo fino a 2048 token
AQA Testo Testo Eseguire attività attribuite alla risposta alle domande rispetto al testo fornito

La seguente tabella descrive gli attributi dei modelli Gemini comuni a tutte le varianti del modello:

Attributo Descrizione
Dati di addestramento Il limite di conoscenze per Gemini è all'inizio del 2023. Le conoscenze sugli eventi successivi a questo periodo sono limitate.
Lingue supportate Vedi le lingue disponibili
Parametri del modello configurabili
  • Top-p
  • Top-k
  • Temperatura
  • Interrompi sequenza
  • Lunghezza massima output
  • Numero di candidati per la risposta

Per informazioni su ciascuno di questi parametri, consulta la sezione relativa ai parametri del modello della guida sui modelli generativi.

Gemini 1.5 Pro (anteprima)

Gemini 1.5 Pro è un modello multimodale di medie dimensioni ottimizzato per un'ampia gamma di attività di ragionamento come:

  • Generazione del codice
  • Generazione di testo
  • Modifica del testo
  • Risoluzione dei problemi
  • Generazione di suggerimenti
  • Estrazione di informazioni
  • Estrazione o generazione di dati
  • Creazione di agenti IA

1.5 Pro è in grado di elaborare grandi quantità di dati contemporaneamente, tra cui 1 ora di video, 9,5 ore di audio, codebase con oltre 30.000 righe di codice o più di 700.000 parole.

1.5 Pro è in grado di gestire attività di apprendimento zero, one-shot e few-shot.

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-1.5-pro-latest
Input Audio, immagini, video e testo
parzialmente impostato Testo
Metodi di generazione supportati generateContent
Limite token di input[**] 1.048.576
Limite di token di output[**] 8.192
Numero massimo di immagini per prompt 3.600
Durata massima del video 1 ora
Lunghezza audio massima Circa 9,5 ore
Numero massimo di file audio per prompt 1
Sicurezza del modello Impostazioni di sicurezza applicate automaticamente che possono essere regolate dagli sviluppatori. Consulta la nostra pagina sulle impostazioni di sicurezza per i dettagli.
Limiti di frequenza[*]
Senza costi:
  • 2 rpm
  • 32.000 T/M
  • 50 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 rpm
  • 10 milioni di TPM
  • 10.000 RPD
  • 14.400.000.000 TPD
Due milioni di contesti:
  • 1 rpm
  • 2 milioni di TPM
  • 50 RPD
Istruzioni di sistema Prove di supporto
Modalità JSON Prove di supporto
Versione più recente gemini-1.5-pro-latest
Ultima versione stabile gemini-1.5-pro
Ultimo aggiornamento Aprile 2024

Gemini 1.5 Flash (anteprima)

Gemini 1.5 Flash è un modello multimodale veloce e versatile per la scalabilità in diverse attività.

Dettagli modello

Proprietà Descrizione
Codice modello gemini-1.5-flash-latest
Input Audio, immagini, video e testo
parzialmente impostato Testo
Metodi di generazione supportati generateContent
Limite token di input[**] 1.048.576
Limite di token di output[**] 8.192
Numero massimo di immagini per prompt 3.600
Durata massima del video 1 ora
Lunghezza audio massima Circa 9,5 ore
Numero massimo di file audio per prompt 1
Sicurezza del modello Impostazioni di sicurezza applicate automaticamente che possono essere regolate dagli sviluppatori. Consulta la nostra pagina sulle impostazioni di sicurezza per i dettagli.
Limiti di frequenza[*]
Senza costi:
  • 15 rpm
  • 1 milione di TPM
  • 1500 RPD
Pay-as-you-go:
  • 360 rpm
  • 10 milioni di TPM
  • 10.000 RPD
Istruzioni di sistema Prove di supporto
Modalità JSON Prove di supporto
Versione più recente gemini-1.5-flash-latest
Ultima versione stabile gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro è un modello NLP che gestisce attività come la chat di testo e codice in più passaggi e la generazione del codice.

1.0 Pro è in grado di gestire attività di apprendimento zero, one-shot e few-shot.

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-pro
Salvaguardie Testo
parzialmente impostato Testo
Metodi di generazione supportati
Python: generate_content
REST: generateContent
Limiti di frequenza[*]
Senza costi:
  • 15 rpm
  • 32.000 T/M
  • 1500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 rpm
  • 120.000 T/M
  • 30.000 RPD
  • 172.800.000 TPD
Istruzioni di sistema Non supportato
Modalità JSON Non supportato
Versione più recente gemini-1.0-pro-latest
Ultima versione stabile gemini-1.0-pro
Versioni stabili gemini-1.0-pro-001
Ultimo aggiornamento February 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision è un modello multimodale ottimizzato per le prestazioni che può eseguire attività di tipo visivo. Ad esempio, 1.0 Pro Vision può generare descrizioni delle immagini, identificare oggetti presenti nelle immagini, fornire informazioni sui luoghi o sugli oggetti presenti nelle immagini e altro ancora.

1.0 Pro Vision è in grado di gestire attività zero-shot, one-shot e few-shot.

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-pro-vision
Input Testo, video e immagini
parzialmente impostato Testo
Metodi di generazione supportati
Python: generate_content
REST: generateContent
Limite token di input[*] 12.288
Limite di token di output[*] 4096
Dimensione massima immagine Nessun limite
Numero massimo di immagini per prompt 16
Durata massima del video 2 minuti
Numero massimo di video per richiesta 1
Sicurezza del modello Impostazioni di sicurezza applicate automaticamente che possono essere regolate dagli sviluppatori. Consulta la nostra pagina sulle impostazioni di sicurezza per i dettagli.
Limite di frequenza[*] 60 richieste al minuto
Versione più recente gemini-1.0-pro-vision-latest
Ultima versione stabile gemini-1.0-pro-vision
Ultimo aggiornamento Dicembre 2023

Incorporamento di testo

Incorporamento del testo

Puoi utilizzare il modello di incorporamento del testo per generare incorporamenti di testo per il testo di input. Per ulteriori informazioni sul modello di incorporamento di testo, consulta la documentazione sull'IA generativa su Vertex AI sugli incorporamenti di testo.

Il modello di incorporamento di testo è ottimizzato per creare incorporamenti con 768 dimensioni per testi fino a 2048 token. L'incorporamento di testo offre dimensioni di incorporamento elastiche inferiori a 768. Puoi utilizzare gli incorporamenti elastici per generare dimensioni di output più piccole e risparmiare potenzialmente sui costi di elaborazione e archiviazione con una minima perdita delle prestazioni.

Dettagli modello
Proprietà Descrizione
Codice modello models/text-embedding-004 (text-embedding-preview-0409 in Vertex AI)
Salvaguardie Testo
parzialmente impostato Incorporamenti di testo
Limite di token di input 2048
Dimensioni della dimensione di output 768
Metodi di generazione supportati
Python: embed_content
REST: embedContent
Sicurezza del modello Nessuna impostazione di sicurezza regolabile.
Limite di frequenza[*] 1500 richieste al minuto
Ultimo aggiornamento Aprile 2024

Incorporamento

Puoi utilizzare il modello di incorporamento per generare incorporamenti di testo per il testo di input.

Il modello di incorporamento è ottimizzato per creare incorporamenti con 768 dimensioni per testo fino a 2048 token.

Incorporamento dei dettagli del modello
Proprietà Descrizione
Codice modello models/embedding-001
Salvaguardie Testo
parzialmente impostato Incorporamenti di testo
Limite di token di input 2048
Dimensioni della dimensione di output 768
Metodi di generazione supportati
Python: embed_content
REST: embedContent
Sicurezza del modello Nessuna impostazione di sicurezza regolabile.
Limite di frequenza[*] 1500 richieste al minuto
Ultimo aggiornamento Dicembre 2023

AQA

Puoi utilizzare il modello AQA per eseguire attività relative alla Question answering (AQA) relative a un documento, un corpus o una serie di passaggi. Il modello AQA restituisce le risposte alle domande basate sulle fonti fornite, insieme a una stima della probabilità di risposta.

Dettagli modello

Proprietà Descrizione
Codice modello models/aqa
Salvaguardie Testo
parzialmente impostato Testo
Metodi di generazione supportati
Python: GenerateAnswerRequest
REST: generateAnswer
Lingue supportate Inglese
Limite token di input[**] 7168
Limite di token di output[**] 1024
Sicurezza del modello Impostazioni di sicurezza applicate automaticamente che possono essere regolate dagli sviluppatori. Consulta la nostra pagina sulle impostazioni di sicurezza per i dettagli.
Limite di frequenza[*] 60 richieste al minuto
Ultimo aggiornamento Dicembre 2023

Guarda gli esempi per esplorare le capacità di queste varianti del modello.

[*] Un token equivale a circa 4 caratteri per i modelli Gemini. 100 token equivalgono a circa 60-80 parole inglesi.

[**] RPM: richieste al minuto
TPM: token al minuto
RPD: richieste al giorno
TPD: token al giorno

A causa delle limitazioni della capacità, i limiti di frequenza massimi specificati non sono garantiti.

Pattern dei nomi di versione del modello

I modelli Gemini sono disponibili in versione anteprima o stabile. Nel codice, puoi utilizzare uno dei seguenti formati di nome del modello per specificare il modello e la versione da utilizzare.

  • Più recente: rimanda alla versione più avanzata del modello per una generazione e una variante specificate. Il modello sottostante viene aggiornato regolarmente e potrebbe essere una versione di anteprima. Questo alias dovrebbe essere usato solo per le app per i test esplorativi e i prototipi.

    Per specificare la versione più recente, utilizza il seguente pattern: <model>-<generation>-<variation>-latest. Ad esempio, gemini-1.0-pro-latest.

  • Stabile più recente:rimanda alla versione stabile più recente rilasciata per la generazione e la variante del modello specificate.

    Per specificare la versione stabile più recente, utilizza il seguente pattern: <model>-<generation>-<variation>. Ad esempio, gemini-1.0-pro.

  • Stabile:rimanda a un modello stabile specifico. I modelli stabili non cambiano. La maggior parte delle app di produzione dovrebbe usare un modello stabile specifico.

    Per specificare una versione stabile, utilizza il seguente pattern: <model>-<generation>-<variation>-<version>. Ad esempio, gemini-1.0-pro-001.