Gemini

Varianti del modello

L'API Gemini offre diversi modelli ottimizzati per un uso specifico d'uso diversi. Ecco una breve panoramica delle varianti di Gemini disponibili:

Variante del modello Input Output Ottimizzato per
Gemini 1.5 Pro
gemini-1.5-pro
Audio, immagini, video e testo Testo Attività di ragionamento complesse come la generazione di codice e testo, modifica del testo, problem solving, estrazione e generazione di dati
Gemini 1.5 Flash
gemini-1.5-flash
Audio, immagini, video e testo Testo Prestazioni rapide e versatili per un'ampia varietà di attività
Gemini 1.0 Pro
gemini-1.0-pro
Testo Testo Attività di elaborazione del linguaggio naturale, chat di testo e codice in più passaggi e programmazione generazione
(Deprecato) Gemini 1.0 Pro Vision
gemini-pro-vision
Immagini, video e testo Testo Attività relative alla grafica, come la generazione di immagini descrizioni o identificare oggetti nelle immagini
Incorporamento del testo
text-embedding-004
Testo Incorporamenti di testo Misurazione della correlazione delle stringhe di testo
AQA
aqa
Testo Testo Fornire risposte alle domande basate sulla fonte

La seguente tabella descrive gli attributi dei modelli Gemini che sono comuni a tutte le varianti di modello:

Attributo Descrizione
Dati di addestramento Il limite di conoscenze per Gemini è novembre 2023. Le conoscenze sugli eventi successivi a questo periodo sono limitate.
Lingue supportate Vedi le lingue disponibili
Parametri del modello configurabili
  • Top-p
  • Top-k
  • Temperatura
  • Interrompi sequenza
  • Lunghezza massima output
  • Numero di candidati per la risposta

Consulta i parametri del modello del i modelli generativi forniscono informazioni su ciascuno di questi parametri.

Gemini 1.5 Flash

Gemini 1.5 Flash è un modello multimodale veloce e versatile per la scalabilità diverse attività.

Prova in AI Studio

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-1.5-flash
Tipi di dati supportati

Input

Audio, immagini, video e testo

Uscita

Testo

Limiti dei token[*]

Limite di token di input

1.048.576

Limite di token di output

8.192

Specifiche audio/video

Numero massimo di immagini per prompt

3.600

Durata massima del video

1 ora

Durata massima dell'audio

Circa 9,5 ore

Limiti di frequenza[**]
Senza costi:
  • 15 rpm
  • 1 milione di TPM
  • 1500 RPD
.
. Pay-as-you-go:
  • 1.000 rpm
  • 2 milioni di TPM

Istruzioni di sistema

Supportato

Modalità JSON

Supportato

Schema JSON

Non supportato

Impostazioni di sicurezza regolabili

Supportato

Memorizzazione nella cache

Supportato

Ottimizzazione

Non supportato

Chiamate di funzione

Supportato

Configurazione della chiamata di funzione

Supportato

Esecuzione del codice

Supportato

Aggiornamento più recente Maggio 2024

Gemini 1.5 Pro

Gemini 1.5 Pro è un modello multimodale di medie dimensioni ottimizzato per per svolgere un'ampia gamma di attività di ragionamento. 1.5 Pro può elaborare grandi quantità di dati contemporaneamente, incluse 2 ore di video, 19 ore di audio, codebase con 60.000 righe di codice o 2000 pagine di testo.

Prova in AI Studio

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-1.5-pro
Tipi di dati supportati

Input

Audio, immagini, video e testo

Uscita

Testo

Limiti dei token[*]

Limite di token di input

2.097.152

Limite di token di output

8.192

Specifiche audio/video

Numero massimo di immagini per prompt

7200

Durata massima del video

2 ore

Durata massima dell'audio

Circa 19 ore

Limiti di frequenza[**]
Senza costi:
  • 2 rpm
  • 32.000 T/M
  • 50 RPD
.
. Pay-as-you-go:
  • 360 rpm
  • 2 milioni di TPM
  • 10.000 RPD

Istruzioni di sistema

Supportato

Modalità JSON

Supportato

Schema JSON

Supportato

Impostazioni di sicurezza regolabili

Supportato

Memorizzazione nella cache

Supportato

Ottimizzazione

Non supportato

Chiamate di funzione

Supportato

Configurazione della chiamata di funzione

Supportato

Esecuzione del codice

Supportato

Aggiornamento più recente Maggio 2024

Gemini 1.0 Pro

Gemini 1.0 Pro è un modello NLP che gestisce attività come testo in più passaggi e chat di codice e generazione del codice.

Prova in AI Studio

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-1.0-pro
Tipi di dati supportati

Ingresso

Testo

Uscita

Testo

Limiti di frequenza[**]
Senza costi:
  • 15 rpm
  • 32.000 T/M
  • 1500 RPD
.
. Pay-as-you-go:
  • 360 rpm
  • 120.000 T/M
  • 30.000 RPD

Istruzioni di sistema

Non supportato

Modalità JSON

Non supportato

Schema JSON

Non supportato

Impostazioni di sicurezza regolabili

Supportato

Memorizzazione nella cache

Non supportato

Ottimizzazione

Supportato

Chiamate di funzione

Supportato

Configurazione della chiamata di funzione

Non supportato

Esecuzione del codice

Non supportato

Aggiornamento più recente Febbraio 2024

(Deprecato) Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision è un modello multimodale ottimizzato per le prestazioni in grado di eseguire attività legate alle immagini. Ad esempio, 1.0 Pro Vision può generare descrizioni delle immagini, identificare gli oggetti presenti nelle immagini, fornire informazioni su luoghi o oggetti presenti nelle immagini e altro ancora.

Dettagli modello

Proprietà Descrizione
Codice modello models/gemini-pro-vision
Tipi di dati supportati

Input

Immagini, video e testo

Uscita

Testo

Limiti dei token[*]

Limite di token di input

12.288

Limite di token di output

4096

Specifiche audio/video

Durata massima del video

2 minuti

Limiti di frequenza[**] 60 richieste al minuto

Istruzioni di sistema

Non supportato

Modalità JSON

Non supportato

Schema JSON

Non supportato

Impostazioni di sicurezza regolabili

Supportato

Memorizzazione nella cache

Non supportato

Ottimizzazione

Non supportato

Chiamate di funzione

Supportato

Configurazione della chiamata di funzione

Non supportato

Esecuzione del codice

Non supportato

Aggiornamento più recente Dicembre 2023

Incorporamento di testo

Incorporamento del testo

È possibile utilizzare il modello di incorporamento del testo per generare incorporamenti di testo per del testo di input. Per maggiori informazioni sul modello di incorporamento del testo, visita la Documentazione sull'AI generativa su Vertex AI sugli incorporamenti di testo.

Il modello di incorporamento del testo è ottimizzato per creare incorporamenti con 768 per un testo fino a 2048 token. L'incorporamento del testo offre flessibilità dimensioni di incorporamento inferiori a 768. Puoi usare gli incorporamenti elastici per generare di dimensioni di output più ridotte e un potenziale risparmio sui costi di elaborazione e archiviazione con una lieve perdita di prestazioni.

Dettagli modello
Proprietà Descrizione
Codice modello

API Gemini

models/text-embedding-004

Vertex AI

text-embedding-preview-0409

Tipi di dati supportati

Ingresso

Testo

Uscita

Incorporamenti di testo

Limiti dei token[*]

Limite di token di input

2048

Dimensioni della dimensione di output

768

Limiti di frequenza[**] 1500 richieste al minuto
Impostazioni di sicurezza regolabili Non supportato
Aggiornamento più recente Aprile 2024

Incorporamento

Puoi utilizzare il modello Embedding per generare incorporamenti di testo per del testo di input.

Il modello di incorporamento è ottimizzato per creare incorporamenti con dimensioni 768 per testi fino a 2048 token.

Incorporamento dei dettagli del modello
Proprietà Descrizione
Codice modello models/embedding-001
Tipi di dati supportati

Ingresso

Testo

Uscita

Incorporamenti di testo

Limiti dei token[*]

Limite di token di input

2048

Dimensioni della dimensione di output

768

Limiti di frequenza[**] 1500 richieste al minuto
Impostazioni di sicurezza regolabili Non supportato
Aggiornamento più recente Dicembre 2023

AQA

Puoi utilizzare il modello AQA per Risposte alle domande attribuite attività correlate all'AQA in un documento, un corpus o una serie di passaggi. L'AQA del modello restituisce le risposte alle domande basate sulle fonti fornite, insieme alla stima della probabilità di risposta.

Dettagli modello

Proprietà Descrizione
Codice modello models/aqa
Tipi di dati supportati

Ingresso

Testo

Uscita

Testo

Lingua supportata Inglese
Limiti dei token[*]

Limite di token di input

7168

Limite di token di output

1024

Limiti di frequenza[**] 1500 richieste al minuto
Impostazioni di sicurezza regolabili Supportato
Aggiornamento più recente Dicembre 2023

Esamina gli esempi per esplorare le capacità di questo modello varianti.

[*] Un token equivale a circa 4 caratteri per i modelli Gemini. 100 token sono circa 60-80 parole inglesi.

[**] RPM: richieste al minuto
TPM: token al minuto
RPD: richieste al giorno
TPD: token al giorno

A causa delle limitazioni della capacità, i limiti di frequenza massima specificati non sono garantito.

Pattern dei nomi di versione del modello

I modelli Gemini sono disponibili in versione anteprima o stabile. Nel tuo puoi utilizzare uno dei seguenti formati di nome del modello per specificare quale modello e la versione che vuoi utilizzare.

  • Più recente: rimanda alla versione più recente del modello per uno specifico generazione e variazione dei dati. Il modello sottostante viene aggiornato regolarmente e potrebbe essere una versione in anteprima. Solo le app per i test esplorativi e i prototipi usano questo alias.

    Per specificare la versione più recente, utilizza il seguente pattern: <model>-<generation>-<variation>-latest. Ad esempio: gemini-1.0-pro-latest.

  • Stabile più recente:rimanda alla versione stabile più recente rilasciata per il la generazione e la variazione del modello specificate.

    Per specificare l'ultima versione stabile, usa il seguente pattern: <model>-<generation>-<variation>. Ad esempio, gemini-1.0-pro.

  • Stabile:rimanda a un modello stabile specifico. I modelli stabili non cambiano. La maggior parte delle app di produzione dovrebbe usare un modello stabile specifico.

    Per specificare una versione stabile, utilizza il seguente pattern: <model>-<generation>-<variation>-<version>. Ad esempio: gemini-1.0-pro-001.

Lingue disponibili

I modelli Gemini sono addestrati per funzionare con i seguenti linguaggi:

  • Arabo (ar)
  • Bengalese (bn)
  • Bulgaro (bg)
  • Cinese semplificato e tradizionale (zh)
  • Croato (hr)
  • Ceco (cs)
  • Danese (da)
  • Olandese (nl)
  • Inglese (en)
  • Estone (et)
  • Finlandese (fi)
  • Francese (fr)
  • Tedesco (de)
  • Greco (el)
  • Ebraico (iw)
  • Hindi (hi)
  • Ungherese (hu)
  • Indonesiano (id)
  • Italiano (it)
  • Giapponese (ja)
  • Coreano (ko)
  • Lettone (lv)
  • Lituano (lt)
  • Norvegese (no)
  • Polacco (pl)
  • Portoghese (pt)
  • Rumeno (ro)
  • Russo (ru)
  • Serbo (sr)
  • Slovacco (sk)
  • Sloveno (sl)
  • Spagnolo (es)
  • Swahili (sw)
  • Svedese (sv)
  • Thailandese (th)
  • Turco (tr)
  • Ucraino (uk)
  • Vietnamita (vi)