Questo tutorial mostra come accedere all'API Gemini per Go utilizzando l'SDK Google AI Go.
In questo tutorial imparerai a:
- Configurare il progetto, inclusa la chiave API
- Generare testo da input di solo testo
- Genera testo da input di testo e immagine (multimodale)
- Creare conversazioni in più passaggi (chat)
- Usa la modalità flusso per interazioni più rapide
Inoltre, questo tutorial contiene sezioni sui casi d'uso avanzati (come incorporamenti e token di conteggio) nonché le opzioni per il controllo della generazione di contenuti.
Prerequisiti
Questo tutorial presuppone che tu abbia familiarità con la creazione di applicazioni con Vai.
Per completare questo tutorial, assicurati che il tuo ambiente di sviluppo soddisfi i seguenti requisiti:
- Passa a 1.20 o versioni successive
Configura il progetto
Prima di chiamare l'API Gemini, devi configurare il tuo progetto, che include configurazione della chiave API, installazione del pacchetto SDK e inizializzazione del modello.
Configura la chiave API
Per utilizzare l'API Gemini, hai bisogno di una chiave API. Se non ne hai già uno, creare una chiave in Google AI Studio.
Proteggi la chiave API
Ti consigliamo vivamente di non controllare una chiave API per conoscere la tua versione di controllo dei dati. Devi invece utilizzare un archivio di secret per la tua chiave API.
Tutti gli snippet in questo tutorial presuppongono che tu stia accedendo alla chiave API come una variabile di ambiente.
Installa il pacchetto SDK
Per usare l'API Gemini nella tua applicazione, devi get
l'SDK Go
pacchetto nella directory del modulo:
go get github.com/google/generative-ai-go
Inizializzare il modello generativo
Prima di poter effettuare chiamate API, devi importare e inizializzare un modello generativo.
import "github.com/google/generative-ai-go/genai"
import "google.golang.org/api/option"
ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
log.Fatal(err)
}
defer client.Close()
// The Gemini 1.5 models are versatile and work with most use cases
model := client.GenerativeModel("gemini-1.5-flash")
Quando specifichi un modello, tieni presente quanto segue:
Utilizza un modello specifico per il tuo caso d'uso (ad esempio
gemini-1.5-flash
per l'input multimodale). In questa guida, le istruzioni per ogni di implementazione, elencare il modello consigliato per ogni caso d'uso.
Implementare casi d'uso comuni
Ora che il tuo progetto è configurato, puoi esplorare l'utilizzo dell'API Gemini per per implementare diversi casi d'uso:
- Generare testo da input di solo testo
- Genera testo da input di testo e immagine (multimodale)
- Creare conversazioni in più passaggi (chat)
- Usa la modalità flusso per interazioni più rapide
Nella sezione dei casi d'uso avanzati, puoi trovare informazioni sull'API Gemini e incorporamenti.
Genera testo da input di solo testo
Quando l'input del prompt include solo testo, utilizza un modello Gemini 1.5 oppure
Modello Gemini 1.0 Pro con generateContent
per generare output di testo:
ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
log.Fatal(err)
}
defer client.Close()
// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
model := client.GenerativeModel("gemini-1.5-flash")
resp, err := model.GenerateContent(ctx, genai.Text("Write a story about a magic backpack."))
if err != nil {
log.Fatal(err)
}
Genera testo da input di testo e immagine (multimodale)
Gemini fornisce vari modelli in grado di gestire l'input multimodale (modelli Gemini 1.5) in modo da poter inserire sia testo che immagini. Assicurati di rivedi il requisiti relativi alle immagini per i prompt.
Quando l'input del prompt include sia testo che immagini, utilizza un modello Gemini 1.5
con il metodo generateContent
per generare un output di testo:
ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
log.Fatal(err)
}
defer client.Close()
// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
model := client.GenerativeModel("gemini-1.5-flash")
imgData1, err := os.ReadFile(pathToImage1)
if err != nil {
log.Fatal(err)
}
imgData2, err := os.ReadFile(pathToImage1)
if err != nil {
log.Fatal(err)
}
prompt := []genai.Part{
genai.ImageData("jpeg", imgData1),
genai.ImageData("jpeg", imgData2),
genai.Text("What's different between these two pictures?"),
}
resp, err := model.GenerateContent(ctx, prompt...)
if err != nil {
log.Fatal(err)
}
Creare conversazioni in più passaggi (chat)
Con Gemini, puoi creare conversazioni in formato libero in più turni. La
SDK semplifica il processo gestendo lo stato della conversazione.
con GenerateContent
, non è necessario memorizzare la cronologia delle conversazioni
per te.
Per creare una conversazione in più passaggi (come la chat), utilizza un modello Gemini 1.5 oppure la
Gemini 1.0 Pro e inizializzare la chat chiamando startChat()
.
Quindi utilizza sendMessage()
per inviare un nuovo messaggio per l'utente, a cui verrà aggiunto anche il codice
e la risposta alla cronologia chat.
Esistono due possibili opzioni per role
associate ai contenuti in un
conversazione:
user
: il ruolo che fornisce i prompt. Questo è il valore predefinito perSendMessage
chiamate.model
: il ruolo che fornisce le risposte. Questo ruolo può essere utilizzato quando chiamata aStartChat()
conhistory
esistente.
ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
log.Fatal(err)
}
defer client.Close()
// The Gemini 1.5 models are versatile and work with multi-turn conversations (like chat)
model := client.GenerativeModel("gemini-1.5-flash")
// Initialize the chat
cs := model.StartChat()
cs.History = []*genai.Content{
&genai.Content{
Parts: []genai.Part{
genai.Text("Hello, I have 2 dogs in my house."),
},
Role: "user",
},
&genai.Content{
Parts: []genai.Part{
genai.Text("Great to meet you. What would you like to know?"),
},
Role: "model",
},
}
resp, err := cs.SendMessage(ctx, genai.Text("How many paws are in my house?"))
if err != nil {
log.Fatal(err)
}
Usa la modalità flusso per interazioni più rapide
Per impostazione predefinita, il modello restituisce una risposta dopo aver completato l'intera generazione e il processo di sviluppo. Puoi ottenere interazioni più rapide non aspettando l'intero e usare la modalità flusso per gestire i risultati parziali.
L'esempio seguente mostra come implementare i flussi di dati con
Metodo GenerateContentStream
per generare testo da un input di testo e immagine
.
ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
log.Fatal(err)
}
defer client.Close()
// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
model := client.GenerativeModel("gemini-1.5-flash")
imageBytes, err := os.ReadFile(pathToImage)
img := genai.ImageData("jpeg", imageBytes)
prompt := genai.Text("Tell me a story about this animal")
iter := model.GenerateContentStream(ctx, img, prompt)
for {
resp, err := iter.Next()
if err == iterator.Done {
break
}
if err != nil {
log.Fatal(err)
}
// ... print resp
}
Puoi utilizzare un approccio simile per casi d'uso di input di solo testo e chat.
prompt := genai.Text("Tell me a story about a lumberjack and his giant ox")
iter := model.GenerateContentStream(ctx, prompt)
prompt := genai.Text("And how do you feel about that?")
iter := cs.SendMessageStream(ctx, prompt)
Implementare casi d'uso avanzati
I casi d'uso comuni descritti nella sezione precedente di questo tutorial aiutano a utilizzare l'API Gemini. Questa sezione descrive alcuni e i casi d'uso che possono essere considerati più avanzati.
Utilizza gli incorporamenti
L'incorporamento è una tecnica utilizzata per rappresentare le informazioni. sotto forma di elenco di numeri con rappresentazione in virgola mobile in un array. Con Gemini, puoi rappresentare di testo (parole, frasi e blocchi di testo) in forma vettoriale, rendendolo è più facile confrontare e contrapporre gli incorporamenti. Ad esempio, due testi che condividono un argomento o un sentiment simile devono avere incorporamenti simili, che possono essere identificati attraverso tecniche di confronto matematiche come la somiglianza coseno.
Usa il modello embedding-001
con il metodo EmbedContent
(o il
BatchEmbedContent
) per generare incorporamenti. Nell'esempio che segue
genera un incorporamento per una singola stringa:
ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
log.Fatal(err)
}
defer client.Close()
// For embeddings, use the embedding-001 model
em := client.EmbeddingModel("embedding-001")
res, err := em.EmbedContent(ctx, genai.Text("The quick brown fox jumps over the lazy dog."))
if err != nil {
panic(err)
}
fmt.Println(res.Embedding.Values)
Chiamate di funzione
La chiamata di funzione semplifica l'ottenimento di output di dati strutturati da e modelli generativi. Puoi quindi utilizzare questi output per chiamare altre API e restituire i dati di risposta pertinenti al modello. In altre parole, la chiamata di funzione colleghi modelli generativi a sistemi esterni in modo che i contenuti generati includa le informazioni più aggiornate e accurate. Scopri di più nel tutorial sulle chiamate di funzione.
Conta token
Quando utilizzi prompt lunghi, potrebbe essere utile contare i token prima di inviare
al modello. I seguenti esempi mostrano come utilizzare CountTokens()
per vari casi d'uso:
// For text-only input
text := "Parrots can be green and live a long time."
resp, err := model.CountTokens(ctx, genai.Text(text))
if err != nil {
log.Fatal(err)
}
fmt.Println(resp.TotalTokens)
// For text-and-image input (multimodal)
text := "Parrots can be green and live a long time."
imageBytes, err := os.ReadFile(pathToImage)
if err != nil {
log.Fatal(err)
}
resp, err := model.CountTokens(
ctx,
genai.Text(text),
genai.ImageData("png", imageBytes))
if err != nil {
log.Fatal(err)
}
fmt.Println(resp.TotalTokens)
Opzioni per controllare la generazione di contenuti
Puoi controllare la generazione di contenuti configurando i parametri del modello e utilizzando impostazioni di sicurezza.
Configura i parametri del modello
Ogni richiesta inviata al modello include valori parametro che controllano come il modello genera una risposta. Il modello può generare risultati diversi diversi valori parametro. Scopri di più su Parametri del modello. La configurazione è per tutta la durata dell'istanza del modello.
// ...
// The Gemini 1.5 models are versatile and work with most use cases
model := client.GenerativeModel("gemini-1.5-flash")
// Configure model parameters by invoking Set* methods on the model.
model.SetTemperature(0.9)
model.SetTopK(1)
// ...
Utilizzare le impostazioni di sicurezza
Puoi utilizzare le impostazioni di sicurezza per regolare la probabilità di ricevere risposte che potrebbero essere considerati dannosi. Per impostazione predefinita, le impostazioni di sicurezza bloccano i contenuti con mezzo e/o con probabilità elevata di essere contenuti non sicuri in tutte le dimensioni. Impara scopri di più sulle impostazioni di sicurezza.
Per configurare un'impostazione di sicurezza:
// ...
// The Gemini 1.5 models are versatile and work with most use cases
model := client.GenerativeModel("gemini-1.5-flash")
model.SafetySettings = []*genai.SafetySetting{
{
Category: genai.HarmCategoryHarassment,
Threshold: genai.HarmBlockOnlyHigh,
},
}
// ...
Puoi anche configurare più di un'impostazione di sicurezza:
// ...
// The Gemini 1.5 models are versatile and work with most use cases
model := client.GenerativeModel("gemini-1.5-flash")
model.SafetySettings = []*genai.SafetySetting{
{
Category: genai.HarmCategoryHarassment,
Threshold: genai.HarmBlockOnlyHigh,
},
{
Category: genai.HarmCategoryHateSpeech,
Threshold: genai.HarmBlockMediumAndAbove,
},
}
// ...
Passaggi successivi
La progettazione dei prompt è il processo di creazione dei prompt che suscitano l'interesse desiderato la risposta dai modelli linguistici. Scrivere prompt ben strutturati è fondamentale parte della garanzia di risposte accurate e di alta qualità da un modello linguistico. Scopri le best practice per la scrittura di prompt.
Gemini offre diverse varianti di modelli per soddisfare le esigenze di usi diversi come la complessità e i tipi di input, le implementazioni per la chat o altri le attività legate al linguaggio delle finestre di dialogo e i vincoli di dimensione. Scopri di più sui modelli Gemini disponibili.