Inizia a utilizzare l'API Gemini nelle applicazioni Go

Questo tutorial mostra come accedere all'API Gemini per la tua applicazione Go utilizzando l'SDK Google AI Go.

In questo tutorial imparerai a:

Inoltre, questo tutorial contiene sezioni sui casi d'uso avanzati (come incorporamenti e conteggio di token) nonché opzioni per controllare la generazione di contenuti.

Prerequisiti

Questo tutorial presuppone che tu abbia familiarità con la creazione di applicazioni con Go.

Per completare questo tutorial, assicurati che il tuo ambiente di sviluppo soddisfi i requisiti seguenti:

  • Passa a 1.20+

Configura il progetto

Prima di chiamare l'API Gemini, devi configurare il tuo progetto, che include la configurazione della chiave API, l'installazione del pacchetto SDK e l'inizializzazione del modello.

Configura la chiave API

Per utilizzare l'API Gemini, hai bisogno di una chiave API. Se non ne hai già una, crea una chiave in Google AI Studio.

Ottenere una chiave API

Proteggi la chiave API

Ti consigliamo vivamente di non controllare una chiave API nel tuo sistema di controllo della versione. Devi invece utilizzare un archivio secret per la chiave API.

Tutti gli snippet in questo tutorial presuppongono che tu stia accedendo alla chiave API come variabile di ambiente.

Installa il pacchetto SDK

Per utilizzare l'API Gemini nella tua applicazione, devi get il pacchetto SDK Go nella directory del modulo:

go get github.com/google/generative-ai-go

Inizializzare il modello generativo

Prima di poter effettuare chiamate API, devi importare e inizializzare il modello generativo.

import "github.com/google/generative-ai-go/genai"
import "google.golang.org/api/option"

ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
  log.Fatal(err)
}
defer client.Close()

model := client.GenerativeModel("MODEL_NAME")

Quando specifichi un modello, tieni presente quanto segue:

  • Utilizza un modello specifico per il tuo caso d'uso (ad esempio, gemini-pro-vision è per l'input multimodale). All'interno di questa guida, le istruzioni per ogni implementazione elencano il modello consigliato per ogni caso d'uso.

Implementare casi d'uso comuni

Ora che il progetto è configurato, puoi esplorare l'utilizzo dell'API Gemini per implementare diversi casi d'uso:

Nella sezione dei casi d'uso avanzati, puoi trovare informazioni sull'API Gemini e sugli incorporamenti.

Genera testo da input di solo testo

Quando l'input del prompt include solo testo, utilizza il modello gemini-pro con il metodo GenerateContent per generare un output di testo:

ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
  log.Fatal(err)
}
defer client.Close()

// For text-only input, use the gemini-pro model
model := client.GenerativeModel("gemini-pro")
resp, err := model.GenerateContent(ctx, genai.Text("Write a story about a magic backpack."))
if err != nil {
  log.Fatal(err)
}

Genera testo da input di testo e immagini (multimodale)

Gemini fornisce un modello multimodale (gemini-pro-vision), che ti consente di inserire testo e immagini. Assicurati di rivedere i requisiti relativi alle immagini per i prompt.

Quando l'input del prompt include testo e immagini, utilizza il modello gemini-pro-vision con il metodo GenerateContent per generare un output di testo:

ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
  log.Fatal(err)
}
defer client.Close()

// For text-and-image input (multimodal), use the gemini-pro-vision model
model := client.GenerativeModel("gemini-pro-vision")

imgData1, err := os.ReadFile(pathToImage1)
if err != nil {
  log.Fatal(err)
}

imgData2, err := os.ReadFile(pathToImage1)
if err != nil {
  log.Fatal(err)
}

prompt := []genai.Part{
  genai.ImageData("jpeg", imgData1),
  genai.ImageData("jpeg", imgData2),
  genai.Text("What's different between these two pictures?"),
}
resp, err := model.GenerateContent(ctx, prompt...)

if err != nil {
  log.Fatal(err)
}

Creazione di conversazioni a turni multipli (chat)

Con Gemini, puoi creare conversazioni in formato libero in più turni. L'SDK semplifica il processo gestendo lo stato della conversazione. Di conseguenza, a differenza di GenerateContent, non devi archiviare la cronologia della conversazione manualmente.

Per creare una conversazione a turni multipli (ad esempio la chat), utilizza il modello gemini-pro e inizializza la chat chiamando StartChat(). Quindi utilizza SendMessage() per inviare un nuovo messaggio utente, che aggiungerà anche il messaggio e la risposta alla cronologia chat.

Esistono due possibili opzioni per l'elemento role associati ai contenuti di una conversazione:

  • user: il ruolo che fornisce i prompt. Questo valore è il valore predefinito per le chiamate SendMessage.

  • model: il ruolo che fornisce le risposte. Questo ruolo può essere utilizzato durante la chiamata a StartChat() con history esistente.

ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
  log.Fatal(err)
}
defer client.Close()

// For text-only input, use the gemini-pro model
model := client.GenerativeModel("gemini-pro")
// Initialize the chat
cs := model.StartChat()
cs.History = []*genai.Content{
  &genai.Content{
    Parts: []genai.Part{
      genai.Text("Hello, I have 2 dogs in my house."),
    },
    Role: "user",
  },
  &genai.Content{
    Parts: []genai.Part{
      genai.Text("Great to meet you. What would you like to know?"),
    },
    Role: "model",
  },
}

resp, err := cs.SendMessage(ctx, genai.Text("How many paws are in my house?"))
if err != nil {
  log.Fatal(err)
}

Usa i flussi di dati per interazioni più rapide

Per impostazione predefinita, il modello restituisce una risposta dopo aver completato l'intero processo di generazione. Puoi ottenere interazioni più rapide non aspettando l'intero risultato e utilizza invece i flussi di dati per gestire i risultati parziali.

L'esempio seguente mostra come implementare il flusso di dati con il metodo GenerateContentStream per generare testo da una richiesta di input di testo e immagine.

ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
  log.Fatal(err)
}
defer client.Close()

// For text-and-image input (multimodal), use the gemini-pro-vision model
model := client.GenerativeModel("gemini-pro-vision")

imageBytes, err := os.ReadFile(pathToImage)

img := genai.ImageData("jpeg", imageBytes)
prompt := genai.Text("Tell me a story about this animal")
iter := model.GenerateContentStream(ctx, img, prompt)

for {
  resp, err := iter.Next()
  if err == iterator.Done {
    break
  }
  if err != nil {
    log.Fatal(err)
  }

  // ... print resp
}

Puoi utilizzare un approccio simile per i casi d'uso di solo testo e chat.

prompt := genai.Text("Tell me a story about a lumberjack and his giant ox")
iter := model.GenerateContentStream(ctx, prompt)
prompt := genai.Text("And how do you feel about that?")
iter := cs.SendMessageStream(ctx, prompt)

Implementare casi d'uso avanzati

I casi d'uso comuni descritti nella sezione precedente di questo tutorial consentono di acquisire dimestichezza con l'utilizzo dell'API Gemini. In questa sezione vengono descritti alcuni casi d'uso che possono essere considerati più avanzati.

Utilizzare gli incorporamenti

L'incorporamento è una tecnica utilizzata per rappresentare le informazioni sotto forma di elenco di numeri con rappresentazione in virgola mobile in un array. Con Gemini, puoi rappresentare il testo (parole, frasi e blocchi di testo) in forma vettoriale, semplificando il confronto delle rappresentazioni distribuite. Ad esempio, due testi che condividono un oggetto o un sentiment simile dovrebbero avere incorporamenti simili, che possono essere identificati tramite tecniche di confronto matematiche come la somiglianza coseno.

Utilizza il modello embedding-001 con il metodo EmbedContent (o BatchEmbedContent) per generare incorporamenti. L'esempio seguente genera un incorporamento per una singola stringa:

ctx := context.Background()
// Access your API key as an environment variable (see "Set up your API key" above)
client, err := genai.NewClient(ctx, option.WithAPIKey(os.Getenv("API_KEY")))
if err != nil {
  log.Fatal(err)
}
defer client.Close()
em := client.EmbeddingModel("embedding-001")
res, err := em.EmbedContent(ctx, genai.Text("The quick brown fox jumps over the lazy dog."))

if err != nil {
  panic(err)
}
fmt.Println(res.Embedding.Values)

Conta token

Quando utilizzi prompt lunghi, potrebbe essere utile contare i token prima di inviare contenuti al modello. I seguenti esempi mostrano come utilizzare CountTokens() per vari casi d'uso:

// For text-only input
text := "Parrots can be green and live a long time."
resp, err := model.CountTokens(ctx, genai.Text(text))
if err != nil {
  log.Fatal(err)
}
fmt.Println(resp.TotalTokens)
// For text-and-image input (multimodal)
text := "Parrots can be green and live a long time."
imageBytes, err := os.ReadFile(pathToImage)
if err != nil {
  log.Fatal(err)
}

resp, err := model.CountTokens(
    ctx,
    genai.Text(text),
    genai.ImageData("png", imageBytes))
  if err != nil {
    log.Fatal(err)
}
fmt.Println(resp.TotalTokens)

Opzioni per controllare la generazione di contenuti

Puoi controllare la generazione di contenuti configurando i parametri del modello e utilizzando le impostazioni di sicurezza.

Configura i parametri del modello

Ogni prompt inviato al modello include valori parametro che controllano il modo in cui il modello genera una risposta. Il modello può generare risultati diversi a seconda dei valori parametro. Scopri di più sui parametri del modello. La configurazione viene mantenuta per la durata dell'istanza del modello.

// ...

model := client.GenerativeModel("MODEL_NAME")

// Configure model parameters by invoking Set* methods on the model.
model.SetTemperature(0.9)
model.SetTopK(1)

// ...

Usa le impostazioni di sicurezza

Puoi utilizzare le impostazioni di sicurezza per regolare la probabilità di ricevere risposte che potrebbero essere considerate dannose. Per impostazione predefinita, le impostazioni di sicurezza bloccano i contenuti con una probabilità media e/o alta di essere contenuti non sicuri in tutte le dimensioni. Scopri di più sulle Impostazioni di sicurezza.

Per configurare un'impostazione di sicurezza:

// ...

model := client.GenerativeModel("MODEL_NAME")

model.SafetySettings = []*genai.SafetySetting{
  {
    Category:  genai.HarmCategoryHarassment,
    Threshold: genai.HarmBlockOnlyHigh,
  },
}

// ...

Puoi anche configurare più di un'impostazione di sicurezza:

// ...

model := client.GenerativeModel("MODEL_NAME")

model.SafetySettings = []*genai.SafetySetting{
  {
    Category:  genai.HarmCategoryHarassment,
    Threshold: genai.HarmBlockOnlyHigh,
  },
  {
    Category:  genai.HarmCategoryHateSpeech,
    Threshold: genai.HarmBlockMediumAndAbove,
  },
}

// ...

Passaggi successivi

  • La progettazione dei prompt è il processo di creazione di prompt che generano la risposta desiderata dai modelli linguistici. Scrivere prompt ben strutturati è essenziale per garantire risposte accurate e di alta qualità da un modello linguistico. Scopri le best practice per la scrittura di prompt.

  • Gemini offre diverse varianti di modello per soddisfare le esigenze di diversi casi d'uso, come complessità e tipi di input, implementazioni per chat o altre attività di linguaggio di dialogo e vincoli di dimensione. Scopri di più sui modelli Gemini disponibili.

  • Gemini offre opzioni per richiedere aumenti del limite di frequenza. Il limite di frequenza per i modelli Gemini Pro è di 60 richieste al minuto (RPM).