Questo tutorial mostra come accedere all'API Gemini per la tua applicazione Dart o Flutter utilizzando l'SDK Google AI Dart. Puoi utilizzare questo SDK se non vuoi lavorare direttamente con le API REST per accedere ai modelli Gemini nella tua app.
In questo tutorial imparerai a:
- Configurare il progetto, inclusa la chiave API
- Generare testo da un input di solo testo
- Generare testo da input di testo e immagini (multimodale)
- Creare conversazioni a turni multipli (chat)
- Usa i flussi di dati per interazioni più rapide
Inoltre, questo tutorial contiene sezioni sui casi d'uso avanzati (come incorporamenti e conteggio di token) nonché opzioni per controllare la generazione di contenuti.
Prerequisiti
Questo tutorial presuppone che tu abbia familiarità con la creazione di applicazioni con Dart.
Per completare questo tutorial, assicurati che il tuo ambiente di sviluppo soddisfi i requisiti seguenti:
- Dart 3.2.0 o versioni successive
Configura il progetto
Prima di chiamare l'API Gemini, devi configurare il progetto, che include la configurazione della chiave API, l'aggiunta dell'SDK alle dipendenze pub e l'inizializzazione del modello.
Configura la chiave API
Per utilizzare l'API Gemini, hai bisogno di una chiave API. Se non ne hai già una, crea una chiave in Google AI Studio.
Proteggi la chiave API
Proteggi la tua chiave API. Ti consigliamo vivamente di non includere la chiave API direttamente nel codice o di controllare i file che contengono la chiave nei sistemi di controllo della versione. Devi invece utilizzare un archivio secret per la chiave API.
Tutti gli snippet in questo tutorial presuppongono che tu stia accedendo alla chiave API come variabile di ambiente dei processi. Se stai sviluppando un'app Flutter, puoi utilizzare String.fromEnvironment
e passare --dart-define=API_KEY=$API_KEY
a flutter build
o flutter run
per la compilazione con la chiave API, poiché l'ambiente di processo sarà diverso durante l'esecuzione dell'app.
Installa il pacchetto SDK
Per utilizzare l'API Gemini nella tua applicazione, devi add
il pacchetto google_generative_ai
all'app Dart o Flutter:
Dart
dart pub add google_generative_ai
Flutter
flutter pub add google_generative_ai
Inizializzare il modello generativo
Prima di poter effettuare chiamate API, devi importare e inizializzare il modello generativo.
import 'dart:io';
import 'package:google_generative_ai/google_generative_ai.dart';
void main() async {
// Access your API key as an environment variable (see "Set up your API key" above)
final apiKey = Platform.environment['API_KEY'];
if (apiKey == null) {
print('No \$API_KEY environment variable');
exit(1);
}
// The Gemini 1.5 models are versatile and work with most use cases
final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
}
Quando specifichi un modello, tieni presente quanto segue:
Utilizza un modello specifico per il tuo caso d'uso (ad esempio,
gemini-pro-vision
è per l'input multimodale). All'interno di questa guida, le istruzioni per ogni implementazione elencano il modello consigliato per ogni caso d'uso.
Implementare casi d'uso comuni
Ora che il progetto è configurato, puoi esplorare l'utilizzo dell'API Gemini per implementare diversi casi d'uso:
- Generare testo da un input di solo testo
- Generare testo da input di testo e immagini (multimodale)
- Creare conversazioni a turni multipli (chat)
- Usa i flussi di dati per interazioni più rapide
Nella sezione dei casi d'uso avanzati, puoi trovare informazioni sull'API Gemini e sugli incorporamenti.
Genera testo da input di solo testo
Quando l'input del prompt include solo testo, utilizza un modello Gemini 1.5 o il modello Gemini 1.0 Pro con generateContent
per generare un output di testo:
import 'dart:io';
import 'package:google_generative_ai/google_generative_ai.dart';
void main() async {
// Access your API key as an environment variable (see "Set up your API key" above)
final apiKey = Platform.environment['API_KEY'];
if (apiKey == null) {
print('No \$API_KEY environment variable');
exit(1);
}
// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
final content = [Content.text('Write a story about a magic backpack.')];
final response = await model.generateContent(content);
print(response.text);
}
Genera testo da input di testo e immagini (multimodale)
Gemini offre vari modelli in grado di gestire l'input multimodale (modelli Gemini 1.5 e Gemini 1.0 Pro Vision) per poter inserire testo e immagini. Assicurati di rivedere i requisiti relativi alle immagini per i prompt.
Quando l'input del prompt include testo e immagini, utilizza un modello Gemini 1.5 o
il modello Gemini 1.0 Pro Vision con il metodo generateContent
per generare
un output di testo:
import 'dart:io';
import 'package:google_generative_ai/google_generative_ai.dart';
void main() async {
// Access your API key as an environment variable (see "Set up your API key" above)
final apiKey = Platform.environment['API_KEY'];
if (apiKey == null) {
print('No \$API_KEY environment variable');
exit(1);
}
// The Gemini 1.5 models are versatile and work with both text-only and multimodal prompts
final model = GenerativeModel(model: 'gemini-1.5-flash', apiKey: apiKey);
final (firstImage, secondImage) = await (
File('image0.jpg').readAsBytes(),
File('image1.jpg').readAsBytes()
).wait;
final prompt = TextPart("What's different between these pictures?");
final imageParts = [
DataPart('image/jpeg', firstImage),
DataPart('image/jpeg', secondImage),
];
final response = await model.generateContent([
Content.multi([prompt, ...imageParts])
]);
print(response.text);
}
Creazione di conversazioni a turni multipli (chat)
Con Gemini, puoi creare conversazioni in formato libero in più turni. L'SDK semplifica il processo gestendo lo stato della conversazione. Di conseguenza, a differenza di generateContent
, non devi archiviare la cronologia della conversazione manualmente.
Per creare una conversazione a turni multipli (come la chat), utilizza un modello Gemini 1.5 o
Gemini 1.0 Pro e inizializza la chat chiamando startChat()
.
Quindi utilizza sendMessage()
per inviare un nuovo messaggio utente, che aggiungerà anche
il messaggio e la risposta alla cronologia chat.
Esistono due possibili opzioni per l'elemento role
associati ai contenuti di una
conversazione:
user
: il ruolo che fornisce i prompt. Questo valore è il valore predefinito per le chiamatesendMessage
e la funzione genera un'eccezione se viene passato un ruolo diverso.model
: il ruolo che fornisce le risposte. Questo ruolo può essere utilizzato durante la chiamata astartChat()
conhistory
esistente.
import 'dart:io';
import 'package:google_generative_ai/google_generative_ai.dart';
Future<void> main() async {
// Access your API key as an environment variable (see "Set up your API key" above)
final apiKey = Platform.environment['API_KEY'];
if (apiKey == null) {
print('No \$API_KEY environment variable');
exit(1);
}
// The Gemini 1.5 models are versatile and work with multi-turn conversations (like chat)
final model = GenerativeModel(
model: 'gemini-1.5-flash',
apiKey: apiKey,
generationConfig: GenerationConfig(maxOutputTokens: 100));
// Initialize the chat
final chat = model.startChat(history: [
Content.text('Hello, I have 2 dogs in my house.'),
Content.model([TextPart('Great to meet you. What would you like to know?')])
]);
var content = Content.text('How many paws are in my house?');
var response = await chat.sendMessage(content);
print(response.text);
}
Usa i flussi di dati per interazioni più rapide
Per impostazione predefinita, il modello restituisce una risposta dopo aver completato l'intero processo di generazione. Puoi ottenere interazioni più rapide non aspettando l'intero risultato e utilizza invece i flussi di dati per gestire i risultati parziali.
L'esempio seguente mostra come implementare il flusso di dati con il metodo generateContentStream
per generare testo da una richiesta di input di testo e immagine.
// ...
final response = model.generateContentStream([
Content.multi([prompt, ...imageParts])
]);
await for (final chunk in response) {
print(chunk.text);
}
// ...
Puoi utilizzare un approccio simile per i casi d'uso di solo testo e chat.
// Use streaming with text-only input
final response = model.generateContentStream(content);
// Use streaming with multi-turn conversations (like chat)
final response = chat.sendMessageStream(content);
Implementare casi d'uso avanzati
I casi d'uso comuni descritti nella sezione precedente di questo tutorial consentono di acquisire dimestichezza con l'utilizzo dell'API Gemini. In questa sezione vengono descritti alcuni casi d'uso che possono essere considerati più avanzati.
Chiamata di funzione
Le chiamate di funzione consentono di ottenere più facilmente output di dati strutturati dai modelli generativi. Puoi quindi utilizzare questi output per chiamare altre API e restituire al modello i dati di risposta pertinenti. In altre parole, le chiamate di funzione consentono di collegare i modelli generativi a sistemi esterni in modo che i contenuti generati includano le informazioni più aggiornate e accurate. Scopri di più nel tutorial sulle chiamate di funzione.
Utilizzare gli incorporamenti
L'incorporamento è una tecnica utilizzata per rappresentare le informazioni sotto forma di elenco di numeri con rappresentazione in virgola mobile in un array. Con Gemini, puoi rappresentare il testo (parole, frasi e blocchi di testo) in forma vettoriale, semplificando il confronto delle rappresentazioni distribuite. Ad esempio, due testi che condividono un oggetto o un sentiment simile dovrebbero avere incorporamenti simili, che possono essere identificati tramite tecniche di confronto matematiche come la somiglianza coseno.
Utilizza il modello embedding-001
con il metodo embedContent
(o batchEmbedContent
) per generare incorporamenti. L'esempio seguente genera un incorporamento per una singola stringa:
final model = GenerativeModel(model: 'embedding-001', apiKey: apiKey);
final content = Content.text('The quick brown fox jumps over the lazy dog.');
final result = await model.embedContent(content);
print(result.embedding.values);
Conta token
Quando utilizzi prompt lunghi, potrebbe essere utile contare i token prima di inviare contenuti al modello. I seguenti esempi mostrano come utilizzare countTokens()
per vari casi d'uso:
// For text-only input
final tokenCount = await model.countTokens(Content.text(prompt));
print('Token count: ${tokenCount.totalTokens}');
// For text-and-image input (multimodal)
final tokenCount = await model.countTokens([
Content.multi([prompt, ...imageParts])
]);
print('Token count: ${tokenCount.totalTokens}');
// For multi-turn conversations (like chat)
final prompt = Content.text(message);
final allContent = [...chat.history, prompt];
final tokenCount = await model.countTokens(allContent);
print('Token count: ${tokenCount.totalTokens}');
Opzioni per controllare la generazione di contenuti
Puoi controllare la generazione di contenuti configurando i parametri del modello e utilizzando le impostazioni di sicurezza.
Tieni presente che il passaggio di generationConfig
o safetySettings
a un metodo di richiesta
del modello (come generateContent
) sostituirà completamente l'oggetto di configurazione
con lo stesso nome trasmesso in getGenerativeModel
.
Configura i parametri del modello
Ogni prompt inviato al modello include valori parametro che controllano il modo in cui il modello genera una risposta. Il modello può generare risultati diversi a seconda dei valori parametro. Scopri di più sui parametri del modello. La configurazione viene mantenuta per tutta la durata dell'istanza del modello.
final generationConfig = GenerationConfig(
stopSequences: ["red"],
maxOutputTokens: 200,
temperature: 0.9,
topP: 0.1,
topK: 16,
);
final model = GenerativeModel(
// The Gemini 1.5 models are versatile and work with most use cases
model: 'gemini-1.5-flash',
apiKey: apiKey,
generationConfig: generationConfig,
);
Usa le impostazioni di sicurezza
Puoi utilizzare le impostazioni di sicurezza per regolare la probabilità di ricevere risposte che potrebbero essere considerate dannose. Per impostazione predefinita, le impostazioni di sicurezza bloccano i contenuti con una probabilità media e/o alta di essere contenuti non sicuri in tutte le dimensioni. Scopri di più sulle Impostazioni di sicurezza.
Per configurare un'impostazione di sicurezza:
final safetySettings = [
SafetySetting(HarmCategory.harassment, HarmBlockThreshold.high)
];
final model = GenerativeModel(
// The Gemini 1.5 models are versatile and work with most use cases
model: 'gemini-1.5-flash',
apiKey: apiKey,
safetySettings: safetySettings,
);
Puoi anche configurare più di un'impostazione di sicurezza:
final safetySettings = [
SafetySetting(HarmCategory.harassment, HarmBlockThreshold.high),
SafetySetting(HarmCategory.hateSpeech, HarmBlockThreshold.high),
];
Passaggi successivi
La progettazione dei prompt è il processo di creazione di prompt che generano la risposta desiderata dai modelli linguistici. Scrivere prompt ben strutturati è essenziale per garantire risposte accurate e di alta qualità da un modello linguistico. Scopri le best practice per la scrittura di prompt.
Gemini offre diverse varianti di modello per soddisfare le esigenze di diversi casi d'uso, come complessità e tipi di input, implementazioni per chat o altre attività di linguaggio di dialogo e vincoli di dimensione. Scopri di più sui modelli Gemini disponibili.
Gemini offre opzioni per richiedere aumenti del limite di frequenza. Il limite di frequenza per i modelli Gemini Pro è di 60 richieste al minuto (RPM).