Inizia a utilizzare l'API Gemini nelle app per Android (SDK client)

Questo tutorial mostra come accedere all'API Gemini direttamente dalla tua app per Android utilizzando l'SDK client dell'IA di Google per Android. Puoi utilizzare questo SDK client se non vuoi lavorare direttamente con le API REST o il codice lato server (come Python) per accedere ai modelli Gemini nella tua app Android.

In questo tutorial imparerai a:

Inoltre, questo tutorial contiene sezioni sui casi d'uso avanzati (come conteggio dei token) e opzioni per controllare la generazione di contenuti.

Valuta la possibilità di accedere a Gemini sul dispositivo

L'SDK client per Android descritto in questo tutorial ti consente di accedere ai modelli di Gemini Pro che vengono eseguiti sui server di Google. Per i casi d'uso che prevedono l'elaborazione di dati sensibili, la disponibilità offline o il risparmio sui costi per i flussi di utenti utilizzati di frequente, ti consigliamo di accedere a Gemini Nano, che viene eseguito sul dispositivo. Per maggiori dettagli, consulta il tutorial per Android (sul dispositivo).

Prerequisiti

Questo tutorial presuppone che tu abbia familiarità con l'uso di Android Studio per sviluppare app per Android.

Per completare questo tutorial, assicurati che il tuo ambiente di sviluppo e l'app per Android soddisfino i seguenti requisiti:

  • Android Studio (versione più recente)
  • La tua app per Android deve avere il livello API target 21 o versioni successive.

Configura il progetto

Prima di chiamare l'API Gemini, devi configurare il tuo progetto Android, che include la configurazione della chiave API, l'aggiunta delle dipendenze dell'SDK al progetto Android e l'inizializzazione del modello.

Configura la chiave API

Per utilizzare l'API Gemini, hai bisogno di una chiave API. Se non ne hai già una, crea una chiave in Google AI Studio.

Ottenere una chiave API

Proteggi la chiave API

Ti consigliamo vivamente di non controllare una chiave API nel tuo sistema di controllo della versione. Dovresti archiviarla invece in un file local.properties (che si trova nella directory root del progetto, ma escluso dal controllo della versione), quindi utilizzare il plug-in Gradle Secrets per Android per leggere la chiave API come variabile di configurazione della build.

Kotlin

// Access your API key as a Build Configuration variable
val apiKey = BuildConfig.apiKey

Java

// Access your API key as a Build Configuration variable
String apiKey = BuildConfig.apiKey;

Tutti gli snippet in questo tutorial utilizzano questa best practice. Inoltre, se vuoi vedere l'implementazione del plug-in Secrets Gradle, puoi esaminare l'app di esempio per questo SDK o utilizzare l'ultima anteprima di Android Studio Iguana che ha un modello Gemini API Starter (che include il file local.properties per iniziare).

Aggiungi la dipendenza dell'SDK al progetto

  1. Nel file di configurazione Gradle del modulo (a livello di app) (ad esempio <project>/<app-module>/build.gradle.kts), aggiungi la dipendenza per l'SDK IA di Google per Android:

    Kotlin

    dependencies {
      // ... other androidx dependencies
    
      // add the dependency for the Google AI client SDK for Android
      implementation("com.google.ai.client.generativeai:generativeai:0.3.0")
    }
    

    Java

    Per Java, devi aggiungere altre due librerie.

    dependencies {
        // ... other androidx dependencies
    
        // add the dependency for the Google AI client SDK for Android
        implementation("com.google.ai.client.generativeai:generativeai:0.3.0")
    
        // Required for one-shot operations (to use `ListenableFuture` from Guava Android)
        implementation("com.google.guava:guava:31.0.1-android")
    
        // Required for streaming operations (to use `Publisher` from Reactive Streams)
        implementation("org.reactivestreams:reactive-streams:1.0.4")
    }
    
  2. Sincronizza il tuo progetto Android con i file Gradle.

Inizializzare il modello generativo

Prima di poter effettuare chiamate API, devi inizializzare l'oggetto GenerativeModel:

Kotlin

val generativeModel = GenerativeModel(
    // Use a model that's applicable for your use case (see "Implement basic use cases" below)
    modelName = "MODEL_NAME",
    // Access your API key as a Build Configuration variable (see "Set up your API key" above)
    apiKey = BuildConfig.apiKey
)

Java

Per Java, devi inizializzare l'oggetto GenerativeModelFutures.

// Use a model that's applicable for your use case (see "Implement basic use cases" below)
GenerativeModel gm = new GenerativeModel(/* modelName */ "MODEL_NAME",
// Access your API key as a Build Configuration variable (see "Set up your API key" above)
    /* apiKey */ BuildConfig.apiKey);

// Use the GenerativeModelFutures Java compatibility layer which offers
// support for ListenableFuture and Publisher APIs
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Quando specifichi un modello, tieni presente quanto segue:

  • Utilizza un modello specifico per il tuo caso d'uso (ad esempio, gemini-pro-vision è per l'input multimodale). All'interno di questa guida, le istruzioni per ogni implementazione elencano il modello consigliato per ogni caso d'uso.

Implementare casi d'uso comuni

Ora che il progetto è configurato, puoi esplorare l'utilizzo dell'API Gemini per implementare diversi casi d'uso:

Genera testo da input di solo testo

Quando l'input del prompt include solo testo, utilizza il modello gemini-pro con generateContent per generare un output di testo:

Kotlin

Tieni presente che generateContent() è una funzione di sospensione e deve essere chiamata da un ambito Coroutine. Se non le conosci, leggi Kotlin Coroutines su Android.

val generativeModel = GenerativeModel(
    // For text-only input, use the gemini-pro model
    modelName = "gemini-pro",
    // Access your API key as a Build Configuration variable (see "Set up your API key" above)
    apiKey = BuildConfig.apiKey
)

val prompt = "Write a story about a magic backpack."
val response = generativeModel.generateContent(prompt)
print(response.text)

Java

Tieni presente che generateContent() restituisce ListenableFuture. Se non hai dimestichezza con questa API, consulta la documentazione per Android sull'utilizzo di un ListenableFuture.

// For text-only input, use the gemini-pro model
GenerativeModel gm = new GenerativeModel(/* modelName */ "gemini-pro",
// Access your API key as a Build Configuration variable (see "Set up your API key" above)
    /* apiKey */ BuildConfig.apiKey);
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Content content = new Content.Builder()
    .addText("Write a story about a magic backpack.")
    .build();

Executor executor = // ...

ListenableFuture<GenerateContentResponse> response = model.generateContent(content);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
    @Override
    public void onSuccess(GenerateContentResponse result) {
        String resultText = result.getText();
        System.out.println(resultText);
    }

    @Override
    public void onFailure(Throwable t) {
        t.printStackTrace();
    }
}, executor);

Genera testo da input di testo e immagini (multimodale)

Gemini fornisce un modello multimodale (gemini-pro-vision), che ti consente di inserire testo e immagini. Assicurati di rivedere i requisiti relativi alle immagini per i prompt.

Quando l'input del prompt include testo e immagini, utilizza il modello gemini-pro-vision con generateContent per generare un output di testo:

Kotlin

Tieni presente che generateContent() è una funzione di sospensione e deve essere chiamata da un ambito Coroutine. Se non le conosci, leggi Kotlin Coroutines su Android.

val generativeModel = GenerativeModel(
    // For text-and-images input (multimodal), use the gemini-pro-vision model
    modelName = "gemini-pro-vision",
    // Access your API key as a Build Configuration variable (see "Set up your API key" above)
    apiKey = BuildConfig.apiKey
)

val image1: Bitmap = // ...
val image2: Bitmap = // ...

val inputContent = content {
    image(image1)
    image(image2)
    text("What's different between these pictures?")
}

val response = generativeModel.generateContent(inputContent)
print(response.text)

Java

Tieni presente che generateContent() restituisce ListenableFuture. Se non hai dimestichezza con questa API, consulta la documentazione per Android sull'utilizzo di un ListenableFuture.

// For text-and-images input (multimodal), use the gemini-pro-vision model
GenerativeModel gm = new GenerativeModel(/* modelName */ "gemini-pro-vision",
// Access your API key as a Build Configuration variable (see "Set up your API key" above)
    /* apiKey */ BuildConfig.apiKey);
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Bitmap image1 = // ...
Bitmap image2 = // ...

Content content = new Content.Builder()
    .addText("What's different between these pictures?")
    .addImage(image1)
    .addImage(image2)
    .build();

Executor executor = // ...

ListenableFuture<GenerateContentResponse> response = model.generateContent(content);
Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
    @Override
    public void onSuccess(GenerateContentResponse result) {
        String resultText = result.getText();
        System.out.println(resultText);
    }

    @Override
    public void onFailure(Throwable t) {
        t.printStackTrace();
    }
}, executor);

Creazione di conversazioni a turni multipli (chat)

Con Gemini, puoi creare conversazioni in formato libero in più turni. L'SDK semplifica il processo gestendo lo stato della conversazione. Di conseguenza, a differenza di generateContent, non devi archiviare la cronologia della conversazione manualmente.

Per creare una conversazione a turni multipli (ad esempio la chat), utilizza il modello gemini-pro e inizializza la chat chiamando startChat(). Usa quindi sendMessage() per inviare un nuovo messaggio utente, che aggiungerà anche il messaggio e la risposta alla cronologia chat.

Esistono due possibili opzioni per l'elemento role associati ai contenuti di una conversazione:

  • user: il ruolo che fornisce i prompt. Questo valore è il valore predefinito per le chiamate sendMessage.

  • model: il ruolo che fornisce le risposte. Questo ruolo può essere utilizzato durante la chiamata a startChat() con history esistente.

Kotlin

Tieni presente che generateContent() è una funzione di sospensione e deve essere chiamata da un ambito Coroutine. Se non le conosci, leggi Kotlin Coroutines su Android.

val generativeModel = GenerativeModel(
    // For text-only input, use the gemini-pro model
    modelName = "gemini-pro",
    // Access your API key as a Build Configuration variable (see "Set up your API key" above)
    apiKey = BuildConfig.apiKey
)

val chat = generativeModel.startChat(
    history = listOf(
        content(role = "user") { text("Hello, I have 2 dogs in my house.") },
        content(role = "model") { text("Great to meet you. What would you like to know?") }
    )
)

chat.sendMessage("How many paws are in my house?")

Java

Tieni presente che generateContent() restituisce ListenableFuture. Se non hai dimestichezza con questa API, consulta la documentazione per Android sull'utilizzo di un ListenableFuture.

// For text-only input, use the gemini-pro model
GenerativeModel gm = new GenerativeModel(/* modelName */ "gemini-pro",
// Access your API key as a Build Configuration variable (see "Set up your API key" above)
    /* apiKey */ BuildConfig.apiKey);
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

// (optional) Create previous chat history for context
Content.Builder userContentBuilder = new Content.Builder();
userContentBuilder.setRole("user");
userContentBuilder.addText("Hello, I have 2 dogs in my house.");
Content userContent = userContentBuilder.build();

Content.Builder modelContentBuilder = new Content.Builder();
modelContentBuilder.setRole("model");
modelContentBuilder.addText("Great to meet you. What would you like to know?");
Content modelContent = userContentBuilder.build();

List<Content> history = Arrays.asList(userContent, modelContent);

// Initialize the chat
ChatFutures chat = model.startChat(history);

// Create a new user message
Content userMessage = new Content.Builder()
    .setRole("user")
    .addText("How many paws are in my house?")
    .build();

Executor executor = // ...

// Send the message
ListenableFuture<GenerateContentResponse> response = chat.sendMessage(userMessage);

Futures.addCallback(response, new FutureCallback<GenerateContentResponse>() {
    @Override
    public void onSuccess(GenerateContentResponse result) {
        String resultText = result.getText();
        System.out.println(resultText);
    }

    @Override
    public void onFailure(Throwable t) {
        t.printStackTrace();
    }
}, executor);

Usa i flussi di dati per interazioni più rapide

Per impostazione predefinita, il modello restituisce una risposta dopo aver completato l'intero processo di generazione. Puoi ottenere interazioni più rapide non aspettando l'intero risultato e utilizza invece i flussi di dati per gestire i risultati parziali.

L'esempio seguente mostra come implementare il flusso di dati con generateContentStream per generare testo da un prompt di input di testo e immagini.

Kotlin

Tieni presente che generateContentStream() è una funzione di sospensione e deve essere chiamata da un ambito Coroutine. Se non le conosci, leggi Kotlin Coroutines su Android.

val generativeModel = GenerativeModel(
    // For text-and-image input (multimodal), use the gemini-pro-vision model
    modelName = "gemini-pro-vision",
    // Access your API key as a Build Configuration variable (see "Set up your API key" above)
    apiKey = BuildConfig.apiKey
)

val image1: Bitmap = // ...
val image2: Bitmap = // ...

val inputContent = content {
    image(image1)
    image(image2)
    text("What's the difference between these pictures?")
}

var fullResponse = ""
generativeModel.generateContentStream(inputContent).collect { chunk ->
    print(chunk.text)
    fullResponse += chunk.text
}

Java

I metodi di inserimento di flussi Java in questo SDK restituiscono un tipo Publisher dalla libreria Reactive Streams.

// For text-and-images input (multimodal), use the gemini-pro-vision model
GenerativeModel gm = new GenerativeModel(/* modelName */ "gemini-pro-vision",
// Access your API key as a Build Configuration variable (see "Set up your API key" above)
    /* apiKey */ BuildConfig.apiKey);
GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Bitmap image1 = // ...
Bitmap image2 = // ...

Content content = new Content.Builder()
    .addText("What's different between these pictures?")
    .addImage(image1)
    .addImage(image2)
    .build();

Publisher<GenerateContentResponse> streamingResponse =
    model.generateContentStream(content);

final String[] fullResponse = {""};

streamingResponse.subscribe(new Subscriber<GenerateContentResponse>() {
    @Override
    public void onNext(GenerateContentResponse generateContentResponse) {
        String chunk = generateContentResponse.getText();
        fullResponse[0] += chunk;
    }

    @Override
    public void onComplete() {
        System.out.println(fullResponse[0]);
    }

    @Override
    public void onError(Throwable t) {
        t.printStackTrace();
    }

    @Override
    public void onSubscribe(Subscription s) { }
});

Puoi utilizzare un approccio simile per i casi d'uso relativi all'inserimento di solo testo e alla chat:

Kotlin

Tieni presente che generateContentStream() è una funzione di sospensione e deve essere chiamata da un ambito Coroutine. Se non le conosci, leggi Kotlin Coroutines su Android.

// Use streaming with text-only input
generativeModel.generateContentStream(inputContent).collect { chunk ->
    print(chunk.text)
}
// Use streaming with multi-turn conversations (like chat)
val chat = generativeModel.startChat()
chat.sendMessageStream(inputContent).collect { chunk ->
    print(chunk.text)
}

Java

I metodi di inserimento di flussi Java in questo SDK restituiscono un tipo Publisher dalla libreria Reactive Streams.

// Use streaming with text-only input
Publisher<GenerateContentResponse> streamingResponse =
    model.generateContentStream(inputContent);

final String[] fullResponse = {""};

streamingResponse.subscribe(new Subscriber<GenerateContentResponse>() {
    @Override
    public void onNext(GenerateContentResponse generateContentResponse) {
        String chunk = generateContentResponse.getText();
        fullResponse[0] += chunk;
    }

    @Override
    public void onComplete() {
        System.out.println(fullResponse[0]);
    }

    // ... other methods omitted for brevity
});
// Use streaming with multi-turn conversations (like chat)
ChatFutures chat = model.startChat(history);

Publisher<GenerateContentResponse> streamingResponse =
    chat.sendMessageStream(inputContent);

final String[] fullResponse = {""};

streamingResponse.subscribe(new Subscriber<GenerateContentResponse>() {
    @Override
    public void onNext(GenerateContentResponse generateContentResponse) {
        String chunk = generateContentResponse.getText();
        fullResponse[0] += chunk;
    }

    @Override
    public void onComplete() {
        System.out.println(fullResponse[0]);
    }

    // ... other methods omitted for brevity
});

Implementare casi d'uso avanzati

I casi d'uso comuni descritti nella sezione precedente di questo tutorial consentono di acquisire dimestichezza con l'utilizzo dell'API Gemini. In questa sezione vengono descritti alcuni casi d'uso che possono essere considerati più avanzati.

Conta token

Quando utilizzi prompt lunghi, potrebbe essere utile contare i token prima di inviare contenuti al modello. I seguenti esempi mostrano come utilizzare countTokens() per vari casi d'uso:

Kotlin

Tieni presente che countTokens() è una funzione di sospensione e deve essere chiamata da un ambito Coroutine. Se non le conosci, leggi Kotlin Coroutines su Android.

// For text-only input
val (totalTokens) = generativeModel.countTokens("Write a story about a magic backpack.")

// For text-and-image input (multi-modal)
val multiModalContent = content {
    image(image1)
    image(image2)
    text("What's the difference between these pictures?")
}

val (totalTokens) = generativeModel.countTokens(multiModalContent)

// For multi-turn conversations (like chat)
val history = chat.history
val messageContent = content { text("This is the message I intend to send")}
val (totalTokens) = generativeModel.countTokens(*history.toTypedArray(), messageContent)

Java

Tieni presente che countTokens() restituisce ListenableFuture. Se non hai dimestichezza con questa API, consulta la documentazione per Android sull'utilizzo di un ListenableFuture.

Content text = new Content.Builder()
    .addText("Write a story about a magic backpack.")
    .build();

Executor executor = // ...

// For text-only input
ListenableFuture<CountTokensResponse> countTokensResponse = model.countTokens(text);

Futures.addCallback(countTokensResponse, new FutureCallback<CountTokensResponse>() {
    @Override
    public void onSuccess(CountTokensResponse result) {
        int totalTokens = result.getTotalTokens();
        System.out.println("TotalTokens = " + totalTokens);
    }

    @Override
    public void onFailure(Throwable t) {
        t.printStackTrace();
    }
}, executor);

// For text-and-image input
Bitmap image1 = // ...
Bitmap image2 = // ...

Content multiModalContent = new Content.Builder()
    .addImage(image1)
    .addImage(image2)
    .addText("What's different between these pictures?")
    .build();

ListenableFuture<CountTokensResponse> countTokensResponse = model.countTokens(multiModalContent);

// For multi-turn conversations (like chat)
List<Content> history = chat.getChat().getHistory();

Content messageContent = new Content.Builder()
    .addText("This is the message I intend to send")
    .build();

Collections.addAll(history, messageContent);

ListenableFuture<CountTokensResponse> countTokensResponse = model.countTokens(history.toArray(new Content[0]));

Opzioni per controllare la generazione di contenuti

Puoi controllare la generazione di contenuti configurando i parametri del modello e utilizzando le impostazioni di sicurezza.

Configura i parametri del modello

Ogni prompt inviato al modello include valori parametro che controllano il modo in cui il modello genera una risposta. Il modello può generare risultati diversi a seconda dei valori parametro. Scopri di più sui parametri del modello.

Kotlin

val config = generationConfig {
    temperature = 0.9f
    topK = 16
    topP = 0.1f
    maxOutputTokens = 200
    stopSequences = listOf("red")
}

val generativeModel = GenerativeModel(
    modelName = "MODEL_NAME",
    apiKey = BuildConfig.apiKey,
    generationConfig = config
)

Java

GenerationConfig.Builder configBuilder = new GenerationConfig.Builder();
configBuilder.temperature = 0.9f;
configBuilder.topK = 16;
configBuilder.topP = 0.1f;
configBuilder.maxOutputTokens = 200;
configBuilder.stopSequences = Arrays.asList("red");

GenerationConfig generationConfig = configBuilder.build();

GenerativeModel gm = new GenerativeModel(
    "MODEL_NAME",
    BuildConfig.apiKey,
    generationConfig
);

GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Usa le impostazioni di sicurezza

Puoi utilizzare le impostazioni di sicurezza per regolare la probabilità di ricevere risposte che potrebbero essere considerate dannose. Per impostazione predefinita, le impostazioni di sicurezza bloccano i contenuti con una probabilità media e/o alta di essere contenuti non sicuri in tutte le dimensioni. Scopri di più sulle Impostazioni di sicurezza.

Per configurare un'impostazione di sicurezza:

Kotlin

val generativeModel = GenerativeModel(
    modelName = "MODEL_NAME",
    apiKey = BuildConfig.apiKey,
    safetySettings = listOf(
        SafetySetting(HarmCategory.HARASSMENT, BlockThreshold.ONLY_HIGH)
    )
)

Java

SafetySetting harassmentSafety = new SafetySetting(HarmCategory.HARASSMENT,
    BlockThreshold.ONLY_HIGH);

GenerativeModel gm = new GenerativeModel(
    "MODEL_NAME",
    BuildConfig.apiKey,
    null, // generation config is optional
    Collections.singletonList(harassmentSafety)
);

GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Puoi anche configurare più di un'impostazione di sicurezza:

Kotlin

val harassmentSafety = SafetySetting(HarmCategory.HARASSMENT, BlockThreshold.ONLY_HIGH)

val hateSpeechSafety = SafetySetting(HarmCategory.HATE_SPEECH, BlockThreshold.MEDIUM_AND_ABOVE)

val generativeModel = GenerativeModel(
    modelName = "MODEL_NAME",
    apiKey = BuildConfig.apiKey,
    safetySettings = listOf(harassmentSafety, hateSpeechSafety)
)

Java

SafetySetting harassmentSafety = new SafetySetting(HarmCategory.HARASSMENT,
    BlockThreshold.ONLY_HIGH);

SafetySetting hateSpeechSafety = new SafetySetting(HarmCategory.HATE_SPEECH,
    BlockThreshold.MEDIUM_AND_ABOVE);

GenerativeModel gm = new GenerativeModel(
    "MODEL_NAME",
    BuildConfig.apiKey,
    null, // generation config is optional
    Arrays.asList(harassmentSafety, hateSpeechSafety)
);

GenerativeModelFutures model = GenerativeModelFutures.from(gm);

Passaggi successivi

  • La progettazione dei prompt è il processo di creazione di prompt che generano la risposta desiderata dai modelli linguistici. Scrivere prompt ben strutturati è essenziale per garantire risposte accurate e di alta qualità da un modello linguistico. Scopri le best practice per la scrittura di prompt.

  • Gemini offre diverse varianti di modello per soddisfare le esigenze di diversi casi d'uso, come complessità e tipi di input, implementazioni per chat o altre attività di linguaggio di dialogo e vincoli di dimensione. Scopri di più sui modelli Gemini disponibili.

  • Gemini offre opzioni per richiedere aumenti del limite di frequenza. Il limite di frequenza per i modelli Gemini Pro è di 60 richieste al minuto (RPM).

  • L'SDK client per Android descritto in questo tutorial ti consente di accedere ai modelli di Gemini Pro che vengono eseguiti sui server di Google. Per i casi d'uso che prevedono l'elaborazione di dati sensibili, la disponibilità offline o il risparmio sui costi per i flussi di utenti utilizzati di frequente, ti consigliamo di accedere a Gemini Nano, che viene eseguito sul dispositivo. Per maggiori dettagli, consulta il tutorial per Android (sul dispositivo).