API Files

La famiglia di modelli di intelligenza artificiale (IA) Gemini è progettata per gestire diversi tipi di dati di input, tra cui testo, immagini e audio. Poiché questi modelli possono gestire più di un tipo o modalità di dati, i modelli Gemini sono chiamati modelli multimodali o sono descritti come dotati di funzionalità multimodali.

Questa guida mostra come utilizzare i file multimediali con l'API Files. Le operazioni di base sono le stesse per file audio, immagini, video, documenti e altri tipi di file supportati.

Per indicazioni sui prompt dei file, consulta la sezione Guida ai prompt dei file.

Carica un file

Puoi utilizzare l'API Files per caricare un file multimediale. Utilizza sempre l'API Files quando la dimensione totale della richiesta (inclusi i file, il prompt di testo, le istruzioni di sistema e così via) è superiore a 20 MB.

Il codice seguente carica un file e lo utilizza in una chiamata a generateContent.

Python

from google import genai

client = genai.Client(api_key="GOOGLE_API_KEY")

myfile = client.files.upload(file="path/to/sample.mp3")

response = client.models.generate_content(
    model="gemini-2.0-flash", contents=["Describe this audio clip", myfile]
)

print(response.text)

JavaScript

import {
  GoogleGenAI,
  createUserContent,
  createPartFromUri,
} from "@google/genai";

const ai = new GoogleGenAI({ apiKey: "GOOGLE_API_KEY" });

async function main() {
  const myfile = await ai.files.upload({
    file: "path/to/sample.mp3",
    config: { mimeType: "audio/mpeg" },
  });

  const response = await ai.models.generateContent({
    model: "gemini-2.0-flash",
    contents: createUserContent([
      createPartFromUri(myfile.uri, myfile.mimeType),
      "Describe this audio clip",
    ]),
  });
  console.log(response.text);
}

await main();

Vai

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
defer client.DeleteFile(ctx, file.Name)

model := client.GenerativeModel("gemini-2.0-flash")
resp, err := model.GenerateContent(ctx,
    genai.FileData{URI: file.URI},
    genai.Text("Describe this audio clip"))
if err != nil {
    log.Fatal(err)
}

printResponse(resp)

REST

AUDIO_PATH="path/to/sample.mp3"
MIME_TYPE=$(file -b --mime-type "${AUDIO_PATH}")
NUM_BYTES=$(wc -c < "${AUDIO_PATH}")
DISPLAY_NAME=AUDIO

tmp_header_file=upload-header.tmp

# Initial resumable request defining metadata.
# The upload url is in the response headers dump them to a file.
curl "${BASE_URL}/upload/v1beta/files?key=${GOOGLE_API_KEY}" \
  -D upload-header.tmp \
  -H "X-Goog-Upload-Protocol: resumable" \
  -H "X-Goog-Upload-Command: start" \
  -H "X-Goog-Upload-Header-Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Header-Content-Type: ${MIME_TYPE}" \
  -H "Content-Type: application/json" \
  -d "{'file': {'display_name': '${DISPLAY_NAME}'}}" 2> /dev/null

upload_url=$(grep -i "x-goog-upload-url: " "${tmp_header_file}" | cut -d" " -f2 | tr -d "\r")
rm "${tmp_header_file}"

# Upload the actual bytes.
curl "${upload_url}" \
  -H "Content-Length: ${NUM_BYTES}" \
  -H "X-Goog-Upload-Offset: 0" \
  -H "X-Goog-Upload-Command: upload, finalize" \
  --data-binary "@${AUDIO_PATH}" 2> /dev/null > file_info.json

file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

# Now generate content using that file
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash:generateContent?key=$GOOGLE_API_KEY" \
    -H 'Content-Type: application/json' \
    -X POST \
    -d '{
      "contents": [{
        "parts":[
          {"text": "Describe this audio clip"},
          {"file_data":{"mime_type": "${MIME_TYPE}", "file_uri": '$file_uri'}}]
        }]
      }' 2> /dev/null > response.json

cat response.json
echo

jq ".candidates[].content.parts[].text" response.json

Recuperare i metadati di un file

Puoi verificare che l'API abbia archiviato correttamente il file caricato e recuperarne i metadati chiamando files.get.

Python

myfile = client.files.upload(file='path/to/sample.mp3')
file_name = myfile.name
myfile = client.files.get(name=file_name)
print(myfile)

JavaScript

const myfile = await ai.files.upload({
  file: "path/to/sample.mp3",
  config: { mimeType: "audio/mpeg" },
});

const fileName = myfile.name;
const fetchedFile = await ai.files.get({ name: fileName });
console.log(fetchedFile);

Vai

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}

gotFile, err := client.GetFile(ctx, file.Name)
if err != nil {
    log.Fatal(err)
}
fmt.Println("Got file:", gotFile.Name)

REST

# file_info.json was created in the upload example
name=$(jq ".file.name" file_info.json)
# Get the file of interest to check state
curl https://generativelanguage.googleapis.com/v1beta/files/$name > file_info.json
# Print some information about the file you got
name=$(jq ".file.name" file_info.json)
echo name=$name
file_uri=$(jq ".file.uri" file_info.json)
echo file_uri=$file_uri

Elenca i file caricati

Puoi caricare più file utilizzando l'API Files. Il seguente codice recupera un elenco di tutti i file caricati:

Python

print('My files:')
for f in client.files.list():
    print(' ', f.name)

JavaScript

const listResponse = await ai.files.list({ config: { pageSize: 10 } });
for await (const file of listResponse) {
  console.log(file.name);
}

Vai

iter := client.ListFiles(ctx)
for {
    ifile, err := iter.Next()
    if err == iterator.Done {
        break
    }
    if err != nil {
        log.Fatal(err)
    }
    fmt.Println(ifile.Name)
}

REST

echo "My files: "

curl "https://generativelanguage.googleapis.com/v1beta/files?key=$GOOGLE_API_KEY"

Eliminare i file caricati

I file vengono eliminati automaticamente dopo 48 ore. Puoi anche eliminare manualmente un file caricato:

Python

myfile = client.files.upload(file='path/to/sample.mp3')
client.files.delete(name=myfile.name)

JavaScript

const myfile = await ai.files.upload({
  file: "path/to/sample.mp3",
  config: { mimeType: "audio/mpeg" },
});

const fileName = myfile.name;
await ai.files.delete({ name: fileName });

Vai

file, err := client.UploadFileFromPath(ctx, "path/to/sample.mp3", nil)
if err != nil {
    log.Fatal(err)
}
client.DeleteFile(ctx, file.Name)

REST

curl --request "DELETE" https://generativelanguage.googleapis.com/v1beta/files/$name?key=$GOOGLE_API_KEY

Informazioni sull'utilizzo

Puoi utilizzare l'API Files per caricare e interagire con i file multimediali. L'API Files consente di archiviare fino a 20 GB di file per progetto, con una dimensione massima per file di 2 GB. I file vengono archiviati per 48 ore. Durante questo periodo, puoi utilizzare l'API per ottenere i metadati dei file, ma non puoi scaricarli. L'API Files è disponibile senza costi in tutte le regioni in cui è disponibile l'API Gemini.

Strategie di richiesta di file

Questa sezione fornisce indicazioni e best practice per l'utilizzo di file multimediali con prompt per l'API Gemini.

La possibilità di utilizzare vari tipi di dati nei prompt ti offre maggiore flessibilità in termini di attività che puoi svolgere con l'API Gemini. Ad esempio, puoi inviare al modello la foto di un pasto delizioso e chiedergli di scrivere un breve blog sul pasto.

Prompt Risposta

Scrivi un breve post del blog coinvolgente basato su questa immagine. Deve includere una descrizione del pasto nella foto e parlare del mio percorso di preparazione dei pasti.


Cookie

La preparazione dei pasti è un ottimo modo per risparmiare tempo e denaro e può anche aiutarti a mangiare più sano. Questo piatto è un ottimo esempio di un pasto sano e gustoso che può essere preparato facilmente in anticipo.

Questo pasto include riso integrale, verdure arrosto e pollo teriyaki. Il riso integrale è un carboidrato sano e complesso che ti fornirà energia costante. Le verdure arrosto sono un ottimo modo per assumere la dose giornaliera di vitamine e minerali, mentre il pollo teriyaki è un'opzione deliziosa e ricca di proteine.

Inoltre, è molto facile da preparare. Basta cuocere il riso integrale, arrostire le verdure e cucinare il pollo teriyaki. Una volta cotti, suddividili in contenitori per la preparazione dei pasti e conservali in frigorifero. Puoi quindi prendere un contenitore e partire nelle mattine più affollate.

Se stai cercando un pasto sano e delizioso che può essere preparato facilmente in anticipo, questa è un'ottima opzione. È ricco di nutrienti e sapore e ti farà sentire sazio e soddisfatto.

Ecco come preparare pasti sani e deliziosi.

Se hai difficoltà a ottenere l'output desiderato dai prompt che utilizzano i file multimediali, esistono alcune strategie che possono aiutarti a ottenere i risultati che vuoi. Le sezioni seguenti forniscono approcci di progettazione e suggerimenti per la risoluzione dei problemi per migliorare i prompt che utilizzano input multimodali.

Puoi migliorare i prompt multimodali seguendo queste best practice:

  • Concetti fondamentali per la progettazione dei prompt

    • Fornisci istruzioni specifiche: crea istruzioni chiare e concise che lasciano il minor spazio possibile per una interpretazione errata.
    • Aggiungi alcuni esempi al prompt: utilizza esempi realistici con pochi esempi per illustrare ciò che vuoi ottenere.
    • Suddividi le attività in modo graduale: suddividi le attività complesse in sottoobiettivi gestibili, guidando il modello attraverso il processo.
    • Specifica il formato di output: nel prompt, chiedi che l'output sia nel formato che preferisci, ad esempio Markdown, JSON, HTML e altri.
    • Metti l'immagine per prima per i prompt con una sola immagine: anche se Gemini può gestire input di immagini e testo in qualsiasi ordine, per i prompt contenenti una singola immagine, il rendimento potrebbe essere migliore se l'immagine (o il video) viene posizionata prima del prompt di testo. Tuttavia, per i prompt che richiedono un'interlacciamento elevato delle immagini con i testi per avere un senso, utilizza l'ordine più naturale.
  • Risoluzione dei problemi relativi al prompt multimodale

    • Se il modello non estrae informazioni dalla parte pertinente dell'immagine: fornisci suggerimenti sugli aspetti dell'immagine da cui vuoi che il prompt estragga informazioni.
    • Se l'output del modello è troppo generico (non sufficientemente personalizzato per l'input di immagini/video): all'inizio del prompt, prova a chiedere al modello di descrivere le immagini o il video prima di fornire l'istruzione della task oppure prova a chiedere al modello di fare riferimento a ciò che è presente nell'immagine.
    • Per risolvere i problemi relativi alla parte non riuscita: chiedi al modello di descrivere l'immagine o di spiegare il suo ragionamento per valutare la sua comprensione iniziale.
    • Se il prompt genera contenuti immaginari: prova a ridurre l'impostazione della temperatura o a chiedere al modello descrizioni più brevi in modo che sia meno probabile che estrapola ulteriori dettagli.
    • Ottimizzazione dei parametri di campionamento:sperimenta diverse impostazioni di temperatura e selezioni top-k per modificare la creatività del modello.

Fornisci istruzioni specifiche

I prompt hanno il maggiore successo quando sono chiari e dettagliati. Se hai in mente un output specifico, è meglio includere questo requisito nel prompt per assicurarti di ottenere l'output che vuoi.

Per questa immagine di una bacheca dell'aeroporto, chiedere al modello di "descrivere questa immagine" potrebbe generare una descrizione generica. Se vuoi che il modello analizzi l'ora e la città dall'immagine, puoi includere questa richiesta direttamente nel prompt.

Prompt Risposta del modello

Descrivi questa immagine.

L'immagine mostra un tabellone di arrivi e partenze di un aeroporto.

Prompt aggiornato Risposta migliorata
Orari di viaggio

Analizza l'ora e la città dal tabellone dell'aeroporto mostrato in questa immagine in un elenco.

  • 10:50 Mosca
  • 11:05 Edimburgo
  • 11:05 (Londra)
  • 11:10 Bucarest
  • 11:30 (ora di Kiev)
  • 11:35 Dublino
  • 11:45 East Midlands
  • 12:15 Sofia
  • 12:30 (Londra)
  • 12:30 Newcastle
  • 12:40 San Pietroburgo
  • 12:40 (Londra)
  • 12:45 Manchester
  • Aggiungi alcuni esempi

    Il modello Gemini può accettare più input che può utilizzare come esempi per comprendere il risultato che vuoi. L'aggiunta di questi esempi può aiutare il modello a identificare gli schemi e applicare la relazione tra le immagini e le risposte fornite al nuovo esempio. Questo approccio è anche chiamato apprendimento "few-shot".

    Nell'esempio seguente, l'output iniziale è scritto sotto forma di frase e contiene anche il paese (Brasile). Supponiamo che tu voglia l'output in un formato o uno stile diverso e che tu voglia solo la città, non il paese. L'aggiunta di esempi few-shot al prompt può indurre il modello a rispondere nel modo che preferisci.

    Prompt Risposta del modello
    Orari di viaggio

    Individua la città e il punto di riferimento.

    Il punto di riferimento è la statua del Cristo Redentore a Rio de Janeiro, in Brasile.

    Prompt aggiornato Risposta migliorata

    Individua la città e il punto di riferimento.

    colosseo

    city: Rome, landmark: the Colosseum.

    Città proibita

    city: Beijing, landmark: Forbidden City

    forbidden-city

    city: Rio de Janeiro, landmark: Christ the Redeemer statue

    Analizza la situazione passo passo

    Per attività complesse come quelle che richiedono sia la comprensione visiva sia il ragionamento, può essere utile suddividerle in passaggi più piccoli e semplici. In alternativa, potrebbe essere efficace anche se nel prompt chiedi direttamente al modello di "pensare passo passo".

    Prompt Risposta del modello

    Quando esaurirò la carta igienica?

    A breve ti rimarranno solo 3 tentativi.

    Prompt aggiornato Risposta migliorata

      1. Innanzitutto, conta quanti rotoli di carta igienica ci sono in questa foto.
      2. Quindi, determina la quantità di carta igienica utilizzata in media da una persona al giorno.
      3. Calcola quanto dureranno questi rotoli di carta igienica.

      1. In questa foto ci sono 3 rotoli di carta igienica.
      2. Una persona media utilizza circa 20 fogli di carta igienica al giorno.
      3. Se ogni rotolo contiene 200 fogli, durerà circa 10 giorni. Pertanto, i tre annunci dureranno circa un mese.

    I problemi di matematica o altri tipi di problemi con enunciato sono ottimi candidati per chiedere al modello di pensare passo passo.

    Prompt Risposta

    Qual è il 4° termine della sequenza?

    -135

    La risposta del modello non è corretta. Alcuni modi per migliorare questo aspetto sono chiedere al modello di analizzare il problema prima di rispondere al prompt.

    Prompt Risposta

    Analizza prima la formula nell'immagine.

    Poi, in base alla formula, rispondi "Qual è il 4° termine della sequenza?".

    Fai clic per espandere il risultato

    \( b(n) = b(n-1) * (-3) \)

    \( b(1) = 15 \)

    1. Sostituisci n = 4 nella formula:
    2. \( b(4) = b(4-1) * (-3) \)

      \( b(4) = b(3) * (-3) \)

    3. Non conosciamo il valore di b(3), quindi sostituisci n = 3 nella formula:
    4. \( b(3) = b(3-1) * (-3) \)

      \( b(3) = b(2) * (-3) \)

    5. Non sappiamo il valore di b(2), quindi sostituisci n = 2 nella formula:
    6. \( b(2) = b(2-1) * (-3) \)

      \( b(2) = b(1) * (-3) \)

    7. Sappiamo che il valore di b(1) è 15, quindi sostituiscilo nella formula:
    8. \( b(2) = 15 * (-3) \)

      \( b(2) = -45 \)

    9. Ora che conosciamo il valore di b(2), sostituiscilo nella formula di b(3):
    10. \( b(3) = b(2) * (-3) \)

      \( b(3) = -45 * (-3) \)

      \( b(3) = 135 \)

    11. Ora che conosciamo il valore di b(3), sostituiscilo nella formula di b(4):
    12. \( b(4) = b(3) * (-3) \)

      \( b(4) = 135 * (-3) \)

      \( b(4) = -405 \)

    Pertanto, il 4° termine della sequenza è -405.

    Questa risposta del modello è corretta. Ora, per semplificarla ulteriormente, puoi chiedere al modello di pensare passo passo.

    Prompt aggiornato Risposta migliorata

    Qual è il 4° termine della sequenza? Procedi passo passo.

    Il primo termine è 15.

    Il secondo termine è b(1) * (-3) = 15 * (-3) = -45.

    Il terzo termine è b(2) * (-3) = -45 * (-3) = 135.

    Il quarto termine è b(3) * (-3) = 135 * (-3) = -405.

    Specifica il formato di output

    Un problema comune è la necessità che l'output del modello sia in un determinato formato (ad es. Markdown, JSON, HTML), soprattutto se l'output del modello deve essere importato da un'attività a valle. Puoi provare a produrre output in questo formato indicando al modello di farlo all'interno del prompt. Di seguito sono riportati due esempi:

    Prompt Risposta del modello

    Analizza la tabella in questa immagine in formato Markdown

    | Oggetto | Stato | Ora | Data di inizio | Data di consegna |

    | ------- | ------ | ---- | --------- | ------ |

    | Matematica | Completata | 1 ora e mezza | 29/11/2023 | 1/12/2023 |

    | Geografia | Completata | 30 min | 2/12/2023 | 4/12/2023 |

    | Fisica | In corso | 2 ore | 3/12/2023 | 5/12/2023 |

    | Biologia | Non iniziato | 6 ore | 2/11/2016 | 6/12/2023 |

    Prompt Risposta del modello

    Fornisci un elenco di tutti i seguenti attributi:

    ingredienti, tipo di cucina, vegetariano o meno, in formato JSON

    ```json```

    {

    "ingredients": [

    "rice",

    "shrimp",

    "clams",

    "mussels",

    "peas",

    "tomatoes",

    "onions",

    "garlic",

    "olive oil",

    "paprika",

    "salt",

    "pepper"

    ],

    "type of cuisine": "Spanish",

    "vegetarian": false

    Mettere l'immagine al primo posto per i prompt con immagine singola

    Sebbene Gemini possa interpretare l'immagine e il testo in qualsiasi ordine all'interno di un prompt, posizionare una singola immagine prima del prompt di testo potrebbe portare a risultati migliori. Nei seguenti esempi, noterai che l'immagine viene visualizzata prima del testo in ogni prompt.

    Risolvere i problemi relativi al prompt multimodale

    Se non ricevi una risposta utile, potresti dover risolvere i problemi relativi al prompt. Ecco alcune strategie che puoi provare.

    Se il modello non estrae informazioni dalla parte pertinente dell'immagine

    Per ottenere una risposta più specifica, puoi indicare gli aspetti dell'immagine da cui vuoi che il prompt tragga informazioni per formulare la risposta.

    Prompt Risposta del modello

    Per quanti giorni possono essere utilizzati questi pannolini?

    I pannolini dureranno 198 giorni prima di esaurirsi.

    Prompt aggiornato Risposta migliorata

    Quanto durano questi pannolini prima che finiscano?

    Utilizza il peso indicato sulla confezione per determinare l'età del bambino e il numero totale di pannolini nella confezione.

    Dividi il numero totale per il numero di pannolini che il bambino usa al giorno.

    La confezione contiene 198 pannolini. Sulla confezione è indicato che i pannolini sono per un bambino di peso compreso tra 10 e 17 kg.

    Il bambino medio in questa fascia di peso ha probabilmente un'età compresa tra 1 e 2 anni.

    Un bambino di 2 anni usa in genere 6 pannolini al giorno, quindi i pannolini dureranno circa 33 giorni (198/6).

    Se l'output del modello è troppo generico e non è sufficientemente personalizzato in base all'immagine in input

    Per aiutare il modello a personalizzare la risposta alle immagini, prova a chiedergli di descriverle prima di eseguire l'attività di ragionamento.

    Prompt Risposta del modello

    Cosa hanno in comune queste immagini?

    Tutte e quattro le immagini sono esempi di fotografia paesaggistica.

    Prompt aggiornato Risposta migliorata

    Per prima cosa, descrivi nel dettaglio i contenuti di ogni immagine. Cosa hanno in comune queste immagini?

    La prima immagine mostra una persona che prepara una valigia. La seconda immagine mostra un corridoio vuoto in un centro commerciale. La terza immagine mostra un rotolo di carta igienica. La quarta immagine mostra un mare scuro e tempestoso.

    Il punto in comune di queste immagini è che sono tutte esempi di spazi liminali. Gli spazi liminali sono luoghi o situazioni che si trovano tra altri due luoghi o situazioni. Sono spesso caratterizzati da un senso di incertezza o ambiguità.

    La prima immagine mostra la persona tra casa e un viaggio. La seconda immagine mostra il corridoio tra due negozi. La terza immagine mostra la carta igienica, che può rappresentare un bagno. Un bagno è uno spazio di transizione tra il privato e il pubblico. È un luogo in cui ci prepariamo ad entrare o uscire dal mondo esterno.

    La quarta immagine mostra il mare tra calmo e tempestoso.

    Gli spazi liminali possono essere sia eccitanti che inquietanti. Possono essere un luogo di nuovi inizi o di finali. Possono essere un luogo di riflessione o un luogo di azione.

    Puoi anche provare a chiedere esplicitamente al modello di fare riferimento a ciò che è presente nell'immagine.

    Prompt aggiornato Risposta migliorata

    Cosa hanno in comune queste immagini? Fai riferimento a ciò che è presente nelle immagini nella tua risposta.

    Tutte le immagini sono correlate ai viaggi. La prima immagine mostra una persona che prepara una valigia, la seconda un corridoio vuoto in un centro commerciale, la terza una pila di carta igienica e la quarta un mare scuro e tempestoso.

    Queste immagini sono tutte correlate ai viaggi perché sono tutte cose di cui le persone hanno bisogno o che usano quando viaggiano. La prima immagine mostra una persona che prepara una valigia, un'azione che le persone fanno quando partono per un viaggio. La seconda immagine mostra un corridoio vuoto in un centro commerciale, un luogo in cui le persone spesso vanno a comprare cose per i loro viaggi. La terza immagine mostra una pila di carta igienica, un oggetto che le persone usano spesso quando sono in viaggio. La quarta immagine mostra un mare scuro e tempestoso, un elemento che le persone incontrano spesso quando viaggiano.

    Gli stessi suggerimenti valgono per le creatività generate dalle immagini. Nel seguente esempio con il coniglio, chiedere esplicitamente al modello di includere aspetti dell'immagine può migliorare l'output.

    Prompt Risposta del modello

    Puoi scrivermi una poesia su questa immagine?

    Coniglietto, così morbido e marrone,
    saltella nel campo, su e giù.
    Le tue orecchie sono così lunghe, la tua coda così piccola,
    Sei la creatura più carina di tutte.

    Sgranocchi l'erba, così verde e dolce,
    e scappi via quando mi vedi.
    Ma sarò sempre tuo amico,
    piccolo coniglietto, fino alla fine.

    Prompt aggiornato Risposta migliorata

    Puoi scrivermi una poesia descrittiva e drammatica su questa immagine e includere la località?

    Piccolo coniglietto sul prato,
    Orecchie così lunghe, così acute.
    Cosa vedi là fuori,
    in lontananza, dove guardi?

    È il blu dell'oceano,
    che scintilla nella tonalità del sole?
    O le onde che si infrangono e rombano,
    Un ritmo che adori?

    Coniglietto, dimmi la verità,
    cosa attira così tanto la tua attenzione?
    È la brezza salata,
    O i richiami dei gabbiani che ti piace?

    Forse è la vastità di tutto,
    un mondo così grande e piccolo.
    Un luogo in cui i sogni possono vagare,
    e le avventure possono essere seminate.

    Coniglietto, mi chiedo cosa sogni,
    mentre siedi sull'erba, così sereno.
    Vuoi esplorare le profondità,
    O rimanere a terra, dove puoi saltare?

    Qualunque sia il motivo, piccolo coniglietto,
    mantieni viva la scintilla della meraviglia.
    Perché nei tuoi sogni e nelle tue aspirazioni
    si cela un mondo in attesa della tua creazione.

    Risolvere i problemi relativi alla parte del prompt che non è riuscita

    Può essere difficile capire se un prompt non è andato a buon fine perché il modello non ha compreso l'immagine o se l'ha compresa, ma non ha eseguito i passaggi di ragionamento corretti in seguito. Per distinguere tra questi motivi, chiedi al modello di descrivere cosa c'è nell'immagine.

    Nell'esempio seguente, se il modello risponde con uno spuntino che sembra sorprendente se abbinato al tè (ad es. popcorn), puoi prima risolvere i problemi per determinare se il modello ha riconosciuto correttamente che l'immagine contiene tè.

    Prompt Richiesta di risoluzione dei problemi

    Quale spuntino posso preparare in 1 minuto che vada bene con questo?

    Descrivi cosa c'è in questa immagine.

    Un'altra strategia è chiedere al modello di spiegare il suo ragionamento. In questo modo puoi limitare la parte del ragionamento che non funziona, se presente.

    Prompt Richiesta di risoluzione dei problemi

    Quale spuntino posso preparare in 1 minuto che vada bene con questo?

    Quale spuntino posso preparare in 1 minuto che vada bene con questo? Spiega perché.

    Passaggi successivi

    • Prova a scrivere i tuoi prompt multimodali utilizzando Google AI Studio.
    • Per informazioni sull'utilizzo dell'API Gemini Files per caricare file multimediali e includerli nei prompt, consulta le guide su Vision, Audio ed Elaborazione di documenti.
    • Per ulteriori indicazioni sulla progettazione dei prompt, ad esempio sulla regolazione dei parametri di campionamento, consulta la pagina Strategie di prompt.