Grounding con la Ricerca Google è ora disponibile. Scopri di più

Questa pagina è stata tradotta dall'API Cloud Translation.

Strategie di richiesta di file

La famiglia di modelli di intelligenza artificiale (IA) Gemini è concepita per gestire vari tipi di dati di input, tra cui testo, immagini e audio. Poiché questi possono gestire più di un tipo o modalità di dati, i modelli Gemini sono chiamati modelli multimodali o sono descritti come dotati di funzionalità multimodali.

Questa pagina fornisce indicazioni e best practice per l'utilizzo di file multimediali con per l'API Gemini. Per informazioni sull'utilizzo dell'API Gemini Files per caricare file multimediali e includerli nei prompt, consulta le Vision, Audio e Guide all'elaborazione dei documenti.

Utilizzo di file multimediali con prompt

La possibilità di usare vari tipi di dati nei prompt offre maggiori e flessibilità in termini di attività che puoi svolgere con l'API Gemini. Per Ad esempio, puoi inviare al modello la foto di un piatto delizioso e chiedergli di scrivere un breve blog sul pasto.

Prompt

Risposta

Scrivi un breve e accattivante post del blog basato su questa immagine. Dovrebbe includi nella foto una descrizione del pasto e parla del mio viaggio nella preparazione di pasti.

La preparazione dei pasti è un ottimo modo per risparmiare tempo e denaro e può anche ti aiutano a mangiare più sano. Questo pasto è un ottimo esempio di cibo salutare e delizioso, possono essere preparati facilmente in anticipo.

Questo pasto include riso integrale, verdure arrosti e teriyaki di pollo. Il riso integrale è un carboidrato salutare e complesso che ti dà senza interruzione dell'energia. Le verdure arrosti sono un ottimo modo per di vitamine e minerali, mentre il teriyaki di pollo è una deliziosa ricco di proteine.

Questo pasto è anche molto facile da preparare. Cucinare il riso integrale, arrostire le verdure e cucina il teriyaki di pollo. Quando tutto è cucinato, dividerlo in contenitori per la preparazione dei pasti e conservarli in frigorifero. Puoi quindi prendere un container e passare le mattine più impegnative!

Se stai cercando un pasto sano e delizioso che possa essere facilmente preparato in anticipo, questo pasto è un'ottima opzione. È ricco di nutrienti e sapore, ti farà sentire sazio e soddisfatto.

Ecco la preparazione di pasti salutari e deliziosi!

Strategie per la creazione di prompt con i media

Se hai difficoltà a ottenere l'output desiderato da prompt che utilizzano multimediali, esistono alcune strategie che possono aiutarti a ottenere desiderato. Le seguenti sezioni illustrano gli approcci alla progettazione e la risoluzione dei problemi suggerimenti per migliorare i prompt che utilizzano l'input multimodale.

Puoi migliorare i prompt multimodali seguendo queste best practice:

Concetti di base sulla progettazione dei prompt
- Scrivi istruzioni specifiche: crea istruzioni chiare e concise che lascino il minimo spazio a possibili interpretazioni errate.
- Aggiungi alcuni esempi al prompt:utilizza esempi realistici con poche foto per spiegare ciò che vuoi ottenere.
- Suddividi il modello passo dopo passo: dividi le attività complesse in sottoobiettivi gestibili, guidando il modello attraverso il processo.
- Specifica il formato di output: nel prompt, chiedi che l'output sia nel formato che preferisci, ad esempio markdown, JSON, HTML e altro ancora.
- Metti l'immagine al primo posto per i prompt con immagine singola: anche se Gemini può gestire l'input di immagini e testo in qualsiasi ordine, per i prompt contenenti una singola immagine, potrebbe avere un rendimento migliore se l'immagine viene posizionata prima del prompt di testo.
Risoluzione dei problemi relativi al prompt multimodale
- Se il modello non sta estraendo informazioni dalla parte pertinente dell'immagine: inserisci i suggerimenti con gli aspetti dell'immagine da cui vuoi che il prompt tragga informazioni.
- Se l'output del modello è troppo generico (non sufficientemente personalizzato per l'immagine): all'inizio del prompt, prova a chiedere al modello di descrivere le immagini prima di fornire l'istruzione oppure prova a chiedere al modello di fare riferimento ai contenuti dell'immagine.

Concetti di base sulla progettazione dei prompt

Questa sezione illustra le best practice elencate nella sezione precedente.

Nota: i risultati del modello dei seguenti esempi di Gemini possono variare a seconda dell'esecuzione.

Usa istruzioni specifiche

I prompt sono più efficaci se sono chiari e dettagliati. Se hai in mente un output specifico, è meglio includere questo requisito nel prompt per assicurarti di ottenere l'output desiderato.

A volte, l'intento di un prompt può sembrare chiaro a chi lo ha scritto, ma in realtà è poco specificato. Per personalizzare il comportamento del modello, considera come potrebbe essere (erroneamente) interpretato il tuo prompt e assicurati che le istruzioni fornite siano specifiche e chiare. Ricordati di lasciare un margine minimo per possibili interpretazioni errate.

Per questa immagine di un aeroportuale, chiedere al modello di "descrivere l'immagine" potrebbe generare una descrizione generale. Se vuoi che il modello analizzi l'ora e la città dall'immagine, puoi includere questa richiesta direttamente nel prompt.

Prompt	Risposta del modello
Descrivi questa immagine.	L'immagine mostra un tabellone degli arrivi e delle partenze dell'aeroporto.

Prompt aggiornato	Risposta migliorata
Analizza l'ora e la città dal pannello dell'aeroporto mostrata in questa immagine in un elenco.	10:50 Mosca 11:05 Edimburgo 11:05 Londra 11:10 Bucarest 11:30 Kiev 11:35 Dublino 11:45 Midlands Orientali 12:15 Sofia 12:30 Londra 12:30 Newcastle 12:40 San Pietroburgo 12:40 Londra 12:45 Manchester

Prompt aggiornato

Risposta migliorata

Analizza l'ora e la città dal pannello dell'aeroporto mostrata in questa immagine in un elenco.

10:50 Mosca

11:05 Edimburgo

11:05 Londra

11:10 Bucarest

11:30 Kiev

11:35 Dublino

11:45 Midlands Orientali

12:15 Sofia

12:30 Londra

12:30 Newcastle

12:40 San Pietroburgo

12:40 Londra

12:45 Manchester

Aggiungi alcuni esempi

Il modello Gemini può accettare più input che può utilizzare come esempi per comprendere l'output desiderato. L'aggiunta di questi esempi può aiutare il modello a identificare i pattern e ad applicare relazione tra le immagini date e le risposte al nuovo esempio. Questo sistema è chiamato anche "few-shot" machine learning.

Nell'esempio seguente, l'output iniziale è scritto in forma di frase e contiene anche la macro paese (Brasile). Supponiamo di volere l'output in un formato o uno stile diverso e di voler solo la città, non il paese. L'aggiunta di esempi few-shot al prompt può indirizzare il modello per rispondere nel modo che desideri.

Prompt	Risposta del modello
Stabilire la città e il punto di riferimento.	Il monumento è la statua del Cristo Redentore a Rio de Janeiro, in Brasile.

Prompt aggiornato	Risposta migliorata
Stabilire la città e il punto di riferimento.	città: Roma, punto di riferimento: il Colosseo.
	città: Pechino, punto di riferimento: Città Proibita
	città: Rio de Janeiro, punto di riferimento: statua del Cristo Redentore

Analizzalo dettagliatamente

Può essere utile per attività complesse come quelle che richiedono sia la comprensione che il ragionamento visivo per suddividere l'attività in passaggi più piccoli e semplici. In alternativa, potrebbe essere efficace anche chiedere direttamente al modello di "pensare passo dopo passo" nel prompt.

Prompt	Risposta del modello
Quando avrò finito la carta igienica?	A breve ti restano solo 3 lanci.

Prompt aggiornato	Risposta migliorata
1. Innanzitutto, conta quanti rotoli di carta igienica ci sono in questa foto. 2. Quindi, determina quanta carta igienica utilizza una persona tipica al giorno. 3. Calcola la durata di questi rotoli di carta igienica.	1. In questa foto ci sono 3 rotoli di carta igienica. 2. Una persona di solito usa circa 20 fogli di carta igienica al giorno. 3. Se ogni rotolo contiene 200 fogli, ogni rotolo durerà circa 10 giorni. Pertanto, i 3 lanci dureranno circa un mese.

Prompt aggiornato

Risposta migliorata

1. Innanzitutto, conta quanti rotoli di carta igienica ci sono in questa foto.

2. Quindi, determina quanta carta igienica utilizza una persona tipica al giorno.

3. Calcola la durata di questi rotoli di carta igienica.

1. In questa foto ci sono 3 rotoli di carta igienica.

2. Una persona di solito usa circa 20 fogli di carta igienica al giorno.

3. Se ogni rotolo contiene 200 fogli, ogni rotolo durerà circa 10 giorni. Pertanto, i 3 lanci dureranno circa un mese.

I problemi di matematica o altri tipi di problemi con enunciato sono ottimi candidati per chiedere al modello di pensare passo dopo passo.

Prompt	Risposta
Qual è il quarto termine della sequenza?	-135

Prompt

Risposta

Qual è il quarto termine della sequenza?

-135

La risposta del modello non è corretta. Alcuni modi per migliorare questo risultato sono chiedere al modello di analizzare il problema prima di rispondere al prompt.

Prompt	Risposta
Analizza prima la formula nell'immagine. Quindi, in base alla formula, rispondi "qual è il quarto termine della sequenza?".	Fai clic per espandere il risultato $$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$ Sostituisci n = 4 nella formula: $$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ Non conosciamo il valore di b(3), quindi sostituisci n = 3 nella formula: $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ Non conosciamo il valore di b(2), quindi sostituisci n = 2 nella formula: $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ Sappiamo che il valore di b(1) è 15, quindi sostituiscilo con la formula: $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ Ora che conosciamo il valore di b(2), sostituiscilo con la formula di b(3): $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ Ora che conosciamo il valore di b(3), sostituiscilo con la formula di b(4): $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ Pertanto, il quarto termine nella sequenza è -405.

Prompt

Risposta

Analizza prima la formula nell'immagine.

Quindi, in base alla formula, rispondi "qual è il quarto termine della sequenza?".

Fai clic per espandere il risultato

$$ b(n) = b(n-1) * (-3) $$

$$ b(1) = 15 $$

Sostituisci n = 4 nella formula:

$$ b(4) = b(4-1) * (-3) $$

$$ b(4) = b(3) * (-3) $$

Non conosciamo il valore di b(3), quindi sostituisci n = 3 nella formula:

$$ b(3) = b(3-1) * (-3) $$

$$ b(3) = b(2) * (-3) $$

Non conosciamo il valore di b(2), quindi sostituisci n = 2 nella formula:

$$ b(2) = b(2-1) * (-3) $$

$$ b(2) = b(1) * (-3) $$

Sappiamo che il valore di b(1) è 15, quindi sostituiscilo con la formula:

$$ b(2) = 15 * (-3) $$

$$ b(2) = -45 $$

Ora che conosciamo il valore di b(2), sostituiscilo con la formula di b(3):

$$ b(3) = b(2) * (-3) $$

$$ b(3) = -45 * (-3) $$

$$ b(3) = 135 $$

Ora che conosciamo il valore di b(3), sostituiscilo con la formula di b(4):

$$ b(4) = b(3) * (-3) $$

$$ b(4) = 135 * (-3) $$

$$ b(4) = -405 $$

Pertanto, il quarto termine nella sequenza è -405.

Questa risposta del modello è corretta: ora, per rendere la risposta ancora più semplice, puoi chiedere al modello di pensare passo passo.

Prompt aggiornato	Risposta migliorata
Qual è il quarto termine della sequenza? Pensa passo passo.	Il primo termine è 15. Il secondo termine è b(1) * (-3) = 15 * (-3) = -45. Il terzo termine è b(2) * (-3) = -45 * (-3) = 135. Il quarto termine è b(3) * (-3) = 135 * (-3) = -405.

Prompt aggiornato

Risposta migliorata

Qual è il quarto termine della sequenza? Pensa passo passo.

Il primo termine è 15.

Il secondo termine è b(1) * (-3) = 15 * (-3) = -45.

Il terzo termine è b(2) * (-3) = -45 * (-3) = 135.

Il quarto termine è b(3) * (-3) = 135 * (-3) = -405.

Prova a specificare il formato di output

Un problema comune è la necessità che l'output del modello sia in un determinato formato (ad es. markdown, JSON, HTML), soprattutto se l'output del modello deve importati da un'attività downstream. Puoi provare a produrre un output in quel formato indicando al modello di farlo all'interno del prompt. Di seguito sono riportati due esempi:

Prompt	Risposta del modello
Analizza la tabella in questa immagine in formato markdown	\| Oggetto \| Stato \| Ora \| Data di inizio \| Scadenza \| \| ------- \| ------ \| ---- \| --------- \| ------ \| \| Matematica \| Fine \| 1,5 h \| 29/11/2023 \| 1/12/2023 \| \| Area geografica \| Fine \| 30 min \| 2/12/2023 \| 4/12/2023 \| \| Fisica \| In corso \| 2 ore \| 3/12/2023 \| 5/12/2023 \| \| Biologia \| Non avviata \| 6 ore \| 2/11/2016 \| 6/12/2023 \|

Prompt

Risposta del modello

Analizza la tabella in questa immagine in formato markdown

| ------- | ------ | ---- | --------- | ------ |

| Matematica | Fine | 1,5 h | 29/11/2023 | 1/12/2023 |

| Area geografica | Fine | 30 min | 2/12/2023 | 4/12/2023 |

| Fisica | In corso | 2 ore | 3/12/2023 | 5/12/2023 |

| Biologia | Non avviata | 6 ore | 2/11/2016 | 6/12/2023 |

Prompt Risposta del modello

Prompt	Risposta del modello
Fornisci un elenco di tutti i seguenti attributi: ingredienti, tipo di cucina, vegetariano o meno, in formato JSON	```json``` `{` `"ingredients": [` `"rice",` `"shrimp",` `"clams",` `"mussels",` `"peas",` `"tomatoes",` `"onions",` `"garlic",` `"olive oil",` `"paprika",` `"salt",` `"pepper"` `],` `"type of cuisine": "Spanish",` `"vegetarian": false`

Fornisci un elenco di tutti i seguenti attributi:

ingredienti, tipo di cucina, vegetariano o meno, in formato JSON

```json```

{

"ingredients": [

"rice",

"shrimp",

"clams",

"mussels",

"peas",

"tomatoes",

"onions",

"garlic",

"olive oil",

"paprika",

"salt",

"pepper"

],

"type of cuisine": "Spanish",

"vegetarian": false

Metti l'immagine al primo posto per i prompt con una singola immagine

Gemini può interpretare immagini e testo in qualsiasi ordine all'interno di un prompt, inserendo una singola immagine prima del prompt di testo possa portare a risultati migliori. Nei seguenti esempi, noterai l'immagine precede il testo di ogni prompt.

Risoluzione dei problemi del prompt multimodale

Se non ricevi una risposta utile, potrebbe essere necessario risolvere i problemi del tuo prompt. Ecco alcune strategie che puoi provare a utilizzare.

Se il modello non trae informazioni dalla parte pertinente dell'immagine

Per ottenere una risposta più specifica, puoi indicare a quali aspetti dell'immagine vuoi che venga generato il prompt estrarre informazioni per influenzare la sua risposta.

Prompt	Risposta del modello
Quanti giorni dureranno questi pannolini a un bambino?	I pannolini dureranno 198 giorni prima di esaurirsi.

Prompt aggiornato	Risposta migliorata
Quanto dureranno questi pannolini prima di esaurirmi? Utilizza il peso indicato sulla confezione per determinare l'età del bambino e utilizza il numero totale di pannolini inclusi nella confezione. Dividi il numero totale per il numero di pannolini che il bambino passa al giorno.	La confezione contiene 198 pannolini. La confezione indica che i pannolini sono per un bambino di peso compreso tra 22 e 37 libbre. Il bambino medio di questo intervallo di peso ha probabilmente tra 1 e 2 anni. Un bambino di 2 anni di solito passa attraverso 6 pannolini al giorno, quindi i pannolini dureranno circa 33 giorni (198/6).

Prompt aggiornato

Risposta migliorata

Quanto dureranno questi pannolini prima di esaurirmi?

Utilizza il peso indicato sulla confezione per determinare l'età del bambino e utilizza il numero totale di pannolini inclusi nella confezione.

Dividi il numero totale per il numero di pannolini che il bambino passa al giorno.

La confezione contiene 198 pannolini. La confezione indica che i pannolini sono per un bambino di peso compreso tra 22 e 37 libbre.

Il bambino medio di questo intervallo di peso ha probabilmente tra 1 e 2 anni.

Un bambino di 2 anni di solito passa attraverso 6 pannolini al giorno, quindi i pannolini dureranno circa 33 giorni (198/6).

Se l'output del modello è troppo generico e non sufficientemente personalizzato per l'input dell'immagine

Per consentire al modello di personalizzare la risposta alle immagini, prova a chiedergli di descrivere le immagini prima di eseguire il ragionamento.

Prompt	Risposta del modello
Cosa c'è in comune tra queste immagini?	Tutte e quattro le immagini sono esempi di fotografia di paesaggi.

Prompt aggiornato	Risposta migliorata
Innanzitutto, descrivi in dettaglio i contenuti di ogni immagine. Cosa c'è in comune tra queste immagini?	La prima immagine mostra una persona che prepara una valigia. La seconda immagine mostra un corridoio vuoto di un centro commerciale. La terza immagine mostra un rotolo di carta igienica. La quarta immagine mostra un mare scuro e in tempesta. La caratteristica comune tra queste immagini è che sono tutte esempi di spazi liminali. Gli spazi liminali sono luoghi o situazioni che si trovano tra due altri luoghi o situazioni. Spesso sono caratterizzati da un senso di incertezza o ambiguità. La prima immagine mostra la persona tra una casa e un viaggio. La seconda immagine mostra il corridoio tra due negozi. La terza immagine è di carta igienica, che può rappresentare un bagno. Un bagno è uno spazio di transizione tra privato e nei regni pubblici. È un luogo in cui ci prepariamo a entrare o uscire dal mondo esterno. La quarta immagine mostra il mare tra la calma e il temporale. Gli spazi liminali possono essere emozionanti e inquietanti. Possono essere un luogo di un nuovo inizio o di finali. Possono essere un luogo di riflessione o di azione.

Prompt aggiornato

Risposta migliorata

Innanzitutto, descrivi in dettaglio i contenuti di ogni immagine. Cosa c'è in comune tra queste immagini?

La prima immagine mostra una persona che prepara una valigia. La seconda immagine mostra un corridoio vuoto di un centro commerciale. La terza immagine mostra un rotolo di carta igienica. La quarta immagine mostra un mare scuro e in tempesta.

La caratteristica comune tra queste immagini è che sono tutte esempi di spazi liminali. Gli spazi liminali sono luoghi o situazioni che si trovano tra due altri luoghi o situazioni. Spesso sono caratterizzati da un senso di incertezza o ambiguità.

La prima immagine mostra la persona tra una casa e un viaggio. La seconda immagine mostra il corridoio tra due negozi. La terza immagine è di carta igienica, che può rappresentare un bagno. Un bagno è uno spazio di transizione tra privato e nei regni pubblici. È un luogo in cui ci prepariamo a entrare o uscire dal mondo esterno.

La quarta immagine mostra il mare tra la calma e il temporale.

Gli spazi liminali possono essere emozionanti e inquietanti. Possono essere un luogo di un nuovo inizio o di finali. Possono essere un luogo di riflessione o di azione.

Puoi anche provare a chiedere esplicitamente al modello di fare riferimento ai contenuti dell'immagine.

Prompt aggiornato	Risposta migliorata
Cosa c'è in comune tra queste immagini? Fai riferimento a cosa c'è nelle immagini nella risposta.	Tutte le immagini sono relative ai viaggi. La prima immagine mostra una persona che prepara una valigia, la seconda mostra un corridoio vuoto di un centro commerciale, la terza immagine mostra una pila di carta igienica e la quarta immagine mare scuro e in tempesta. Queste immagini sono tutte correlate ai viaggi perché sono tutto ciò di cui le persone hanno bisogno o utilizzano quando durante il viaggio. La prima immagine mostra una persona che prepara una valigia, cosa che le persone fanno quando si in viaggio. La seconda immagine mostra un corridoio vuoto in un centro commerciale, dove le persone spesso vanno a comprare articoli per i viaggi. La terza immagine mostra una pila di carta igienica, qualcosa che le persone usano spesso quando sono in viaggio. La quarta immagine mostra un mare scuro e in tempesta, che è qualcosa che le persone incontrano spesso quando sono in viaggio.

Prompt aggiornato

Risposta migliorata

Cosa c'è in comune tra queste immagini? Fai riferimento a cosa c'è nelle immagini nella risposta.

Tutte le immagini sono relative ai viaggi. La prima immagine mostra una persona che prepara una valigia, la seconda mostra un corridoio vuoto di un centro commerciale, la terza immagine mostra una pila di carta igienica e la quarta immagine mare scuro e in tempesta.

Queste immagini sono tutte correlate ai viaggi perché sono tutto ciò di cui le persone hanno bisogno o utilizzano quando durante il viaggio. La prima immagine mostra una persona che prepara una valigia, cosa che le persone fanno quando si in viaggio. La seconda immagine mostra un corridoio vuoto in un centro commerciale, dove le persone spesso vanno a comprare articoli per i viaggi. La terza immagine mostra una pila di carta igienica, qualcosa che le persone usano spesso quando sono in viaggio. La quarta immagine mostra un mare scuro e in tempesta, che è qualcosa che le persone incontrano spesso quando sono in viaggio.

Gli stessi suggerimenti valgono anche per l'output creativo delle immagini. Nell'esempio seguente con chiedere esplicitamente al modello di includere aspetti dell'immagine può migliorare l'output.

Prompt	Risposta del modello
Puoi scrivermi una poesia su questa immagine?	Coniglietto così morbido e marrone, Attraversare i campi, su e giù. Le tue orecchie così lunghe, la tua coda così piccola, Sei la creatura più carina di tutte. Mangia l'erba così verde e dolce, E se ne va quando mi vedi. Ma sarò sempre un tuo amico, Coniglietto, fino alla fine.

Prompt

Risposta del modello

Puoi scrivermi una poesia su questa immagine?

Coniglietto così morbido e marrone,
Attraversare i campi, su e giù.
Le tue orecchie così lunghe, la tua coda così piccola,
Sei la creatura più carina di tutte.

Mangia l'erba così verde e dolce,
E se ne va quando mi vedi.
Ma sarò sempre un tuo amico,
Coniglietto, fino alla fine.

Prompt aggiornato	Risposta migliorata
Puoi scrivermi una poesia descrittiva e drammatica su questa immagine e includere il luogo?	Coniglietto sul verde, Orecchie così lunghe, così acute. Cosa vedi là fuori, In lontananza, dove stai fissando? È blu dell'oceano? Scintillante nella tonalità del sole? O le onde che si infrangono e ruggiscono, Un ritmo che adori? Coniglietto, dimmi il vero, Cosa attira così la tua attenzione? È la brezza salata? O dei gabbiani grida per favore? Forse è la vastità di tutto, Un mondo così grande e piccolo. Un posto dove i sogni possono girovagare, E le avventure possono essere seminate. Coniglietto, mi chiedo cosa tu sogni, Sedersi sull'erba è così sereno. Ti piacerebbe esplorare le profondità, O rimanere sulla terraferma, dove puoi saltare? Di qualunque cosa si tratti, coniglietto, Tieni quella scintilla di stupore che brucia intensamente. Perché nei tuoi sogni e nelle tue aspirazioni, Un mondo che attende la tua creazione.

Prompt aggiornato

Risposta migliorata

Puoi scrivermi una poesia descrittiva e drammatica su questa immagine e includere il luogo?

Coniglietto sul verde,
Orecchie così lunghe, così acute.
Cosa vedi là fuori,
In lontananza, dove stai fissando?

È blu dell'oceano?
Scintillante nella tonalità del sole?
O le onde che si infrangono e ruggiscono,
Un ritmo che adori?

Coniglietto, dimmi il vero,
Cosa attira così la tua attenzione?
È la brezza salata?
O dei gabbiani grida per favore?

Forse è la vastità di tutto,
Un mondo così grande e piccolo.
Un posto dove i sogni possono girovagare,
E le avventure possono essere seminate.

Coniglietto, mi chiedo cosa tu sogni,
Sedersi sull'erba è così sereno.
Ti piacerebbe esplorare le profondità,
O rimanere sulla terraferma, dove puoi saltare?

Di qualunque cosa si tratti, coniglietto,
Tieni quella scintilla di stupore che brucia intensamente.
Perché nei tuoi sogni e nelle tue aspirazioni,
Un mondo che attende la tua creazione.

Risolvere i problemi relativi alla parte del prompt non riuscita

Può essere difficile sapere se un prompt non è riuscito perché il modello non ha capito l'immagine all'inizio o se ha capito l'immagine, non ha eseguito i passaggi di ragionamento corretti in seguito.

Per distinguerli, chiedi al modello di descrivere cosa c'è nell'immagine.

Nell'esempio seguente, se il modello risponde con uno snack che sembra sorprendente se abbinato a (ad es. popcorn), prova innanzitutto a risolvere i problemi per determinare se il modello ha riconosciuto correttamente che l'immagine contiene tè.

Prompt	Richiesta di risoluzione dei problemi
Quale spuntino in 1 minuto può andare bene?	Descrivi cosa c'è in questa immagine.

Un'altra strategia consiste nel chiedere al modello di spiegare il suo ragionamento. Questo può aiutarti a restringere l'eventuale parte del ragionamento eventualmente interrotta.

Prompt	Richiesta di risoluzione dei problemi
Quale spuntino in 1 minuto può andare bene?	Quale spuntino in 1 minuto può andare bene? Spiega perché.

Ottimizzazione dei parametri di campionamento

In ogni richiesta non invii solo il prompt multimodale, ma anche un set di parametri di campionamento al modello. Il modello può generare risultati diversi a seconda dei valori parametro. Sperimenta con i diversi per ottenere i valori migliori per l'attività. I parametri regolati più di frequente sono i seguenti:

Temperatura
top-P
top-k

Temperatura

La temperatura viene utilizzata per il campionamento durante la generazione della risposta, che si verifica quando vengono applicati top-P e top-K. La temperatura controlla il grado di casualità nella selezione dei token. Le temperature più basse sono ideali per prompt che richiedono una risposta più deterministica e meno aperta o creativa, mentre le temperature più alte possono portare a diversi o creativi. Una temperatura pari a 0 è deterministica, il che significa che la risposta con la probabilità più alta è sempre selezionata.

Per la maggior parte dei casi d'uso, prova a iniziare con una temperatura di 0,4. Se hai bisogno di più risultati creativi, prova ad aumentare la temperatura dell'acqua. Se noti allucinazioni chiare, prova a ridurre la temperatura.

Top-K

Top-K cambia il modo in cui il modello seleziona i token per l'output. Un top-K pari a 1 indica che il successivo token selezionato il più probabile tra tutti i token nel vocabolario del modello (chiamato anche decodifica greedy), mentre un top-K di 3 indica che il token successivo viene selezionato tra i tre token più probabili per utilizzando la temperatura.

Per ogni fase di selezione dei token, vengono campionati i token top-K con le probabilità più alte. Poi vengono ulteriormente filtrati in base a top-P e il token finale viene selezionato utilizzando il campionamento con temperatura.

Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali. Il valore predefinito di top-K è 32.

Top-P

Top-P cambia il modo in cui il modello seleziona i token per l'output. I token vengono selezionati tra il più alto (vedi top-K). al meno probabile finché la somma delle probabilità non corrisponde al valore di top-P. Ad esempio, se i token A, B e C hanno una probabilità di 0,6, 0,3, 0,1 e il valore di top-P è 0,9, il modello seleziona A o B come token successivo utilizzando la temperatura ed esclude C come candidato.

Specifica un valore più basso per risposte meno casuali e un valore più alto per risposte più casuali. Il valore predefinito di top-P è 1,0.

Passaggi successivi

Prova a scrivere prompt multimodali utilizzando l'IA di Google Google Studio.
Per ulteriori indicazioni sulla progettazione dei prompt, consulta Pagina Strategie di prompt.

Strategie di richiesta di file

Utilizzo di file multimediali con prompt

Strategie per la creazione di prompt con i media

Concetti di base sulla progettazione dei prompt

Risoluzione dei problemi relativi al prompt multimodale

Concetti di base sulla progettazione dei prompt

Usa istruzioni specifiche

Aggiungi alcuni esempi

Analizzalo dettagliatamente

Prova a specificare il formato di output

Metti l'immagine al primo posto per i prompt con una singola immagine

Risoluzione dei problemi del prompt multimodale

Se il modello non trae informazioni dalla parte pertinente dell'immagine

Se l'output del modello è troppo generico e non sufficientemente personalizzato per l'input dell'immagine

Risolvere i problemi relativi alla parte del prompt non riuscita

Ottimizzazione dei parametri di campionamento

Temperatura

Top-K

Top-P

Passaggi successivi