Die Gemini-Modelle für künstliche Intelligenz (KI) wurden entwickelt, um verschiedene Arten von Eingabedaten, z. B. Text, Bilder und Audio. Da diese Modelle mehr als einen Datentyp oder Modus verarbeiten können, werden die Gemini-Modelle werden als multimodale Modelle bezeichnet oder als multimodale Funktionen erklärt.
Diese Seite enthält Anleitungen und Best Practices für die Verwendung von Mediendateien mit Prompts für die Gemini API eingeben. Informationen zur Verwendung der Gemini Files API für Mediendateien hochladen und in Ihre Prompts einfügen, finden Sie in der Vision, Audio und Anleitungen zur Dokumentverarbeitung.
Mediendateien mit Prompts verwenden
Die Möglichkeit, verschiedene Datentypen in Ihren Prompts zu verwenden, verschafft Ihnen mehr Flexibilität bei der Bewältigung der Aufgaben, die Sie mit der Gemini API erledigen können Für können Sie dem Modell beispielsweise ein Foto eines leckeren Gerichts senden und es bitten, einen kurzen Blog über das Essen.
Eingabeaufforderung | Antwort |
Schreibe einen kurzen, ansprechenden Blogpost auf der Grundlage dieses Bildes. Er sollte Eine Beschreibung des Essens auf dem Foto einfügen und über meine Reise sprechen Zubereitung von Mahlzeiten. |
Durch das Zubereiten von Mahlzeiten können Sie Zeit und Geld sparen die Ihnen dabei helfen, sich gesünder zu ernähren. Diese Mahlzeit ist ein großartiges Beispiel für und eine leckere Mahlzeit, die sich im Voraus leicht zubereiten lässt. Diese Mahlzeit besteht aus braunem Reis, gebratenem Gemüse und Teriyaki. Der braune Reis ist ein gesundes und komplexes Kohlenhydrat, das dir nachhaltige Energie. Gebratenes Gemüse ist eine tolle Möglichkeit, Vitamine und Mineralien. Das Hühner-Teriyaki ist ein leckeres und eine proteinreiche Variante. Diese Mahlzeit ist auch sehr einfach zuzubereiten. Einfach den braunen Reis braten, das Gemüse und kochen Sie das Hähnchen-Teriyaki. Sobald alles gekocht ist, Teile es in Behälter für Mahlzeiten und stelle sie im Kühlschrank. Schnapp dir dann einen Container und mach morgens anstrengenden Arbeitstagen weiter! Wenn ihr auf der Suche nach einer gesunden und leckeren Mahlzeit ist, diese Mahlzeit ist eine gute Option. Sie ist vollgepackt mit Nährstoffe und Geschmack und sorgt dafür, dass du dich satt und satt fühlst. Auf die Zubereitung gesunder und leckerer Mahlzeiten! |
Strategien für Prompts mit Medien
Wenn Sie Probleme haben, mit Prompts die gewünschte Ausgabe zu erhalten, Mediendateien sind, gibt es einige Strategien, mit denen Sie die Ergebnisse erzielen, In den folgenden Abschnitten werden Designansätze und die Fehlerbehebung beschrieben. Tipps zur Verbesserung von Prompts mit multimodaler Eingabe.
Sie können Ihre multimodalen Prompts mit den folgenden Best Practices verbessern:
-
Grundlagen des Prompt-Designs
- Formulieren Sie spezifische Anweisungen: Stellen Sie klare und präzise Anweisungen bereit, die möglichst wenig Raum für Fehldeutungen lassen.
- Ein paar Beispiele zum Prompt hinzufügen: Verwenden Sie realistische Few-Shot-Beispiele, um zu veranschaulichen, was Sie erreichen möchten.
- Schritt für Schritt aufschlüsseln: Teilen Sie komplexe Aufgaben in überschaubare Unterziele auf und führen Sie das Modell durch den Prozess.
- Ausgabeformat angeben: Fordern Sie in dem Prompt an, dass die Ausgabe in dem gewünschten Format vorliegt, z. B. Markdown, JSON, HTML und mehr.
- Bei Prompts mit nur einem Bild das Bild an erster Stelle platzieren: Gemini kann Bild- und Texteingaben in beliebiger Reihenfolge verarbeiten. Bei Prompts mit einem einzelnen Bild ist die Leistung jedoch möglicherweise besser, wenn dieses Bild vor dem Text-Prompt platziert wird.
-
Fehlerbehebung bei multimodalem Prompt
- Wenn das Modell aus dem relevanten Teil des Bildes keine Informationen bezieht:Geben Sie an, aus welchen Aspekte des Bildes der Prompt Informationen abrufen soll.
- Wenn die Modellausgabe zu allgemein ist (nicht ausreichend auf das Bild zugeschnitten) : Bitten Sie das Modell zu Beginn des Prompts, das Bild bzw. die Bilder zu beschreiben, bevor Sie die Aufgabenanweisung geben. Sie können auch versuchen, das Modell auf den Inhalt des Bildes zu verweisen.
Grundlagen des Prompt-Designs
In diesem Abschnitt werden die im vorherigen Abschnitt aufgeführten Best Practices erweitert.
Hinweis: Die Modellergebnisse aus den folgenden Gemini-Beispielen können von Ausführung zu Ausführung variieren.
Machen Sie genaue Anweisungen
Prompts haben den größten Erfolg, wenn sie klar und detailliert sind. Wenn Sie eine bestimmte Ausgabe im Hinterkopf haben, sollten Sie diese Anforderung in den Prompt aufnehmen, damit Sie die gewünschte Ausgabe erhalten.
Manchmal wird der Zweck einer Prompt der Person, die sie geschrieben hat, offensichtlich, aber tatsächlich wird er nicht angegeben. Überlegen Sie beim Anpassen des Modellverhaltens, wie Ihre Aufforderung (falsch) interpretiert werden könnte, und achten Sie darauf, dass die von Ihnen angegebenen Anweisungen spezifisch und klar sind. Denken Sie daran, möglichst wenig Raum für Fehldeutungen zu lassen.
Wenn Sie für dieses Bild eines Flughafenboards die Anfrage an das Modell senden, nur „Dieses Bild beschreiben“ könnte es eine allgemeine Beschreibung generieren. Wenn das Modell die Zeit und die Stadt aus dem Bild parsen soll, können Sie diese Anfrage direkt in den Prompt einfügen.
Prompt | Modellantwort |
---|---|
Beschreiben Sie dieses Bild. |
Auf dem Bild ist eine Anzeige für Ankunfts- und Abflugfinfos für den Flughafen zu sehen. |
Aktualisierter Prompt | Verbesserte Reaktion |
---|---|
Parsen Sie die Uhrzeit und die Stadt vom Flughafenanzeige in dem Bild in eine Liste. |
Ein paar Beispiele hinzufügen
Das Gemini-Modell kann mehrere Eingaben akzeptieren, die es als Beispiele für das Verständnis der gewünschten Ausgabe verwenden kann. Wenn Sie diese Beispiele hinzufügen, kann das Modell die Muster leichter identifizieren und die Beziehung zwischen den angegebenen Bildern und Antworten auf das neue Beispiel anwenden. Dies wird auch als „Few-Shot“-Lernen bezeichnet.
Im folgenden Beispiel wird die ursprüngliche Ausgabe in Satzform geschrieben und enthält auch das Land (Brasilien). Angenommen, Sie möchten die Ausgabe in einem anderen Format oder Stil haben und nur die Stadt und nicht das Land benötigen. Wenn Sie Ihrer Prompt Few-Shot-Beispiele hinzufügen, können Sie das Modell so steuern, dass es antwortet, wie Sie es möchten.
Eingabeaufforderung | Modellantwort |
---|---|
Bestimmen Sie die Stadt und die Sehenswürdigkeit. |
Die Sehenswürdigkeit ist die Cristo Redentor-Statue in Rio de Janeiro, Brasilien. |
Aktualisierter Prompt | Verbesserte Reaktion |
---|---|
Bestimmen Sie die Stadt und die Sehenswürdigkeit. |
Stadt: Rom, Sehenswürdigkeit: Kolosseum. |
Stadt: Peking, Sehenswürdigkeit: Verbotene Stadt |
|
Stadt: Rio de Janeiro, Sehenswürdigkeit: Cristo Redentor-Statue |
Schritt-für-Schritt-Anleitung
Bei komplexen Aufgaben wie Aufgaben, die sowohl visuelles Verständnis als auch Logik erfordern, kann es hilfreich sein, die Aufgabe in kleinere, einfachere Schritte aufzuteilen. Alternativ kann es auch sinnvoll sein, wenn Sie das Modell in Ihrem Prompt direkt bitten, schrittweise zu denken.
Prompt | Modellantwort |
---|---|
Wann habe ich kein Toilettenpapier mehr? |
Bald sind nur noch 3 Rollen übrig. |
Aktualisierter Prompt | Verbesserte Reaktion |
---|---|
|
|
Mathematische Aufgaben oder andere Arten von Wortproblemen sind gute Kandidaten dafür, das Modell zu bitten, Schritt für Schritt zu denken.
Eingabeaufforderung | Antwort |
---|---|
Was ist der vierte Begriff in der Sequenz? |
-135 |
Die Antwort des Modells ist falsch. Zum Verbessern Sie können das Modell beispielsweise bitten, das Problem zu parsen, bevor es den Prompt beantwortet.
Eingabeaufforderung | Antwort |
---|---|
Parsen Sie zuerst die Formel im Bild. Beantworte dann anhand der Formel: „Was ist der vierte Begriff in der Folge?“. |
Klicken Sie, um das Ergebnis zu maximieren$$ b(n) = b(n-1) * (-3) $$ $$ b(1) = 15 $$
$$ b(4) = b(4-1) * (-3) $$ $$ b(4) = b(3) * (-3) $$ $$ b(3) = b(3-1) * (-3) $$ $$ b(3) = b(2) * (-3) $$ $$ b(2) = b(2-1) * (-3) $$ $$ b(2) = b(1) * (-3) $$ $$ b(2) = 15 * (-3) $$ $$ b(2) = -45 $$ $$ b(3) = b(2) * (-3) $$ $$ b(3) = -45 * (-3) $$ $$ b(3) = 135 $$ $$ b(4) = b(3) * (-3) $$ $$ b(4) = 135 * (-3) $$ $$ b(4) = -405 $$ Daher ist der vierte Begriff in der Sequenz -405. |
Diese Modellantwort ist korrekt. Wenn Sie die Antwort jetzt noch optimieren möchten, können Sie das Modell bitten, schrittweise zu denken.
Aktualisierter Prompt | Verbesserte Reaktion |
---|---|
Was ist der vierte Begriff in der Sequenz? Detaillierte Anleitung |
Der erste Begriff ist 15. Der zweite Begriff ist b(1) * (-3) = 15 * (-3) = -45. Der dritte Begriff ist b(2) * (-3) = -45 * (-3) = 135. Der vierte Begriff ist b(3) * (-3) = 135 * (-3) = -405. |
Versuchen Sie, das Ausgabeformat anzugeben
Ein häufiges Problem besteht darin, dass die Modellausgabe in einem bestimmten Format vorliegen muss (z. B. Markdown, JSON, HTML), insbesondere wenn die Modellausgabe von einer nachgelagerten Aufgabe aufgenommen werden muss. Sie können versuchen, eine Ausgabe in diesem Format zu erstellen, indem Sie das Modell im Prompt dazu anweisen. Hier sind zwei Beispiele:
Prompt | Modellantwort |
---|---|
Die Tabelle in diesem Bild in das Markdown-Format parsen |
| Betreff | Status | Zeit | Startdatum | Fällig am | | ------- | ------ | ---- | --------- | ------ | | Mathematik | Fertig | 1,5 Std. | 29.11.2023 | 1.12.2023 | | Region | Fertig | 30 Min. | 2.12.2023 | 4.12.2023 | | Physik | In Bearbeitung | 2 Std. | 3.12.2023 | 5.12.2023 | | Biologie | Nicht gestartet | 6 Std. | 2.11.2016 | 6.12.2023 | |
Eingabeaufforderung | Modellantwort |
---|---|
Geben Sie eine Liste aller folgenden Attribute an: Zutaten, Art der Küche, vegetarisch oder nicht, im JSON-Format |
|
Bild zuerst für Aufforderungen mit einem einzelnen Bild platzieren
Gemini kann Bilder und Text in beliebiger Reihenfolge innerhalb einer Eingabeaufforderung interpretieren. Die Platzierung eines einzelnen Bildes vor der Textaufforderung kann jedoch zu besseren Ergebnissen führen. In den folgenden Beispielen sehen Sie das Bild vor dem Text in jeder Aufforderung steht.
Fehlerbehebung bei multimodalem Prompt
Möglicherweise müssen Sie Probleme mit Ihrer Prompt beheben, wenn Sie keine hilfreiche Antwort erhalten. Hier sind einige Strategien, die Sie ausprobieren können:
Wenn das Modell keine Informationen aus dem relevanten Bildteil abruft
Um eine spezifischere Antwort zu erhalten, können Sie angeben, aus welchen Aspekten des Bildes Informationen herausgegeben werden sollen.
Prompt | Modellantwort |
---|---|
Wie viele Tage halten diese Windeln für ein Baby? |
Die Windel halten 198 Tage, bevor sie aufgebraucht sind. |
Aktualisierter Prompt | Verbesserte Reaktion |
---|---|
Wie lange halten diese Windeln? Verwenden Sie das auf dem Feld angezeigte Gewicht, um das Alter des Kindes zu bestimmen. Verwenden Sie dann die Gesamtzahl der Windeln im Feld. Teilen Sie die Gesamtzahl durch die Anzahl der Windeln, die das Kind pro Tag benötigt. |
Die Verpackung enthält 198 Windeln. Die Verpackung besagt, dass die Windel für ein Kind mit einem Gewicht von 22-37 lbs gedacht sind. Das durchschnittliche Kind in diesem Gewichtbereich ist wahrscheinlich zwischen 1 und 2 Jahren alt. Eine Zweijährige braucht in der Regel sechs Windeln pro Tag, daher halten sie etwa 33 Tage (198/6). |
Wenn die Modellausgabe zu allgemein und nicht ausreichend auf die Bildeingabe zugeschnitten ist
Damit das Modell seine Antwort auf das Bild bzw. die Bilder anpassen kann, bitten Sie es, das Bild zu beschreiben, bevor das Modell die Logik ausführt.
Prompt | Modellantwort |
---|---|
Was haben diese Bilder gemeinsam? |
Alle vier Bilder sind Beispiele für Bilder im Querformat. |
Aktualisierter Prompt | Verbesserte Reaktion |
---|---|
Beschreiben Sie zuerst im Detail, was die einzelnen Bilder enthalten. Was haben diese Bilder gemeinsam? |
Das erste Bild zeigt eine Person, die einen Koffer verpackt, das zweite zeigt einen leeren Flur in einem Einkaufszentrum, das dritte Bild zeigt einen Rolle von Toilettenpapier und das vierte Bild ein dunkles und stürmisches Meer. Die Gemeinsamkeiten zwischen diesen Bildern sind, dass sie alle Beispiele für Grenzbereiche sind. Grenzbereich sind Orte oder Situationen, die zwischen zwei anderen Orten oder Situationen liegen. Sie sind oft durch ein Gefühl von Unsicherheit oder Mehrdeutigkeit gekennzeichnet. Das erste Bild zeigt die Person, die zwischen der zu Hause und einer Reise steht. Die zweite Abbildung zeigt den Flur zwischen zwei Geschäften. Das dritte Bild ist Toilettenpapier, das ein Bad darstellen kann. Ein Badezimmer ist ein Übergangsraum zwischen privaten und öffentlichen Bereichen. Es ist ein Ort, an dem wir uns darauf vorbereiten, die Außenwelt zu betreten und zu verlassen. Das vierte Bild zeigt das Meer zwischen Ruhe und Sturm. Grenzbereiche können sowohl interessant als auch unübersichtlich sein. Sie können ein Ort für einen neuen Anfang oder ein Ort mit Endungen sein. Sie können ein Ort der Reflexion oder ein Handlungsort sein. |
Sie können auch versuchen, das Modell explizit auffordern, auf den Inhalt des Bildes zu verweisen.
Aktualisierter Prompt | Verbesserte Reaktion |
---|---|
Was haben diese Bilder gemeinsam? In der Antwort auf den Inhalt der Bildern verweisen |
Alle Bilder beziehen sich auf Reisen. Das erste Bild zeigt eine Person, die einen Koffer verpackt, das zweite zeigt einen leeren Flur in einem Einkaufszentrum, das dritte Bild zeigt einen Stapel von Toilettenpapier und das vierte Bild ein dunkles und stürmisches Meer. Diese Bilder beziehen sich alle auf Reisen, da es alles ist, was Nutzer auf Reisen brauchen oder verwenden. Das erste Bild zeigt eine Person, die einen Koffer verpackt. Dies ist etwas, was Nutzer vor einer Reise tun. Die zweite Abbildung zeigt einen leeren Flur in einem Einkaufszentrum, in dem Nutzer häufig Dinge für Ihre Reisen kaufen. Das dritte Bild zeigt einen Stapel von Toilettenpapier, das Menschen häufig auf Reisen verwenden. Das vierte Bild zeigt ein dunkles und stürmisches Meer. Dies ist eines der Dinge, auf die Menschen häufig auf Reisen treffen. |
Dieselben Tipps funktionieren auch für die kreative Ausgabe von Bildern. Im folgenden Beispiel mit dem Kaninchen kann es hilfreich sein, das Modell explizit auffordern, Aspekte aus dem Bild in das Modell aufzunehmen.
Prompt | Modellantwort |
---|---|
Kannst du mir ein Gedicht zu diesem Bild schreiben? |
Kleines Kaninchen, so weich und braun, Du knabberst am Gras, so grün und süß, |
Aktualisierter Prompt | Verbesserte Reaktion |
---|---|
Können Sie mir ein beschreibendes und pathetisches Gedicht zu diesem Bild schreiben und den Standort einbeziehen? |
Kleines Kaninchen im Grün, Ist es der blaue Ozean, Kleines Wesen sage mir, Vielleicht ist es die Unermesslichkeit des Seins, Ich frage mich, was ist wohl dein Traum, Was auch immer es ist, kleines Kaninchen, |
Fehlerbehebung, welcher Teil der Prompt fehlgeschlagen ist
Es ist möglicherweise schwierig zu erkennen, ob eine Eingabeaufforderung fehlgeschlagen ist, weil das Modell nicht verstanden hat, mit welchem Bild zu beginnen ist oder wenn es das Bild verstanden hat, nicht die richtigen logischen Schritte ausgeführt hat.
Um zwischen diesen Logiken zu unterscheiden, bitten Sie das Modell, den Inhalt des Bildes zu beschreiben.
Wenn das Modell in diesem Beispiel mit Snacks antwortet, der bei Kombination mit Tee (z. B. Popcorn) überraschend ist, können Sie zuerst eine Fehlerbehebung durchführen, um festzustellen, ob das Modell richtig erkannt hat, dass das Bild Tee zeigt.
Prompt | Prompt zur Fehlerbehebung |
---|---|
Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde? |
Beschreiben Sie den Inhalt des Bildes. |
Eine andere Strategie besteht darin, das Modell um seine Logik zu bitten. So können Sie gegebenenfalls ermitteln, welcher Teil der Logik aufgeschlüsselt wurde.
Prompt | Prompt zur Fehlerbehebung |
---|---|
Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde? |
Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde? Bitte erläutere, warum. |
Parameter für die Stichprobenerhebung optimieren
In jeder Anfrage senden Sie nicht nur den multimodalen Prompt, sondern auch eine Reihe von Stichprobenparametern an das Modell. Das Modell kann für verschiedene Parameterwerte unterschiedliche Ergebnisse generieren. Experimentieren Sie mit den verschiedenen Parametern, um die besten Werte für die Aufgabe zu erhalten. Am häufigsten angepasste Parameter sind:
- Temperatur
- Top-P
- Top-K
Temperatur
Die Temperatur wird für die Probenahme während der Antwortgenerierung verwendet. Dies passiert, wenn Top-P und Top-K angewendet werden.
Die Temperatur bestimmt den Grad der Zufälligkeit bei der Tokenauswahl. Niedrigere Temperaturen eignen sich für Aufforderungen, die deterministischere und weniger offene oder kreative Reaktionen erfordern, während höhere Temperaturen zu vielfältigeren oder kreativen Ergebnissen führen können. Eine Temperatur von 0 ist deterministisch, d. h., die Antwort mit der höchsten Wahrscheinlichkeit wird immer ausgewählt.
Für die meisten Anwendungsfälle empfiehlt es sich, mit einer Temperatur von 0,4 zu beginnen. Wenn Sie mehr kreative Ergebnisse benötigen, versuchen Sie, die Temperatur zu erhöhen. Wenn Sie deutliche Halluzinationen beobachten, versuchen Sie, die Temperatur zu senken.
Top-K
Der Wert „Top-K“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Ein „Top-K“ von 1 bedeutet, dass das nächste ausgewählte Token unter den Tokens im Modell-Vokabular (auch als gierige Decodierung bezeichnet) am wahrscheinlichsten ist, während ein „Top-K“ von 3 bedeutet, dass das nächste Token mithilfe der Temperatur aus den drei wahrscheinlichsten Tokens ausgewählt wird.
Für jeden Tokenauswahlschritt werden die „Top-K“-Tokens mit den höchsten Wahrscheinlichkeiten abgetastet. Anschließend werden Tokens weiter auf der Grundlage von „Top-P“ gefiltert, wobei das endgültige Token mithilfe von Temperaturproben ausgewählt wird.
Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an. Der Standardwert von „Top-K“ ist 32.
Top-P
Der Wert „Top-P“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Die Tokens werden von den wahrscheinlichsten (siehe „Top-K“) bis zu den unwahrscheinlichsten Werten ausgewählt, bis die Summe ihrer Wahrscheinlichkeiten dem „Top-P“-Wert entspricht. Beispiel: Wenn die Tokens A, B und C eine Wahrscheinlichkeit von 0,6, 0,3, 0,1 haben und der Wert des Top-P 0,9 ist, wählt das Modell entweder A oder B als das nächste Token aus, indem es die Temperatur verwendet und schließt C als Kandidaten aus.
Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an. Der Standardwert von „Top-P“ ist 1,0.
Nächste Schritte
- Mit Google AI eigene multimodale Prompts schreiben Studio verfügbar.
- Weitere Informationen zum Prompt-Entwurf finden Sie in der Seite Prompt-Strategien.