Strategien für Dateiaufforderung

Die Gemini-Familie an Modellen für künstliche Intelligenz (KI) wurde für die Verarbeitung verschiedener Arten von Eingabedaten entwickelt, einschließlich Text, Bilder und Audio. Da diese Modelle mehr als einen Datentyp oder Datentyp verarbeiten können, werden die Gemini-Modelle als multimodale Modelle bezeichnet oder so erklärt, dass sie multimodale Funktionen enthalten.

Auf dieser Seite finden Sie eine Anleitung und Best Practices für die Verwendung von Mediendateien mit Aufforderungen für die Gemini API. Informationen zur Verwendung der Gemini Files API zum Hochladen von Mediendateien und zum Einbeziehen in Prompts finden Sie unter Aufforderung mit Mediendateien.

Mediendateien mit Prompts verwenden

Die Möglichkeit, verschiedene Datentypen in Ihren Prompts zu verwenden, gibt Ihnen mehr Flexibilität im Hinblick auf die Aufgaben, die Sie mit der Gemini API angehen können. Sie können dem Modell beispielsweise ein Foto einer köstlichen Mahlzeit schicken und es bitten, einen kurzen Blog über das Essen zu schreiben.

Eingabeaufforderung Antwort

Schreibe einen kurzen, interessanten Blogpost, der auf diesem Bild basiert. Es sollte eine Beschreibung der Mahlzeit auf dem Foto enthalten und über die Zubereitung von Mahlzeiten auf meiner Reise sprechen.


Kekse

Durch das Zubereiten von Mahlzeiten sparen Sie nicht nur Zeit und Geld, sondern können sich auch gesünder ernähren. Diese Mahlzeit ist ein großartiges Beispiel für eine gesunde und köstliche Mahlzeit, die im Voraus leicht vorbereitet werden kann.

Dieses Gericht besteht aus braunem Reis, gebratenem Gemüse und Hühnchen-Teriyaki. Vollkornreis ist ein gesundes und komplexes Kohlenhydrat, das Ihnen nachhaltige Energie liefert. Das gebratene Gemüse ist eine großartige Möglichkeit, Ihre tägliche Dosis an Vitaminen und Mineralien zu bekommen, und das Hühner-Teriyaki ist eine leckere und proteinreiche Option.

Diese Mahlzeit ist auch sehr einfach zuzubereiten. Kochen Sie einfach den braunen Reis, braten Sie das Gemüse und kochen Sie das Hühnchen-Teriyaki. Sobald alles gekocht ist, teile es in Behälter für die Zubereitung von Mahlzeiten und lagere diese im Kühlschrank. Dann schnappen Sie sich einen Behälter und machen Sie einen geschäftigen Morgen!

Wenn Sie auf der Suche nach einer gesunden und leckeren Mahlzeit sind, die leicht im Voraus zubereitet werden kann, ist diese Mahlzeit eine gute Option. Er ist voller Nährstoffe und Geschmacksrichtungen, die für ein Sättigungsgefühl sorgt.

Auf die gesunde und köstliche Zubereitung von Mahlzeiten!

Strategien für Prompts mit Medien

Wenn Sie Probleme haben, die gewünschte Ausgabe von Prompts mit Mediendateien zu erhalten, gibt es einige Strategien, mit denen Sie die gewünschten Ergebnisse erhalten. Die folgenden Abschnitte enthalten Designansätze und Tipps zur Fehlerbehebung, um Prompts mit multimodaler Eingabe zu verbessern.

Mit den folgenden Best Practices können Sie Ihre multimodalen Aufforderungen verbessern:

Grundlagen des Prompt-Designs

  • Formulieren Sie spezifische Anweisungen: Stellen Sie klare und präzise Anweisungen bereit, die möglichst wenig Raum für Fehldeutungen lassen.
  • Ein paar Beispiele zum Prompt hinzufügen: Verwenden Sie realistische Few-Shot-Beispiele, um zu veranschaulichen, was Sie erreichen möchten.
  • Schritt für Schritt aufschlüsseln: Teilen Sie komplexe Aufgaben in überschaubare Unterziele auf und führen Sie das Modell durch den Prozess.
  • Ausgabeformat angeben: Fordern Sie in Ihrem Prompt die Ausgabe in dem gewünschten Format an, z. B. Markdown, JSON oder HTML.
  • Bild an erste Stelle bei Prompts mit einem Bild stellen: Gemini kann Bild- und Texteingaben in beliebiger Reihenfolge verarbeiten. Bei Prompts, die ein einzelnes Bild enthalten, funktioniert es jedoch möglicherweise besser, wenn dieses Bild vor der Text-Prompt platziert wird.

    Fehlerbehebung bei multimodalem Prompt

    • Wenn das Modell aus dem relevanten Teil des Bildes keine Informationen bezieht:Geben Sie an, aus welchen Aspekte des Bildes der Prompt Informationen abrufen soll.
    • Wenn die Modellausgabe zu allgemein ist (nicht ausreichend auf das Bild zugeschnitten) : Bitten Sie zu Beginn der Aufforderung das Modell, die Bilder zu beschreiben, bevor Sie die Aufgabenanweisung ausführen, oder bitten Sie das Modell, sich auf den Bildinhalt zu beziehen.
    • Grundlagen des Prompt-Designs

      Dieser Abschnitt erweitert die Best Practices aus dem vorherigen Abschnitt.

      Hinweis: Die Modellergebnisse aus den folgenden Gemini-Beispielen können von Ausführung zu Ausführung variieren.

      Machen Sie genaue Anweisungen aus

      Aufforderungen sind am erfolgreichsten, wenn sie klar und detailliert sind. Wenn Sie eine bestimmte Ausgabe im Kopf haben, ist es besser, diese Anforderung in die Aufforderung aufzunehmen, damit Sie die gewünschte Ausgabe erhalten.

      Manchmal wird der Zweck einer Prompt der Person, die sie geschrieben hat, offensichtlich, aber tatsächlich wird er nicht angegeben. Überlegen Sie beim Anpassen des Modellverhaltens, wie Ihre Aufforderung (falsch) interpretiert werden könnte, und achten Sie darauf, dass die Anleitung, die Sie geben, spezifisch und eindeutig ist. Achten Sie darauf, Raum für Fehlinterpretationen so wenig wie möglich zu lassen.

      Wenn Sie für dieses Bild eines Flughafenboards die Anfrage an das Modell senden, nur „Dieses Bild beschreiben“ könnte es eine allgemeine Beschreibung generieren. Wenn das Modell die Zeit und die Stadt aus dem Bild parsen soll, können Sie diese Anfrage direkt in Ihren Prompt einfügen.

      Eingabeaufforderung Modellantwort

      Beschreiben Sie dieses Bild.

      Auf dem Bild ist eine Anzeige für Ankunfts- und Abflugfinfos für den Flughafen zu sehen.

      Aktualisierter Prompt Verbesserte Reaktionszeit
      Fahrplan

      Parsen Sie die Uhrzeit und die Stadt vom Flughafenanzeige in dem Bild in eine Liste.

    • 10:50 Moskau
    • 11:05 Edinburgh
    • 11:05 London
    • 11:10 Bukarest
    • 11:30 Kiew
    • 11:35 Dublin
    • 11:45 East Midlands
    • 12:15 Sofia
    • 12:30 London
    • 12:30 Newcastle
    • 12:40 Sankt Petersburg
    • 12:40 London
    • 12:45 Manchester
    • Fügen Sie einige Beispiele hinzu

      Das Gemini-Modell kann mehrere Eingaben akzeptieren, die es als Beispiele für das Verständnis der gewünschten Ausgabe verwenden kann. Wenn Sie diese Beispiele hinzufügen, kann das Modell die Muster leichter identifizieren und die Beziehung zwischen den angegebenen Bildern und Antworten auf das neue Beispiel anwenden. Dies wird auch als „wenige Aufnahme“ bezeichnet.

      Im folgenden Beispiel ist die ursprüngliche Ausgabe in Satzform geschrieben und enthält auch das Land (Brasilien). Angenommen, Sie möchten ein anderes Format oder einen anderen Stil für die Ausgabe haben und möchten nur die Stadt und nicht das Land angeben. Wenn Sie Ihrer Prompt Few-Shot-Beispiele hinzufügen, können Sie das Modell so steuern, dass es antwortet, wie Sie es möchten.

      Eingabeaufforderung Modellantwort
      Fahrplan

      Bestimmen Sie die Stadt und die Sehenswürdigkeit.

      Die Sehenswürdigkeit ist die Cristo Redentor-Statue in Rio de Janeiro, Brasilien.

      Aktualisierter Prompt Verbesserte Reaktionszeit

      Bestimmen Sie die Stadt und die Sehenswürdigkeit.

      Kolosseum

      Stadt: Rom, Sehenswürdigkeit: das Kolosseum

      Die Verbotene Stadt

      Stadt: Peking, Sehenswürdigkeit: Verbotene Stadt

      Die Verbotene Stadt

      Stadt: Rio de Janeiro, Sehenswürdigkeit: Cristo Redentor-Statue

      Schritt für Schritt aufschlüsseln

      Bei komplexen Aufgaben wie Aufgaben, die sowohl visuelles Verständnis als auch Logik erfordern, kann es hilfreich sein, die Aufgabe in kleinere, einfachere Schritte aufzuteilen. Alternativ kann es auch effektiv sein, wenn Sie das Modell in Ihrem Prompt direkt bitten, „Schritt für Schritt zu denken“.

      Eingabeaufforderung Modellantwort

      Wann habe ich kein Toilettenpapier mehr?

      Bald sind nur noch 3 Rollen übrig.

      Aktualisierter Prompt Verbesserte Reaktionszeit

        1. Zählen Sie zuerst, wie viele Toilettenpapierrollen auf diesem Bild zu sehen sind.
        2. Ermitteln Sie dann, wie viel Toilettenpapier eine typische Person pro Tag verbraucht.
        3. Berechnen Sie, wie lange diese Rollen Toilettenpapier halten.

        1. Auf diesem Bild sind 3 Rollen mit Toilettenpapier zu sehen.
        2. Eine typische Person verwendet etwa 20 Blätter Toilettenpapier pro Tag.
        3. Wenn jede Rolle 200 Tabellenblatt enthält, hält jede Roll etwa 10 Tage lang. Daher dauern diese 3 Würfe etwa einen Monat.

      Mathematische Aufgaben oder andere Arten von Wortproblemen sind gute Kandidaten dafür, das Modell zu bitten, Schritt für Schritt zu denken.

      Eingabeaufforderung Antwort

      Was ist der vierte Begriff in der Folge?

      -135

      Die Antwort des Modells ist falsch. Zum Verbessern Sie können das Modell beispielsweise bitten, das Problem zu parsen, bevor es den Prompt beantwortet.

      Eingabeaufforderung Antwort

      Parsen Sie zuerst die Formel im Bild.

      Beantworte dann anhand der Formel: „Was ist der vierte Begriff in der Folge?“.

      Klicken, um das Ergebnis zu maximieren

      $$ b(n) = b(n-1) * (-3) $$

      $$ b(1) = 15 $$

      1. Setzen Sie in der Formel n = 4 ein:
      2. $$ b(4) = b(4-1) * (-3) $$

        $$ b(4) = b(3) * (-3) $$

      3. Wir kennen den Wert von b(3) nicht. Setzen Sie daher n = 3 in der Formel ein:
      4. $$ b(3) = b(3-1) * (-3) $$

        $$ b(3) = b(2) * (-3) $$

      5. Wir kennen den Wert von b(2) nicht. Setzen Sie daher n = 2 in der Formel ein:
      6. $$ b(2) = b(2-1) * (-3) $$

        $$ b(2) = b(1) * (-3) $$

      7. Da wir wissen, dass der Wert von b(1) 15 ist, setzen Sie ihn in der Formel ein:
      8. $$ b(2) = 15 * (-3) $$

        $$ b(2) = -45 $$

      9. Nachdem wir den Wert von b(2) kennen, setzen Sie ihn in der Formel für b(3) ein:
      10. $$ b(3) = b(2) * (-3) $$

        $$ b(3) = -45 * (-3) $$

        $$ b(3) = 135 $$

      11. Nachdem wir den Wert von b(3) kennen, setzen Sie ihn in der Formel für b(4) ein:
      12. $$ b(4) = b(3) * (-3) $$

        $$ b(4) = 135 * (-3) $$

        $$ b(4) = -405 $$

      Daher ist der vierte Term in der Sequenz -405.

      Diese Modellantwort ist korrekt. Wenn Sie die Antwort jetzt noch optimieren möchten, können Sie das Modell bitten, schrittweise zu denken.

      Aktualisierter Prompt Verbesserte Reaktionszeit

      Was ist der vierte Begriff in der Folge? Denken Sie Schritt für Schritt.

      Der erste Term ist 15.

      Der zweite Begriff ist b(1) * (-3) = 15 * (-3) = -45.

      Der dritte Begriff ist b(2) * (-3) = -45 * (-3) = 135.

      Der vierte Term ist b(3) * (-3) = 135 * (-3) = -405.

      Versuchen Sie, das Ausgabeformat anzugeben

      Ein häufiges Problem ist, dass die Modellausgabe in einem bestimmten Format vorliegen muss (z.B. Markdown, JSON, HTML), insbesondere wenn die Modellausgabe von einer nachgelagerten Aufgabe aufgenommen werden muss. Sie können versuchen, eine Ausgabe in diesem Format zu generieren, indem Sie das Modell in der Eingabeaufforderung anweisen, dies zu tun. Hier zwei Beispiele:

      Eingabeaufforderung Modellantwort

      Die Tabelle in diesem Bild in das Markdown-Format parsen

      | Betreff | Status | Uhrzeit | Startdatum | Fällig am |

      | ------- | ------ | ---- | --------- | ------ |

      | Mathematik | Erledigt | 1,5 Std. | 29.11.2023 | 01.12.2023 |

      | Region | Fertig | 30 Min. | 2.12.2023 | 4.12.2023 |

      | Physik | In Bearbeitung | 2 Std. | 3.12.2023 | 5.12.2023 |

      | Biologie | Nicht gestartet | 6 Stunden | 02.11.2016 | 6.12.2023 |

      Eingabeaufforderung Modellantwort

      Geben Sie eine Liste aller folgenden Attribute an:

      Zutaten, Art der Küche, vegetarisch oder nicht, im JSON-Format

      ```json```

      {

      "ingredients": [

      "rice",

      "shrimp",

      "clams",

      "mussels",

      "peas",

      "tomatoes",

      "onions",

      "garlic",

      "olive oil",

      "paprika",

      "salt",

      "pepper"

      ],

      "type of cuisine": "Spanish",

      "vegetarian": false

      Bild zuerst für Aufforderungen mit einem einzelnen Bild platzieren

      Gemini kann Bilder und Text in beliebiger Reihenfolge innerhalb einer Eingabeaufforderung interpretieren. Die Platzierung eines einzelnen Bildes vor der Textaufforderung kann jedoch zu besseren Ergebnissen führen. In den folgenden Beispielen wird in jedem Prompt das Bild vor dem Text angezeigt.

      Fehlerbehebung bei multimodalem Prompt

      Möglicherweise müssen Sie Probleme mit Ihrer Prompt beheben, wenn Sie keine hilfreiche Antwort erhalten. Hier sind einige Strategien, die Sie ausprobieren können.

      Wenn das Modell keine Informationen aus dem relevanten Teil des Bildes zieht

      Um eine spezifischere Antwort zu erhalten, können Sie angeben, aus welchen Aspekten des Bildes Informationen herausgegeben werden sollen.

      Eingabeaufforderung Modellantwort

      Wie viele Tage halten diese Windeln für ein Baby?

      Die Windel halten 198 Tage, bevor sie aufgebraucht sind.

      Aktualisierter Prompt Verbesserte Reaktionszeit

      Wie lange halten diese Windeln?

      Verwenden Sie das auf dem Feld angezeigte Gewicht, um das Alter des Kindes zu bestimmen. Verwenden Sie dann die Gesamtzahl der Windeln im Feld.

      Teilen Sie die Gesamtzahl durch die Anzahl der Windeln, die das Kind pro Tag benötigt.

      Die Verpackung enthält 198 Windeln. Die Verpackung besagt, dass die Windel für ein Kind mit einem Gewicht von 22-37 lbs gedacht sind.

      Das durchschnittliche Kind in dieser Gewichtsspanne ist wahrscheinlich zwischen 1 und 2 Jahre alt.

      Eine Zweijährige braucht in der Regel sechs Windeln pro Tag, daher halten sie etwa 33 Tage (198/6).

      Wenn die Modellausgabe zu allgemein und nicht ausreichend auf die Bildeingabe zugeschnitten ist

      Damit das Modell seine Antwort auf das Bild bzw. die Bilder anpassen kann, bitten Sie es, das Bild zu beschreiben, bevor das Modell die Logik ausführt.

      Eingabeaufforderung Modellantwort

      Was haben diese Bilder gemeinsam?

      Alle vier Bilder sind Beispiele für Landschaftsfotografie.

      Aktualisierter Prompt Verbesserte Reaktionszeit

      Beschreiben Sie zuerst im Detail, was in den einzelnen Bildern zu sehen ist. Was haben diese Bilder gemeinsam?

      Das erste Bild zeigt eine Person, die einen Koffer packt. Das zweite Bild zeigt einen leeren Flur in einem Einkaufszentrum. Das dritte Bild zeigt eine Rolle Toilettenpapier. Das vierte Bild zeigt ein dunkles und stürmisches Meer.

      Die Gemeinsamkeiten zwischen diesen Bildern sind, dass sie alle Beispiele für Grenzbereiche sind. Grenzbereich sind Orte oder Situationen, die zwischen zwei anderen Orten oder Situationen liegen. Sie zeichnen sich oft durch Unsicherheit oder Ambiguität aus.

      Auf dem ersten Bild ist eine Person zu sehen, die gerade zu Hause ist oder gerade unterwegs ist. Auf dem zweiten Bild ist der Flur zwischen zwei Geschäften zu sehen. Auf dem dritten Bild ist Toilettenpapier zu sehen, das ein Bad darstellen kann. Ein Badezimmer ist ein Übergang zwischen dem privaten und dem öffentlichen Bereich. Es ist ein Ort, an dem wir uns darauf vorbereiten, die Außenwelt zu betreten oder zu verlassen.

      Das vierte Bild zeigt das Meer zwischen Ruhe und Sturm.

      Grenzbereiche können sowohl interessant als auch unübersichtlich sein. Sie können ein Ort des neuen Anfangs oder ein Ort mit Enden sein. Sie können ein Ort der Reflexion oder ein Ort der Handlung sein.

      Sie können auch versuchen, das Modell explizit auf den Bildinhalt zu beziehen.

      Aktualisierter Prompt Verbesserte Reaktionszeit

      Was haben diese Bilder gemeinsam? In der Antwort auf den Inhalt der Bildern verweisen

      Alle Bilder beziehen sich auf Reisen. Das erste Bild zeigt eine Person, die einen Koffer verpackt, das zweite zeigt einen leeren Flur in einem Einkaufszentrum, das dritte Bild zeigt einen Stapel von Toilettenpapier und das vierte Bild ein dunkles und stürmisches Meer.

      Alle diese Bilder beziehen sich alle auf Reisen, da sie alles sind, was Menschen auf Reisen brauchen oder verwenden. Das erste Bild zeigt eine Person, die einen Koffer verpackt. Dies ist etwas, was Nutzer vor einer Reise tun. Die zweite Abbildung zeigt einen leeren Flur in einem Einkaufszentrum, in dem Nutzer häufig Dinge für Ihre Reisen kaufen. Das dritte Bild zeigt einen Stapel Toilettenpapier, den Menschen oft auf Reisen verwenden. Das vierte Bild zeigt ein dunkles und stürmisches Meer. Dies ist eines der Dinge, auf die Menschen häufig auf Reisen treffen.

      Dieselben Tipps gelten auch für die kreative Ausgabe von Bildern. Im folgenden Beispiel mit dem Kaninchen kann es hilfreich sein, das Modell explizit auffordern, Aspekte aus dem Bild in das Modell aufzunehmen.

      Eingabeaufforderung Modellantwort

      Kannst du mir ein Gedicht zu diesem Bild schreiben?

      Kleines Kaninchen, so weich und braun,
      will am liebsten im Feld abhau'n.
      Die Ohren so lang, der Schwanz so klein,
      Es ist so süß und trefflich fein.

      Du knabberst am Gras, so grün und süß,
      und rennst davon, wenn du mich siehst.
      Aber ich bin immer dein Freund,
      denke ich mir verträumt.

      Aktualisierter Prompt Verbesserte Reaktionszeit

      Können Sie mir ein beschreibendes und pathetisches Gedicht zu diesem Bild schreiben und den Standort einbeziehen?

      Kleines Kaninchen im Grün,
      Ohren, so lang und kühn.
      Was siehst du in der Ferne liegen,
      wohin deine Blicke fliegen?

      Ist es der blaue Ozean,
      funkelnd in der Sonne Bahn?
      Oder die Wellen, die brechen und brüllen,
      ein Rhythmus, der dich will erfüllen?

      Kleines Wesen sage mir,
      was nur fasziniert dich hier?
      Ist es die salzige und starke Brise,
      oder der Möwenruf über der Wiese?

      Vielleicht ist es die Unermesslichkeit des Seins,
      Die Welt, so groß und auch so klein.
      Ein Ort, an dem sich Träume formen können,
      und Abenteuer sich enthemmen.

      Ich frage mich, was ist wohl dein Traum,
      wenn du so heiter im Grase sitzt im Raum?
      Möchtest du in die Tiefe vordringen,
      oder bleiben an Land, wo du kannst springen?

      Was auch immer es ist, kleines Kaninchen,
      behalte den Eindruck dieses Wunderlichen!
      In den Träumen und Wünschen Deinen,
      liegt eine Welt, die du sollst vereinen.

      Fehlerbehebung, welcher Teil der Prompt fehlgeschlagen ist

      Es ist möglicherweise schwierig zu erkennen, ob eine Eingabeaufforderung fehlgeschlagen ist, weil das Modell nicht verstanden hat, mit welchem Bild zu beginnen ist oder wenn es das Bild verstanden hat, nicht die richtigen logischen Schritte ausgeführt hat.

      Um zwischen diesen Logiken zu unterscheiden, bitten Sie das Modell, den Inhalt des Bildes zu beschreiben.

      Wenn das Modell in diesem Beispiel mit Snacks antwortet, der bei Kombination mit Tee (z. B. Popcorn) überraschend ist, können Sie zuerst eine Fehlerbehebung durchführen, um festzustellen, ob das Modell richtig erkannt hat, dass das Bild Tee zeigt.

      Eingabeaufforderung Prompt zur Fehlerbehebung

      Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde?

      Beschreibe den Inhalt dieses Bildes.

      Eine andere Strategie besteht darin, das Modell um seine Logik zu bitten. So können Sie gegebenenfalls ermitteln, welcher Teil der Logik aufgeschlüsselt wurde.

      Eingabeaufforderung Prompt zur Fehlerbehebung

      Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde?

      Welchen Snack kann ich in einer Minute machen, der dazu gut passe würde? Bitte erläutere, warum.

      Parameter für die Stichprobenerhebung abstimmen

      In jeder Anfrage senden Sie nicht nur die multimodale Aufforderung, sondern auch eine Reihe von Stichprobenparametern an das Modell. Das Modell kann für verschiedene Parameterwerte unterschiedliche Ergebnisse generieren. Experimentieren Sie mit den verschiedenen Parametern, um die besten Werte für die Aufgabe zu erhalten. Die am häufigsten angepassten Parameter sind:

      • Temperatur
      • Top-P
      • Top-K

      Temperatur

      Die Temperatur wird während der Antwortgenerierung für das Sampling verwendet. Dies geschieht, wenn Top-P und Top-K angewendet werden. Die Temperatur bestimmt den Grad der Zufälligkeit bei der Tokenauswahl. Niedrigere Temperaturen eignen sich für Aufforderungen, die deterministischere und weniger offene oder kreative Reaktionen erfordern, während höhere Temperaturen zu vielfältigeren oder kreativen Ergebnissen führen können. Eine Temperatur von 0 ist deterministisch, d. h., die Antwort mit der höchsten Wahrscheinlichkeit wird immer ausgewählt.

      Für die meisten Anwendungsfälle empfiehlt es sich, mit einer Temperatur von 0,4 zu beginnen. Wenn Sie mehr kreative Ergebnisse benötigen, erhöhen Sie die Temperatur. Wenn Sie deutliche Halluzinationen beobachten, versuchen Sie, die Temperatur zu senken.

      Top-K

      Der Wert „Top-K“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Ein „Top-K“ von 1 bedeutet, dass das nächste ausgewählte Token unter den Tokens im Modell-Vokabular (auch als gierige Decodierung bezeichnet) am wahrscheinlichsten ist, während ein „Top-K“ von 3 bedeutet, dass das nächste Token mithilfe der Temperatur aus den drei wahrscheinlichsten Tokens ausgewählt wird.

      Für jeden Tokenauswahlschritt werden die „Top-K“-Tokens mit den höchsten Wahrscheinlichkeiten abgetastet. Anschließend werden Tokens weiter auf der Grundlage von „Top-P“ gefiltert, wobei das endgültige Token mithilfe von Temperaturproben ausgewählt wird.

      Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an. Der Standardwert für „Top-K“ ist 32.

      Top-P

      Der Wert „Top-P“ ändert, wie das Modell Tokens für die Ausgabe auswählt. Die Tokens werden von den wahrscheinlichsten (siehe „Top-K“) bis zu den unwahrscheinlichsten Werten ausgewählt, bis die Summe ihrer Wahrscheinlichkeiten dem „Top-P“-Wert entspricht. Beispiel: Wenn die Tokens A, B und C eine Wahrscheinlichkeit von 0,6, 0,3, 0,1 haben und der Wert des Top-P 0,9 ist, wählt das Modell entweder A oder B als das nächste Token aus, indem es die Temperatur verwendet und schließt C als Kandidaten aus.

      Geben Sie einen niedrigeren Wert für weniger zufällige Antworten und einen höheren Wert für zufälligere Antworten an. Der Standardwert für „Top-P“ ist 1,0.

      Nächste Schritte