Langer Kontext

Gemini 1.5 Flash bietet standardmäßig ein Kontextfenster von 1 Million Tokens und Gemini 1.5 Pro bietet ein Kontextfenster von 2 Millionen Tokens. Historisch gesehen groß Language Models (LLMs) erheblich durch die Menge an Text (oder Tokens), die gleichzeitig an das Modell übergeben werden können. Gemini 1.5 lang Kontextfenster mit nahezu perfektem Abruf. (> 99%), viele neue Anwendungsfälle und Entwicklerparadigmen aufgezeigt.

Den Code, den Sie bereits für Fälle wie Text Generation oder multimodal Eingaben funktionieren bei langem Kontext sofort.

In diesem Leitfaden lernen Sie kurz die Grundlagen des Kontextfensters kennen, Entwickelnden sollten sich einen langen Kontext und verschiedene reale Anwendungsfälle für langen Kontext und Möglichkeiten, die Nutzung von Long Context zu optimieren.

Was ist ein Kontextfenster?

Im Wesentlichen verwenden Sie die Gemini 1.5-Modelle durch die Übergabe von Informationen (Kontext) die anschließend eine Antwort generiert. Eine Analogie für die Kontextfenster ist der Kurzzeitspeicher. Es sind nur begrenzte Informationen die im Kurzzeitgedächtnis einer Person gespeichert werden können. Gleiches gilt für generativen Modellen.

Weitere Informationen zur Funktionsweise von Modellen finden Sie in unseren generativen Modellen. .

Erste Schritte mit ausführlichem Kontext

Die meisten generativen Modelle, die in den letzten Jahren erstellt wurden, 8.000 Tokens auf einmal verarbeitet werden. Neuere Modelle brachten dies noch weiter, indem sie 32.000 Tokens oder 128.000 Tokens Gemini 1.5 ist das erste Modell, 1 Million Token akzeptieren – und jetzt 2 Millionen Tokens mit Gemini 1.5 Pro:

In der Praxis würde 1 Million Tokens so aussehen:

  • 50.000 Codezeilen (mit den standardmäßigen 80 Zeichen pro Zeile)
  • Alle SMS, die Sie in den letzten 5 Jahren gesendet haben
  • Englische Romane mit durchschnittlicher Länge
  • Transkripte von über 200 Podcast-Folgen im Durchschnitt

Auch wenn die Modelle immer mehr Kontext berücksichtigen können, herkömmlicher Weisheit zur Verwendung von Large Language Models geht davon aus, Einschränkungen des Modells, was seit 2024 nicht mehr der Fall ist.

Einige gängige Strategien, um die Beschränkung kleiner Kontextfenster zu bewältigen enthalten:

  • Alte Nachrichten / Texte werden willkürlich aus dem Kontextfenster als neuen Text gelöscht. geht rein
  • Frühere Inhalte werden zusammengefasst und durch die Zusammenfassung ersetzt, wenn der Kontextfenster fast voll ist
  • Die Verwendung von RAG mit der semantischen Suche, um Daten aus dem Kontextfenster zu verschieben und in einer Vektordatenbank gespeichert,
  • Deterministische oder generative Filter verwenden, um bestimmten Text Zeichen aus Prompts, um Tokens zu speichern

Viele davon sind zwar in bestimmten Fällen weiterhin relevant, doch der Standardbereich für Start ist jetzt, alle Tokens in das Kontextfenster zu stellen. Weil Gemini 1.5-Modelle wurden speziell mit einem langen Kontextfenster entwickelt, besser im Kontext zu lernen. Wenn Sie beispielsweise nur eine Anleitung Materialien (eine Referenzgrammatik mit 500 Seiten, ein Wörterbuch und Δ 400 zusätzliche parallele Grammatik) Sätze) alle im Kontext dargestellt werden, sind Gemini 1.5 Pro und Gemini 1.5 Flash können übersetzen, vom Englischen ins Kalamang, eine papuanische Sprache mit weniger als 200 Sprechern daher fast keine Onlinepräsenz – und zwar in einer Qualität, die einer Person ähnelt, die aus denselben Materialien.

Dieses Beispiel unterstreicht, wie Sie darüber nachdenken können, was mit und die kontextbezogenen Lernfunktionen von Gemini 1.5.

Anwendungsfälle mit langem Kontext

Der Standardanwendungsfall für die meisten generativen Modelle ist zwar weiterhin die Texteingabe, aber der Die Gemini 1.5-Modellfamilie ermöglicht ein neues Paradigma multimodaler Anwendungsfälle. Diese können Modelle Text, Video, Audio und Bilder nativ verstehen. Sie sind begleitet von der Gemini API, die eine multimodale Datei akzeptiert für Komfort zu bieten.

Langer Text

Text hat sich als intelligente Schicht erwiesen, die viele Dynamik der LLMs. Wie bereits erwähnt, ist ein Großteil der praktischen Einschränkungen LLMs lag daran, dass das Kontextfenster nicht groß genug war, um bestimmte Aufgaben. Dies führte zur schnellen Einführung von Retrieval Augmented Generation (RAG) und andere Techniken, die dem Modell dynamisch relevante Kontextinformationen. Jetzt mit größeren und größeren Kontextfenstern (derzeit bis zu 2 Millionen Gemini 1.5 Pro), sind neue Techniken verfügbar, mit denen sich neue Anwendungsfälle erschließen lassen.

Zu den neuen und standardmäßigen Anwendungsfällen für textbasierten langen Kontext gehören:

  • Zusammenfassung großer Textkorpusse <ph type="x-smartling-placeholder">
      </ph>
    • Für frühere Zusammenfassungsoptionen mit kleineren Kontextmodellen ein gleitendes Fenster oder eine andere Technik, um den Zustand der vorherigen Abschnitte wenn neue Tokens an das Modell übergeben werden.
  • Fragen und Antworten <ph type="x-smartling-placeholder">
      </ph>
    • In der Vergangenheit war dies nur mit RAG möglich, des Kontexts und der Modelle faktenbasierte Erinnerung niedrig
  • Agenten-Workflows <ph type="x-smartling-placeholder">
      </ph>
    • Text bildet die Grundlage dafür, wie Kundenservicemitarbeiter den Überblick über ihre Arbeit behalten und was sie tun müssen. nicht genügend Informationen über die Welt, und das Ziel ist eine Beschränkung der Zuverlässigkeit der Kundenservicemitarbeiter.

Kontextbezogenes Lernen mit vielen Schritten ist eine der einzigartige Funktionen, die durch Long Context-Modelle ermöglicht werden. Studien haben gezeigt, dass die gemeinsame Einzelaufnahme oder „Mehrfachaufnahme“ Beispielparadigma, bei dem einem Modell ein oder einige Beispiele für eine Aufgabe präsentiert, und die Skalierung bis auf Hunderttausenden oder gar Hunderttausenden von Beispielen neuen Modellfunktionen. Dieser Mehrfachaufnahme-Ansatz hat sich auch bewährt ähnlich wie Modelle, die auf eine bestimmte Aufgabe abgestimmt wurden. Für Anwendungsfälle wenn die Leistung eines Gemini-Modells noch nicht für eine Produktion ausreicht. können Sie den viele-Shot-Ansatz ausprobieren. Wie Sie sich vielleicht später im langen Kontextoptimierung, Kontext-Caching macht diese Art von Tokenarbeit wirtschaftlicher durchführbarer und sogar niedrigere Latenzen in einigen Cases.

Videos im Langformat

Der Nutzen von Videoinhalten wurde schon lange durch mangelnde Zugänglichkeit eingeschränkt des Mediums selbst. Ich konnte den Inhalt nur schwer überfliegen, Transkripte schlugen oft fehl. um die Nuancen eines Videos zu erfassen, und die meisten Tools verarbeiten keine Bilder, Texte und Audio zusammen. Mit Gemini 1.5 lassen sich Langkontext-Textfunktionen die Fähigkeit, Fragen zu multimodalen Eingaben mit dauerhafte Leistung erzielen. Gemini 1.5 Flash, wenn es in einem Video an der Spitze getestet wird mit 1 Mio.Tokens, eine Erinnerung von > 99,8% des Videos im Kontextfenster und 1.5 Pro erreichte auf der Video-MME-Benchmark:

Einige neue und standardmäßige Anwendungsfälle für Videos im Langformat:

  • Frage und Antwort zu einem Video
  • Videospeicher, wie im Project Astra von Google zu sehen
  • Videountertitel
  • Videoempfehlungssysteme, da vorhandene Metadaten mit neuen multimodales Verständnis
  • Videoanpassung anhand eines Datenkorpus und des zugehörigen Videos Metadaten entfernen und dann Teile der Videos entfernen, die für das Zuschauer
  • Moderation von Videoinhalten
  • Videoverarbeitung in Echtzeit

Bei der Arbeit mit Videos ist es wichtig zu berücksichtigen, wie die Videos in Tokens verarbeitet. Das wirkt sich auf Abrechnungs- und Nutzungslimits. Weitere Informationen zu Prompts mit Videodateien finden Sie in die Aufforderung .

Audioinhalte im Langformat

Die Gemini 1.5-Modelle waren die ersten nativ multimodalen Large Language Models die Audio verstehen. In der Vergangenheit war der typische Workflow bei einer das Verketten mehrerer fachspezifischer Modelle wie Spracherkennungsmodell und ein Text-zu-Text-Modell für die Audioverarbeitung. Dieses führte zu zusätzlicher Latenz, da mehrere Umlaufanfragen durchgeführt wurden. und eine geringere Leistung, die in der Regel auf getrennte Architekturen mehrere Modelle zu erstellen.

Bei Standardbewertungen von Audio-Heuhaufen kann Gemini 1.5 Pro die Audio in 100% der Tests versteckt und Gemini 1.5 Flash findet es in 98,7% der Tests. Gemini 1.5 Flash akzeptiert bis zu 9,5 Stunden Audio in einem einzigen Anfrage und Gemini 1.5 Pro akzeptiert mit den 2 Millionen Tokens bis zu 19 Stunden Audiomaterial . Bei einem Test mit 15-minütigen Audioclips hat Gemini 1.5 Pro archiviert eine Wortfehlerrate von ca.5,5%, also viel niedriger als bei spezialisierten Spracherkennungsmodelle ohne die zusätzliche Komplexität einer zusätzlichen Eingabesegmentierung und Vorverarbeitung.

Einige neue und standardmäßige Anwendungsfälle für Audiokontext sind:

  • Transkription und Übersetzung in Echtzeit
  • Fragen und Antworten zu Podcasts / Videos
  • Videokonferenzen transkribieren und zusammenfassen
  • Sprachassistenten

Weitere Informationen zu Prompts mit Audiodateien finden Sie unter Prompts .

Lang-Kontext-Optimierungen

Die primäre Optimierung bei der Arbeit mit langen Kontexten und Gemini 1.5 ist die Verwendung von Kontext Caching. Über die vorherigen die Unmöglichkeit, viele Tokens in einer einzelnen Anfrage zu verarbeiten, war die Kostenbeschränkung. Bei einem „Chat mit Ihren Daten“ App, bei der Nutzende 10 PDFs, ein Video und einige Arbeitsdokumente hochgeladen, mit einem komplexeren RAG-Tool (Retrieval Augmented Generation) arbeiten um solche Anträge zu bearbeiten, und zahlt einen hohen Tokens in das Kontextfenster verschoben. Jetzt können Sie die Dateien im Cache speichern, und für ihre Speicherung pro Stunde bezahlen. Die Eingabe-/Ausgabekosten pro Anfrage mit Gemini 1.5 Flash ist etwa 4-mal niedriger als die Kosten für Standardeingabe/-ausgabe. der Nutzer ausreichend mit seinen Daten chattet, spart für Sie als für den Entwickler.

Lange Kontexteinschränkungen

In verschiedenen Abschnitten dieses Leitfadens haben wir darüber gesprochen, wie Gemini 1.5-Modelle hohe Leistung bei verschiedenen „Nadel im Heuhaufen“-Abrufen. Diese ist die grundlegendste Einrichtung, bei der Sie eine einzelne Nadel haben, nach denen Sie suchen. In Fällen, in denen Sie möglicherweise mehrere „Nadeln“ haben oder bestimmte Teile die gesuchten Informationen enthält, funktioniert das Modell nicht Genauigkeit. Die Leistung kann je nach Kontext stark variieren. Dieses ist wichtig zu bedenken, da es einen inhärenten Kompromiss zwischen richtigen Informationen abgerufen und Kosten eingespart werden. Sie können ~99% für eine einzelne Abfrage erhalten, müssen Sie die Kosten für das Eingabe-Token jedes Mal bezahlen, wenn Sie diese Abfrage senden. Für 100 99% Leistung benötigen, müssen wahrscheinlich 100 Anfragen senden. Dies ist ein gutes Beispiel dafür, Caching kann die Kosten für die Verwendung von Gemini-Modellen erheblich senken bei gleichbleibender Leistung.

Häufig gestellte Fragen

Geht es um die Modellleistung, wenn ich einer Abfrage weitere Tokens hinzufüge?

Wenn keine Tokens an das Modell übergeben werden sollen, sie nicht zu überholen. Wenn Sie jedoch einen großen Block von Tokens mit einigen und Fragen dazu stellen möchten, ist das Modell sehr gut in der Lage sind, diese Informationen zu extrahieren (bis zu 99% Genauigkeit in vielen Cases).

Wie schneidet Gemini 1.5 Pro beim Standard-Nadel im Heuhaufen-Test ab?

Gemini 1.5 Pro erzielt eine Recall von 100% bis zu 530.000 Tokens und eine Erinnerung von mehr als 99,7% bis zu 1 Mio. Tokens

Wie kann ich meine Kosten mit Suchanfragen mit langem Kontext senken?

Wenn Sie einen ähnlichen Satz von Tokens / Kontext haben, die Sie wiederverwenden möchten, kann das Kontext-Caching dazu beitragen, die Kosten zu senken. die mit dem Stellen von Fragen zu diesen Informationen verbunden sind.

Wie erhalte ich Zugriff auf das Kontextfenster von 2 Millionen Tokens?

Alle Entwickler haben jetzt mit Gemini Zugriff auf das Kontextfenster mit 2 Millionen Tokens 1.5 Pro.

Wirkt sich die Kontextlänge auf die Modelllatenz aus?

Bei jeder Anfrage gibt es eine feste Latenz, Längere Abfragen haben jedoch in der Regel eine höhere Latenz (Zeit bis zum Token).

Unterscheiden sich die langen Kontextfunktionen von Gemini 1.5 Flash und Gemini 1.5 Pro?

Ja, einige der Zahlen wurden in anderen Abschnitten dieses Leitfadens erwähnt, aber In der Regel ist Gemini 1.5 Pro bei den meisten Anwendungsfällen mit langem Kontext leistungsfähiger.