Gemini 1.5 Flash jest standardowo wyposażony w okno kontekstu składające się z 1 miliona tokenów oraz Gemini 1.5 Pro ma okno kontekstu złożone z 2 milionów tokenów. W przeszłości duże zainteresowanie modele językowe (LLM) były znacznie ograniczone ilością tekstu (lub tokeny), które mogą być przekazywane do modelu w danym momencie. Gemini 1.5 okno kontekstu z niemal idealnym pobieraniem (>99%), otwiera wiele nowych zastosowań i paradygmatów dla programistów.
Kod, którego już używasz w przypadkach takich jak text generacja lub multimodalna dane wejściowe będą działać od razu z długim kontekstem.
W tym przewodniku omawiamy pokrótce podstawowe informacje na temat okna kontekstu oraz tego, jak powinni brać pod uwagę długi kontekst, różne rzeczywiste zastosowania i sposobów na optymalizację użycia tego typu treści.
Co to jest okno kontekstu?
Podstawowym sposobem korzystania z modeli Gemini 1.5 jest przekazywanie informacji (kontekstu) co generuje odpowiedź. Analogią do okno kontekstu jest pamięcią krótkotrwałą. Ilość informacji jest ograniczona które mogą być przechowywane w czyjejś pamięci krótkotrwałej. To samo dotyczy modeli generatywnych.
Więcej informacji na temat działania modeli znajdziesz w opisie modeli generatywnych .
Pierwsze kroki z długim kontekstem
Większość modeli generatywnych utworzonych w ciągu ostatnich kilku lat zdołała tylko 8000 tokenów jednocześnie. Nowsze modele posuwają się do przodu, ponieważ akceptują 32 tys. lub 128 tys. tokenów. Gemini 1.5 to pierwszy model, który może obsługa 1 miliona tokenów, a teraz 2 miliony tokenów w Gemini 1.5 Pro.
W praktyce 1 milion tokenów wyglądałby tak:
- 50 000 wierszy kodu (po 80 znaków na wiersz);
- Wszystkie SMS-y wysłane w ciągu ostatnich 5 lat
- 8 powieści angielskiej średniej długości
- transkrypcje ponad 200 odcinków podcastu o średniej długości;
Chociaż modele mogą uwzględniać coraz większy kontekst, a konwencjonalna mądrość korzystania z dużych modeli językowych zakłada, że nieodłącznie jego ograniczenia, co od 2024 roku już nie obowiązuje.
Niektóre typowe strategie radzenia sobie z ograniczeniami dotyczącymi małych okien kontekstu uwzględniono:
- arbitralne odrzucanie starych wiadomości lub starych wiadomości z okna kontekstu jako nowego tekstu; wchodzi
- Podsumowywanie poprzednich treści i zastępowanie ich podsumowaniem, gdy okno kontekstu zbliża się do wyczerpania
- Użycie funkcji RAG z wyszukiwaniem semantycznym w celu przeniesienia danych z okna kontekstu oraz do wektorowej bazy danych,
- Używanie filtrów deterministycznych lub generatywnych w celu usunięcia określonego tekstu / znaków z promptów pozwalających zapisać tokeny
Choć wiele z nich ma zastosowanie w niektórych przypadkach, domyślnym miejscem, Teraz wystarczy umieścić wszystkie tokeny w oknie kontekstu. Ponieważ Modele Gemini 1.5 zostały opracowane z myślą o długim oknie kontekstu. i uczą się w kontekście. Na przykład tylko instrukcje materiały (gramatyka referencyjna obejmująca 500 stron, słownik i 400 dodatkowych materiałów równoległych) zdania) podane w kontekście, Gemini 1.5 Pro i Gemini 1.5 Flash są zdolności do nauki tłumaczenia z angielskiego na kalamang – język papuaski, w którym mówi mniej niż 200 osób więc niemal brak obecności w internecie – o jakości podobnej do tej, która nauczyła się czegoś nowego z tych samych materiałów.
Ten przykład pokazuje, jak zacząć myśleć o możliwościach i możliwości uczenia się w kontekście zapewnianym przez Gemini 1.5.
Przypadki użycia długiego kontekstu
Standardowym zastosowaniem większości modeli generatywnych jest wpisywanie tekstu, Rodzina modeli Gemini 1.5 zapewnia nowy model multimodalnych przypadków użycia. Te modele mogą natywnie rozumieć tekst, film, dźwięk i obrazy. Są wraz z interfejsem Gemini API, który pobiera plik multimodalny, w przypadku i zwiększa wygodę.
Długi tekst
Tekst okazał się warstwą wiedzy stanowiącej podstawę wokół LLM. Jak już wspomnieliśmy, duża część praktycznych ograniczeń Okazało się, że duże okno kontekstu nie było możliwe do uzyskania zadania. Doprowadziło to do szybkiego wdrożenia generowania rozszerzonego przez wyszukiwanie w zapisanych informacjach (RAG) oraz inne techniki, które dynamicznie dostarczają modelowi odpowiednie informacji kontekstowych. W przypadku większych i większych okien kontekstowych (obecnie do 2 milionów użytkowników w Gemini 1.5 Pro), pojawiają się nowe techniki które pozwalają odblokować nowe przypadki użycia.
Oto niektóre nowe i standardowe przypadki użycia długiego kontekstu opartego na tekście:
- Podsumowywanie dużych korpusów tekstu
- Poprzednie opcje podsumowania z mniejszymi modelami kontekstowymi wymagałyby przesuwne okno lub inna metoda zachowania stanu poprzednich sekcji w miarę przekazywania nowych tokenów do modelu
- Pytanie i odpowiadanie
- Wcześniej było to możliwe tylko w przypadku RAG ze względu na ograniczoną liczbę kontekstu i modeli mała czułość merytoryczna
- Agenty przepływów pracy
- Tekst stanowi podstawę tego, jak pracownicy obsługi klienta przekazują informacje o tym, co zrobili i co muszą zrobić. za mało informacji o świecie a celem agenta jest ograniczenie niezawodności agentów
Nauka w wielu ujęciach to jedna z wyjątkowe możliwości dostępne dzięki długim modelom kontekstowym. Badania wykazały, że spojrzenie na jedną strategię lub „multi-shot” paradygmat, według którego model przedstawia 1 lub kilka przykładów zadania i skaluje je w górę setki, tysiące, a nawet setki tysięcy przykładów mogą prowadzić nowatorskich modeli. Metoda ta sprawdza się też doskonale podobnie jak modele dostrojone do konkretnego zadania. Zastosowania w których wydajność modelu Gemini nie jest jeszcze wystarczająca do wdrożenia możesz wypróbować podejście „wielo-shot”, Być może omówimy to w dalszej części długiej sekcji optymalizacji kontekstu, buforowanie kontekstowe zapewnia tego rodzaju dużą ilość danych wejściowych, z użyciem tokena dużo bardziej ekonomicznie i jeszcze mniejsze opóźnienia przypadków.
Długi film
Przydatność treści wideo jest od dawna ograniczona przez brak ułatwień dostępu. samego medium. Przeglądanie treści było trudne, a transkrypcje często kończyły się niepowodzeniem pozwala uchwycić niuanse filmu i większość narzędzi nie przetwarza obrazów, tekstu ani dźwięk w jednym miejscu. Gemini 1.5 umożliwia tworzenie długiego kontekstu zdolność wyciągania wniosków i udzielania odpowiedzi na pytania dotyczące multimodalnych danych wejściowych utrwalenie wyników. Gemini 1.5 Flash (testowany na igły podczas filmu). stogu siana z 1 mln tokenów, osiągnięto rozpoznawalność filmu na poziomie >99,8% w oknie kontekstu, a telefon 1.5 Pro osiągnął obecny stan Test porównawczy wideo i MME.
Oto niektóre nowe i standardowe przypadki użycia długiego kontekstu filmów:
- Pytania i odpowiedzi dotyczące filmu
- Pamięć wideo widoczna w projekcie Google Project Astra.
- Napisy do filmów
- systemów rekomendacji filmów przez wzbogacanie istniejących metadanych o nowe zrozumienie multimodalne
- Dostosowywanie filmu przez sprawdzenie korpusu danych i powiązanego filmu a potem usuwać te fragmenty, które są nieistotne dla wyświetlający
- Moderowanie treści wideo
- Przetwarzanie wideo w czasie rzeczywistym
Podczas pracy z filmami warto zastanowić się, jak są one i przekształcanie w tokeny, co ma wpływ płatności i wykorzystania. Więcej informacji o promptach za pomocą plików wideo znajdziesz w artykule Prompt .
Długie treści audio
Modele Gemini 1.5 były pierwszymi natywnie multimodalnymi dużymi modelami językowymi który potrafi zrozumieć dźwięk. W przeszłości typowy przepływ pracy programisty obejmować połączenie wielu modeli charakterystycznych dla danej domeny, takich jak z modelu zamiany mowy na tekst oraz zamiany tekstu na tekst. Ten doprowadziło do dodatkowego opóźnienia związanego z wykonaniem wielu żądań w obie strony i spadek wydajności przypisywany zwykle niepowiązanym architekturze konfiguracji wielu modeli.
Podczas standardowej oceny stosu dźwięku Gemini 1.5 Pro jest w stanie znaleźć ukryty dźwięk w 100% testów, a Gemini 1.5 Flash jest w stanie go znaleźć 98,7% Gemini 1.5 Flash akceptuje do 9,5 godziny dźwięku w pojedynczym dźwięku i Gemini 1.5 Pro obsługuje do 19 godzin dźwięku przy użyciu 2 milionów tokenów okna kontekstu. Ponadto w testowym zestawie 15-minutowych klipów audio Gemini 1.5 Pro archiwizuje wskaźnik błędów słów (WER) na poziomie ok.5,5%, czyli znacznie niższy niż nawet specjalistyczne modeli zamiany mowy na tekst bez dodatkowej złożoności dodatkowej segmentacji danych wejściowych i wstępnego przetwarzania.
Oto niektóre nowe i standardowe przypadki użycia kontekstu audio:
- Transkrypcja i tłumaczenie w czasie rzeczywistym
- Pytanie i udzielanie odpowiedzi na temat podcastu lub filmu
- Transkrypcja i podsumowanie spotkania
- Asystenci głosowi
Więcej informacji o promptach przy użyciu plików dźwiękowych znajdziesz w sekcji Prośby o zgodę na wykorzystanie danych .
Optymalizacje uwzględniające długi kontekst
Główna optymalizacja w przypadku pracy z długim kontekstem i Gemini 1.5 jest używanie kontekstu buforowanie. Więcej niż poprzednia wersja że nie można przetworzyć wielu tokenów w jednym żądaniu. Drugi główny jest koszt. Jeśli masz „czat z Twoimi danymi” aplikacja, w której użytkownik przesyła 10 plików PDF, film i kilka dokumentów roboczych, do pracy z bardziej złożonym narzędziem RAG (Retrieval Mode) / które pozwalają na obsługę takich żądań i przekazanie znacznej kwoty tokeny zostały przeniesione do okna kontekstu. Teraz można buforować pliki użytkownika przesyłać i płacić za ich przechowywanie według stawki godzinowej. Koszt wejścia / wyjścia wyślij prośbę do Gemini 1.5 Flash jest na przykład ok. 4-krotnie niższy niż standardowy koszt wejścia / wyjścia, jeśli więc że użytkownicy wystarczająco często rozmawiają na czacie z danymi, jest to dla Ciebie olbrzymia oszczędność z deweloperem.
Ograniczenia związane z długim kontekstem
W różnych sekcjach tego przewodnika mówiliśmy o tym, jak modele Gemini 1.5 osiągają wysokiej wydajności w różnych ocenach pobierania plików w ramach procesu „igła w stogu siana”. Te które są najbardziej podstawowe – wystarczy 1 igła czego szukają. Gdy masz kilka „igli” lub określonych elementów informacji, których szukasz, model nie radzi sobie z takim samym dokładności. Skuteczność może się w dużym stopniu różnić w zależności od kontekstu. Ten jest ważny, ponieważ istnieje naturalny kompromis pobrać odpowiednie informacje i ich koszt. W jednym zapytaniu możesz uzyskać ok. 99%, musisz płacić za każde wysyłanie tego zapytania koszt tokena wejściowego. Na 100 jeśli potrzebna jest wydajność na poziomie 99%, prawdopodobnie będą musieli wysłać 100 próśb. To dobry przykład sytuacji, w których kontekst buforowanie może znacznie obniżyć koszty związane z używaniem modeli Gemini przy zachowaniu wysokiej skuteczności.
Najczęstsze pytania
Czy tracę wydajność modelu, gdy dodam więcej tokenów do zapytania?
Ogólnie, jeśli nie potrzebujesz tokenów przekazywania tokenów do modelu, najlepiej jest i unikaj ich przekazywania. Jeśli jednak masz dużą liczbę tokenów z i chcesz o nie pytać, model potrafią wyciągnąć te informacje (do 99% dokładności w wielu przypadków).
Jak Gemini 1.5 Pro radzi sobie w standardowym teście funkcji „igła w stogu siana”?
Gemini 1.5 Pro czułość w 100% umożliwia czułość do 530 tys.tokenów i ponad 99,7% czułości do 1 mln tokeny.
Jak mogę obniżyć koszty w przypadku zapytań o długim kontekście?
Jeśli masz podobny zestaw tokenów lub kontekst, który chcesz wykorzystać ponownie buforowanie kontekstowe może pomóc obniżyć koszty związane z zadawaniem pytań o te informacje.
Jak mogę uzyskać dostęp do okna kontekstu składającego się z 2 milionów tokenów?
Wszyscy deweloperzy mają teraz dostęp do okna kontekstu składającego się z 2 milionów tokenów w Gemini 1.5 Pro.
Czy długość kontekstu wpływa na czas oczekiwania modelu?
Każde żądanie ma stały czas oczekiwania, niezależnie od ale zwykle dłuższe zapytania mają większe opóźnienie (czas ).
Czy możliwości związane z długim kontekstem różnią się w Gemini 1.5 Flash i Gemini 1.5 Pro?
Tak. Niektóre liczby były wymienione w innych sekcjach tego przewodnika, ale ogólnie Gemini 1.5 Pro działa lepiej w większości długich kontekstów.