Shumë modele Gemini vijnë me dritare të mëdha konteksti prej 1 milion ose më shumë tokenësh. Historikisht, modelet e mëdha gjuhësore (LLM) ishin të kufizuara ndjeshëm nga sasia e tekstit (ose tokenëve) që mund t'i kaloheshin modelit në të njëjtën kohë. Dritarja e gjatë e kontekstit Gemini zhbllokon shumë raste përdorimi dhe paradigma të reja zhvilluesish.
Kodi që përdorni tashmë për raste si gjenerimi i tekstit ose hyrjet multimodale do të funksionojë pa asnjë ndryshim me kontekst të gjatë.
Ky dokument ju jep një pasqyrë të përgjithshme të asaj që mund të arrini duke përdorur modele me dritare konteksti prej 1 milion e më shumë tokenësh. Faqja jep një pasqyrë të shkurtër të një dritareje konteksti dhe eksploron se si zhvilluesit duhet të mendojnë për kontekstin e gjatë, raste të ndryshme përdorimi në botën reale për kontekstin e gjatë dhe mënyra për të optimizuar përdorimin e kontekstit të gjatë.
Për madhësitë e dritares së kontekstit të modeleve specifike, shihni faqen Modelet .
Çfarë është një dritare konteksti?
Mënyra themelore për të përdorur modelet Gemini është duke i kaluar informacion (kontekst) modelit, i cili më pas do të gjenerojë një përgjigje. Një analogji për dritaren e kontekstit është memoria afatshkurtër. Ekziston një sasi e kufizuar informacioni që mund të ruhet në kujtesën afatshkurtër të dikujt, dhe e njëjta gjë vlen edhe për modelet gjeneruese.
Mund të lexoni më shumë rreth mënyrës se si funksionojnë modelet në udhëzuesin tonë të modeleve gjeneruese .
Fillimi me kontekst të gjatë
Versionet e mëparshme të modeleve gjeneruese ishin në gjendje të përpunonin vetëm 8,000 tokena në të njëjtën kohë. Modelet më të reja e çuan këtë më tej duke pranuar 32,000 ose edhe 128,000 tokena. Gemini është modeli i parë i aftë të pranojë 1 milion tokena.
Në praktikë, 1 milion tokena do të dukeshin kështu:
- 50,000 rreshta kodi (me 80 karaktere standarde për rresht)
- Të gjitha mesazhet që keni dërguar në 5 vitet e fundit
- 8 romane angleze me gjatësi mesatare
- Transkripte të mbi 200 episodeve të podkasteve me gjatësi mesatare
Dritaret e kontekstit më të kufizuara, të zakonshme në shumë modele të tjera, shpesh kërkojnë strategji si heqja arbitrare e mesazheve të vjetra, përmbledhja e përmbajtjes, përdorimi i RAG me bazat e të dhënave vektoriale ose filtrimi i kërkesave për të ruajtur tokenët.
Ndërsa këto teknika mbeten të vlefshme në skenarë specifikë, dritarja e gjerë e kontekstit e Gemini fton një qasje më të drejtpërdrejtë: ofrimin e të gjithë informacionit përkatës që në fillim. Meqenëse modelet Gemini u ndërtuan posaçërisht me aftësi masive kontekstuale, ato demonstrojnë të mësuarit e fuqishëm brenda kontekstit. Për shembull, duke përdorur vetëm materiale mësimore brenda kontekstit (një gramatikë referimi prej 500 faqesh, një fjalor dhe ≈400 fjali paralele), Gemini mësoi të përkthente nga anglishtja në Kalamang - një gjuhë papuane me më pak se 200 folës - me cilësi të ngjashme me një nxënës njerëzor që përdor të njëjtat materiale. Kjo ilustron ndryshimin e paradigmës të mundësuar nga konteksti i gjatë i Gemini, duke fuqizuar mundësi të reja përmes të mësuarit të fuqishëm brenda kontekstit.
Rastet e përdorimit të kontekstit të gjatë
Ndërsa rasti standard i përdorimit për shumicën e modeleve gjeneruese është ende futja e tekstit, familja e modeleve Gemini mundëson një paradigmë të re të rasteve të përdorimit multimodal. Këto modele mund të kuptojnë në mënyrë native tekstin, videon, audion dhe imazhet. Ato shoqërohen nga API-ja Gemini që merr lloje skedarësh multimodalë për lehtësi.
Tekst i gjatë
Teksti ka provuar të jetë shtresa e inteligjencës që mbështet pjesën më të madhe të momentit rreth LLM-ve. Siç u përmend më parë, shumica e kufizimeve praktike të LLM-ve ishin për shkak të mungesës së një dritareje konteksti mjaftueshëm të madhe për të kryer detyra të caktuara. Kjo çoi në miratimin e shpejtë të gjenerimit të shtuar të rikuperimit (RAG) dhe teknikave të tjera të cilat i ofrojnë modelit në mënyrë dinamike informacion kontekstual përkatës. Tani, me dritare konteksti gjithnjë e më të mëdha, po bëhen të disponueshme teknika të reja të cilat zhbllokojnë raste të reja përdorimi.
Disa raste përdorimi standarde dhe në zhvillim e sipër për kontekstin e gjatë të bazuar në tekst përfshijnë:
- Përmbledhja e korpuseve të mëdha të tekstit
- Opsionet e mëparshme të përmbledhjes me modele më të vogla konteksti do të kërkonin një dritare rrëshqitëse ose një teknikë tjetër për të ruajtur gjendjen e seksioneve të mëparshme ndërsa tokenët e rinj kalohen në model.
- Pyetje dhe përgjigje
- Historikisht kjo ishte e mundur vetëm me RAG, duke pasur parasysh sasinë e kufizuar të kontekstit dhe kujtesën faktike të modeleve që ishte e ulët.
- Flukset e punës së agjentëve
- Teksti është baza e mënyrës se si agjentët mbajnë informacion mbi atë që kanë bërë dhe çfarë duhet të bëjnë; mungesa e informacionit të mjaftueshëm rreth botës dhe qëllimit të agjentit është një kufizim në besueshmërinë e agjentëve.
Mësimi në kontekst me shumë skena është një nga aftësitë më unike të zhbllokuara nga modelet me kontekst të gjatë. Hulumtimet kanë treguar se marrja e paradigmës së zakonshme të shembullit "me një skenë të vetme" ose "me shumë skena", ku modeli paraqitet me një ose disa shembuj të një detyre, dhe shkallëzimi i saj deri në qindra, mijëra apo edhe qindra mijëra shembuj, mund të çojë në aftësi të reja modeli. Kjo qasje me shumë skena është treguar gjithashtu se funksionon në mënyrë të ngjashme me modelet që janë përshtatur për një detyrë specifike. Për rastet e përdorimit ku performanca e një modeli Gemini nuk është ende e mjaftueshme për një shpërndarje prodhimi, mund të provoni qasjen me shumë skena. Siç mund ta eksploroni më vonë në seksionin e optimizimit të kontekstit të gjatë, ruajtja në memorje e kontekstit e bën këtë lloj ngarkese pune me token të lartë hyrjeje shumë më të realizueshëm ekonomikisht dhe madje edhe më të ulët në disa raste.
Video e gjatë
Dobia e përmbajtjes video ka qenë prej kohësh e kufizuar nga mungesa e aksesueshmërisë së vetë mediumit. Ishte e vështirë të lexohej shkurt përmbajtja, transkriptet shpesh nuk arrinin të kapnin nuancën e një videoje dhe shumica e mjeteve nuk e përpunojnë së bashku imazhin, tekstin dhe audion. Me Gemini, aftësitë e tekstit me kontekst të gjatë përkthehen në aftësinë për të arsyetuar dhe për t'iu përgjigjur pyetjeve rreth të dhënave multimodale me performancë të qëndrueshme.
Disa raste përdorimi standarde dhe në zhvillim e sipër për kontekstin e gjatë të videos përfshijnë:
- Pyetje dhe përgjigje video
- Memoria video, siç tregohet me Projektin Astra të Google
- Titra videoje
- Sisteme rekomandimi video, duke pasuruar meta të dhënat ekzistuese me kuptim të ri multimodal
- Personalizimi i videos, duke parë një korpus të dhënash dhe meta të dhënash të shoqëruara me video dhe më pas duke hequr pjesë të videove që nuk janë relevante për shikuesin
- Moderimi i përmbajtjes së videos
- Përpunimi i videos në kohë reale
Kur punoni me video, është e rëndësishme të merrni në konsideratë se si përpunohen videot në tokena , gjë që ndikon në faturim dhe kufijtë e përdorimit. Mund të mësoni më shumë rreth nxitjes me skedarë video në udhëzuesin e nxitjes .
Audio në formë të gjatë
Modelet Gemini ishin modelet e para multimodale të gjuhës së madhe që mund të kuptonin audion. Historikisht, rrjedha tipike e punës së zhvilluesit do të përfshinte bashkimin e modeleve të shumëfishta specifike për domenin, si një model i të folurit në tekst dhe një model teksti në tekst, me qëllim përpunimin e audios. Kjo çoi në vonesë shtesë të kërkuar nga kryerja e kërkesave të shumëfishta vajtje-ardhje dhe ulje të performancës që zakonisht i atribuohet arkitekturave të shkëputura të konfigurimit të modeleve të shumëfishta.
Disa raste përdorimi standarde dhe në zhvillim e sipër për kontekstin audio përfshijnë:
- Transkriptim dhe përkthim në kohë reale
- Pyetje dhe përgjigje në podkast/video
- Transkriptimi dhe përmbledhja e takimit
- Asistentë zanorë
Mund të mësoni më shumë rreth nxitjes me skedarë audio në udhëzuesin e nxitjes .
Optimizime të kontekstit të gjatë
Optimizimi kryesor kur punohet me kontekst të gjatë dhe modelet Gemini është përdorimi i ruajtjes në memorje të kontekstit . Përtej pamundësisë së mëparshme të përpunimit të shumë tokenëve në një kërkesë të vetme, kufizimi tjetër kryesor ishte kostoja. Nëse keni një aplikacion "bisedë me të dhënat tuaja" ku një përdorues ngarkon 10 PDF, një video dhe disa dokumente pune, historikisht do të duhej të punonit me një mjet/kornizë më komplekse të gjenerimit të shtuar të rikuperimit (RAG) në mënyrë që të përpunoni këto kërkesa dhe të paguani një shumë të konsiderueshme për tokenët e zhvendosur në dritaren e kontekstit. Tani, mund të ruani në memorje skedarët që ngarkon përdoruesi dhe të paguani për t'i ruajtur ato në bazë ore. Kostoja e hyrjes/daljes për kërkesë me Gemini Flash për shembull është ~4 herë më pak se kostoja standarde e hyrjes/daljes, kështu që nëse përdoruesi bisedon mjaftueshëm me të dhënat e tij, kjo bëhet një kursim i madh kostoje për ju si zhvillues.
Kufizime të gjata të kontekstit
Në seksione të ndryshme të këtij udhëzuesi, folëm se si modelet Gemini arrijnë performancë të lartë në vlerësime të ndryshme të rikuperimit të gjilpërës në kashtë. Këto teste marrin në konsideratë konfigurimin më themelor, ku keni një gjilpërë të vetme që po kërkoni. Në rastet kur mund të keni shumë "gjilpëra" ose pjesë specifike informacioni që po kërkoni, modeli nuk funksionon me të njëjtën saktësi. Performanca mund të ndryshojë në një shkallë të gjerë në varësi të kontekstit. Kjo është e rëndësishme të merret në konsideratë pasi ekziston një kompromis i natyrshëm midis marrjes së informacionit të duhur dhe kostos. Mund të merrni ~99% në një pyetje të vetme, por duhet të paguani koston e tokenit të hyrjes çdo herë që dërgoni atë pyetje. Pra, që të merren 100 pjesë informacioni, nëse keni nevojë për 99% performancë, ka të ngjarë të duhet të dërgoni 100 kërkesa. Ky është një shembull i mirë se ku ruajtja në memorje e kontekstit mund të zvogëlojë ndjeshëm koston e lidhur me përdorimin e modeleve Gemini duke e mbajtur performancën të lartë.
Pyetje të shpeshta
Ku është vendi më i mirë për të vendosur pyetjen time në dritaren e kontekstit?
Në shumicën e rasteve, veçanërisht nëse konteksti i përgjithshëm është i gjatë, performanca e modelit do të jetë më e mirë nëse e vendosni pyetjen/kërkesën tuaj në fund të kërkesës (pas të gjithë kontekstit tjetër).
A humbas performancën e modelit kur shtoj më shumë tokena në një pyetje?
Në përgjithësi, nëse nuk keni nevojë që token-at t'i kalohen modelit, është më mirë të shmangni kalimin e tyre. Megjithatë, nëse keni një sasi të madhe token-ash me disa informacione dhe doni të bëni pyetje në lidhje me ato informacione, modeli është shumë i aftë të nxjerrë ato informacione (saktësi deri në 99% në shumë raste).
Si mund ta ul koston me pyetje me kontekst të gjatë?
Nëse keni një grup të ngjashëm tokenësh/konteksti që doni ta ripërdorni shumë herë, ruajtja në memorien e përkohshme e kontekstit mund të ndihmojë në uljen e kostove që lidhen me bërjen e pyetjeve në lidhje me atë informacion.
A ndikon gjatësia e kontekstit në vonesën e modelit?
Ekziston një sasi e caktuar latence në çdo kërkesë të caktuar, pavarësisht nga madhësia, por në përgjithësi pyetjet më të gjata do të kenë latencë më të lartë (koha deri te tokeni i parë).