Kjo faqe është përkthyer nga Cloud Translation API.

Konteksti i gjatë

Shumë modele Gemini vijnë me dritare të mëdha konteksti prej 1 milion ose më shumë argumentesh. Historikisht, modelet e mëdha të gjuhës (LLM) ishin të kufizuara ndjeshëm nga sasia e tekstit (ose shenjave) që mund t'i kalonin modelit në të njëjtën kohë. Dritarja e kontekstit të gjatë të Binjakëve zhbllokon shumë raste të reja përdorimi dhe paradigma zhvilluesish.

Kodi që përdorni tashmë për raste si gjenerimi i tekstit ose hyrjet multimodale do të funksionojë pa asnjë ndryshim me kontekst të gjatë.

Ky dokument ju jep një përmbledhje të asaj që mund të arrini duke përdorur modele me dritare konteksti prej 1M dhe më shumë shenja. Faqja jep një përmbledhje të shkurtër të një dritareje konteksti dhe eksploron se si zhvilluesit duhet të mendojnë për kontekstin e gjatë, raste të ndryshme të përdorimit të botës reale për kontekst të gjatë dhe mënyra për të optimizuar përdorimin e kontekstit të gjatë.

Për madhësitë e dritareve të kontekstit të modeleve specifike, shihni faqen Modelet .

Çfarë është një dritare konteksti?

Mënyra bazë për të përdorur modelet e Binjakëve është duke kaluar informacion (kontekst) tek modeli, i cili më pas do të gjenerojë një përgjigje. Një analogji për dritaren e kontekstit është kujtesa afatshkurtër. Ekziston një sasi e kufizuar informacioni që mund të ruhet në kujtesën afatshkurtër të dikujt, dhe e njëjta gjë është e vërtetë për modelet gjeneruese.

Mund të lexoni më shumë rreth mënyrës se si funksionojnë modelet nën kapuç në udhëzuesin tonë të modeleve gjeneruese .

Fillimi me kontekst të gjatë

Versionet e mëparshme të modeleve gjeneruese ishin në gjendje të përpunonin vetëm 8,000 argumente në të njëjtën kohë. Modelet më të reja e shtynë këtë më tej duke pranuar 32,000 apo edhe 128,000 argumente. Binjakët janë modeli i parë i aftë për të pranuar 1 milion argumente.

Në praktikë, 1 milion argumente do të dukeshin si:

50,000 rreshta kodi (me standardin 80 karaktere për rresht)
Të gjitha mesazhet me tekst që keni dërguar në 5 vitet e fundit
8 romane angleze me gjatësi mesatare
Transkriptet e mbi 200 episodeve të podkasteve me gjatësi mesatare

Dritaret e kontekstit më të kufizuar të zakonshëm në shumë modele të tjera shpesh kërkojnë strategji si heqja arbitrare e mesazheve të vjetra, përmbledhja e përmbajtjes, përdorimi i RAG me bazat e të dhënave vektoriale ose filtrimi i kërkesave për të ruajtur argumentet.

Ndërsa këto teknika mbeten të vlefshme në skenarë specifikë, dritarja e gjerë e kontekstit të Binjakëve fton një qasje më të drejtpërdrejtë: sigurimin e të gjithë informacionit përkatës përpara. Për shkak se modelet e Binjakëve u ndërtuan me qëllim me aftësi masive të kontekstit, ato demonstrojnë të mësuarit të fuqishëm në kontekst. Për shembull, duke përdorur vetëm materiale udhëzuese në kontekst (një gramatikë referimi me 500 faqe, një fjalor dhe ≈400 fjali paralele), Binjakët mësuan të përkthenin nga anglishtja në Kalamang - një gjuhë papuane me më pak se 200 folës - me cilësi të ngjashme me një nxënës njerëzor që përdor të njëjtat materiale. Kjo ilustron ndryshimin e paradigmës të mundësuar nga konteksti i gjatë i Binjakëve, duke fuqizuar mundësi të reja përmes të mësuarit të fortë në kontekst.

Rastet e përdorimit të kontekstit të gjatë

Ndërsa rasti standard i përdorimit për shumicën e modeleve gjeneruese është ende futja e tekstit, familja e modelit Gemini mundëson një paradigmë të re të rasteve të përdorimit multimodal. Këto modele mund të kuptojnë në mënyrë origjinale tekstin, videon, audion dhe imazhet. Ato shoqërohen nga Gemini API që pranon llojet e skedarëve multimodal për lehtësi.

Tekst i formës së gjatë

Teksti ka provuar të jetë shtresa e inteligjencës që mbështet pjesën më të madhe të momentit rreth LLM-ve. Siç u përmend më herët, pjesa më e madhe e kufizimeve praktike të LLM-ve ishte për shkak të mungesës së një dritareje konteksti mjaft të madh për të kryer detyra të caktuara. Kjo çoi në miratimin e shpejtë të gjenerimit të shtuar të rikthimit (RAG) dhe teknikave të tjera të cilat në mënyrë dinamike i japin modelit informacionin përkatës kontekstual. Tani, me dritare konteksti gjithnjë e më të mëdha, po bëhen të disponueshme teknika të reja që zhbllokojnë raste të reja përdorimi.

Disa raste përdorimi në zhvillim dhe standard për kontekstin e gjatë të bazuar në tekst përfshijnë:

Përmbledhja e korpuseve të mëdha të tekstit
- Opsionet e mëparshme të përmbledhjes me modele më të vogla të kontekstit do të kërkonin një dritare rrëshqitëse ose një teknikë tjetër për të mbajtur gjendjen e seksioneve të mëparshme ndërsa modelit i kalohen shenjat e reja
Pyetje dhe përgjigje
- Historikisht kjo ishte e mundur vetëm me RAG duke pasur parasysh sasinë e kufizuar të kontekstit dhe kujtesën faktike të modeleve që ishte e ulët
Rrjedhat e punës agjenturore
- Teksti është baza e mënyrës se si agjentët mbajnë gjendjen e asaj që kanë bërë dhe çfarë duhet të bëjnë; mospasja e informacionit të mjaftueshëm për botën dhe qëllimin e agjentit është një kufizim në besueshmërinë e agjentëve

Të mësuarit në kontekst me shumë poza është një nga aftësitë më unike të zhbllokuar nga modelet e kontekstit të gjatë. Hulumtimet kanë treguar se marrja e shembullit të paradigmës së zakonshme "të vetme" ose "me shumë goditje", ku modeli paraqitet me një ose disa shembuj të një detyre dhe shkallëzimi i tyre deri në qindra, mijëra apo edhe qindra mijëra shembuj, mund të çojë në aftësi të reja modeli. Kjo qasje e shumëfishta është treguar gjithashtu se funksionon në mënyrë të ngjashme me modelet që janë akorduar mirë për një detyrë specifike. Për rastet e përdorimit ku performanca e një modeli Gemini nuk është ende e mjaftueshme për një prezantim prodhimi, mund të provoni qasjen e shumëfishta. Siç mund të eksploroni më vonë në seksionin e optimizimit të kontekstit të gjatë, ruajtja në memorie e kontekstit e bën këtë lloj ngarkese të lartë të tokenit të hyrjes shumë më të realizueshme ekonomikisht dhe vonesë edhe më të ulët në disa raste.

Video në formë të gjatë

Përdorimi i përmbajtjes së videos ka qenë prej kohësh i kufizuar nga mungesa e aksesit të vetë mediumit. Ishte e vështirë të analizohej përmbajtja, transkriptet shpesh nuk arrinin të kapnin nuancën e një videoje dhe shumica e mjeteve nuk përpunojnë imazhin, tekstin dhe audion së bashku. Me Gemini, aftësitë e tekstit me kontekst të gjatë përkthehen në aftësinë për të arsyetuar dhe për t'iu përgjigjur pyetjeve rreth hyrjeve multimodale me performancë të qëndrueshme.

Disa raste të përdorimit në zhvillim dhe standarde për kontekstin e gjatë të videos përfshijnë:

Video pyetje dhe përgjigje
Kujtesa video, siç tregohet me Projektin Astra të Google
Titra e videos
Sistemet e rekomandimit të videove, duke pasuruar meta të dhënat ekzistuese me kuptim të ri multimodal
Personalizimi i videos, duke parë një korpus të dhënash dhe meta të dhëna video të lidhura dhe më pas duke hequr pjesë të videove që nuk janë të rëndësishme për shikuesin
Moderimi i përmbajtjes së videos
Përpunim video në kohë reale

Kur punoni me video, është e rëndësishme të merrni parasysh se si videot përpunohen në token , gjë që ndikon në kufijtë e faturimit dhe përdorimit. Ju mund të mësoni më shumë rreth kërkesave me skedarë video në udhëzuesin Prompting .

Audio në formë të gjatë

Modelet Gemini ishin modelet e para të gjuhëve të mëdha multimodale që mund të kuptonin audio. Historikisht, fluksi tipik i punës së zhvilluesve do të përfshinte bashkimin e modeleve të shumëfishta specifike të domenit, si një model fjalësh në tekst dhe një model tekst në tekst, në mënyrë që të përpunohet audio. Kjo çoi në vonesë shtesë të kërkuar nga kryerja e kërkesave të shumta vajtje-ardhje dhe ulje të performancës që zakonisht i atribuohet arkitekturave të shkëputura të konfigurimit të modelit të shumëfishtë.

Disa raste të përdorimit në zhvillim dhe standard për kontekstin audio përfshijnë:

Transkriptimi dhe përkthimi në kohë reale
Podcast / video pyetje dhe përgjigje
Transkriptimi dhe përmbledhja e takimit
Asistentët e zërit

Ju mund të mësoni më shumë rreth kërkesave me skedarë audio në udhëzuesin Prompting .

Optimizimet e kontekstit të gjatë

Optimizimi parësor kur punoni me kontekst të gjatë dhe modelet e Gemini është përdorimi i memorizimit të kontekstit . Përtej pamundësisë së mëparshme për të përpunuar shumë token në një kërkesë të vetme, kufizimi tjetër kryesor ishte kostoja. Nëse keni një aplikacion "chat me të dhënat tuaja" ku një përdorues ngarkon 10 PDF, një video dhe disa dokumente pune, historikisht do t'ju duhet të punoni me një mjet / kornizë më komplekse të gjenerimit të shtuar (RAG) në mënyrë që të përpunoni këto kërkesa dhe të paguani një shumë të konsiderueshme për argumentet e zhvendosur në dritaren e kontekstit. Tani, ju mund të ruani skedarët që ngarkon përdoruesi dhe të paguani për t'i ruajtur ato në bazë të orës. Kostoja e hyrjes/daljes për kërkesë me Gemini Flash për shembull është ~4x më e vogël se kostoja standarde e hyrjes/daljes, kështu që nëse përdoruesi bisedon mjaftueshëm me të dhënat e tij, bëhet një kursim i madh kostoje për ju si zhvillues.

Kufizimet e kontekstit të gjatë

Në seksione të ndryshme të këtij udhëzuesi, ne folëm për mënyrën se si modelet e Gemini arrijnë performancë të lartë në vlerësime të ndryshme të marrjes me gjilpërë në kashtë. Këto teste konsiderojnë konfigurimin më themelor, ku keni një gjilpërë të vetme që kërkoni. Në rastet kur mund të keni "gjilpëra" të shumta ose informacione specifike që kërkoni, modeli nuk funksionon me të njëjtën saktësi. Performanca mund të ndryshojë në një shkallë të gjerë në varësi të kontekstit. Kjo është e rëndësishme të merret në konsideratë pasi ekziston një shkëmbim i natyrshëm midis marrjes së informacionit të duhur dhe kostos. Ju mund të merrni ~ 99% në një pyetje të vetme, por duhet të paguani koston e kodit të hyrjes sa herë që dërgoni atë pyetje. Pra, që 100 pjesë të informacionit të merren, nëse keni nevojë për performancë 99%, ka të ngjarë të duhet të dërgoni 100 kërkesa. Ky është një shembull i mirë se ku ruajtja në memorie e kontekstit mund të zvogëlojë ndjeshëm koston që lidhet me përdorimin e modeleve Gemini duke e mbajtur performancën të lartë.

Pyetjet e shpeshta

Ku është vendi më i mirë për të vendosur pyetjen time në dritaren e kontekstit?

Në shumicën e rasteve, veçanërisht nëse konteksti total është i gjatë, performanca e modelit do të jetë më e mirë nëse vendosni pyetjen / pyetjen tuaj në fund të kërkesës (pas gjithë kontekstit tjetër).

A e humb performancën e modelit kur shtoj më shumë argumente në një pyetje?

Në përgjithësi, nëse nuk keni nevojë për t'i kaluar modelit, është mirë të shmangni kalimin e tyre. Sidoqoftë, nëse keni një pjesë të madhe të argumenteve me disa informacione dhe dëshironi të bëni pyetje në lidhje me atë informacion, modeli është shumë i aftë për ta nxjerrë atë informacion (deri në 99% saktësi në shumë raste).

Si mund ta ulë koston time me pyetje me kontekst të gjatë?

Nëse keni një grup të ngjashëm argumentesh/konteksti që dëshironi të ripërdorni shumë herë, ruajtja në memorie e kontekstit mund të ndihmojë në uljen e kostove që lidhen me pyetjet në lidhje me atë informacion.

A ndikon gjatësia e kontekstit në vonesën e modelit?

Ekziston një sasi fikse e vonesës në çdo kërkesë të caktuar, pavarësisht nga madhësia, por në përgjithësi pyetjet më të gjata do të kenë vonesë më të lartë (koha deri në shenjën e parë).