Gemini 2.0 Flash dhe Gemini 1.5 Flash vijnë me një dritare konteksti me 1 milion argumente dhe Gemini 1.5 Pro vjen me një dritare konteksti me 2 milion argumente. Historikisht, modelet e mëdha të gjuhës (LLM) ishin të kufizuara ndjeshëm nga sasia e tekstit (ose shenjave) që mund t'i kalonin modelit në të njëjtën kohë. Dritarja e gjatë e kontekstit Gemini 1.5, me rikthim pothuajse të përsosur (>99%) , zhbllokon shumë raste të reja përdorimi dhe paradigma zhvilluesish.
Kodi që përdorni tashmë për raste si gjenerimi i tekstit ose hyrjet multimodale do të funksionojë jashtë kutisë me kontekst të gjatë.
Përgjatë këtij udhëzuesi, ju eksploroni shkurtimisht bazat e dritares së kontekstit, se si zhvilluesit duhet të mendojnë për kontekstin e gjatë, raste të ndryshme të përdorimit të botës reale për kontekst të gjatë dhe mënyra për të optimizuar përdorimin e kontekstit të gjatë.
Çfarë është një dritare konteksti?
Mënyra bazë për të përdorur modelet e Binjakëve është duke kaluar informacion (kontekst) tek modeli, i cili më pas do të gjenerojë një përgjigje. Një analogji për dritaren e kontekstit është kujtesa afatshkurtër. Ekziston një sasi e kufizuar informacioni që mund të ruhet në kujtesën afatshkurtër të dikujt, dhe e njëjta gjë është e vërtetë për modelet gjeneruese.
Mund të lexoni më shumë rreth mënyrës se si funksionojnë modelet nën kapuç në udhëzuesin tonë të modeleve gjeneruese .
Fillimi me kontekst të gjatë
Shumica e modeleve gjeneruese të krijuara në vitet e fundit ishin në gjendje të përpunonin vetëm 8,000 token në të njëjtën kohë. Modelet më të reja e shtynë këtë më tej duke pranuar 32,000 argumente ose 128,000 token. Gemini 1.5 është modeli i parë i aftë për të pranuar 1 milion argumente, dhe tani 2 milion argumente me Gemini 1.5 Pro .
Në praktikë, 1 milion argumente do të dukeshin si:
- 50,000 rreshta kodi (me standardin 80 karaktere për rresht)
- Të gjitha mesazhet me tekst që keni dërguar në 5 vitet e fundit
- 8 romane angleze me gjatësi mesatare
- Transkriptet e mbi 200 episodeve të podkasteve me gjatësi mesatare
Edhe pse modelet mund të marrin gjithnjë e më shumë kontekst, shumë nga mençuria konvencionale për përdorimin e modeleve të mëdha gjuhësore supozon këtë kufizim të qenësishëm të modelit, i cili që nga viti 2024 nuk është më rasti.
Disa strategji të zakonshme për të trajtuar kufizimin e dritareve të vogla të kontekstit përfshijnë:
- Heqja arbitrare e mesazheve / tekstit të vjetër nga dritarja e kontekstit kur hyn teksti i ri
- Përmbledhja e përmbajtjes së mëparshme dhe zëvendësimi i saj me përmbledhjen kur dritarja e kontekstit i afrohet plotësimit
- Përdorimi i RAG me kërkimin semantik për të zhvendosur të dhënat nga dritarja e kontekstit dhe në një bazë të dhënash vektoriale
- Përdorimi i filtrave përcaktues ose gjenerues për të hequr disa tekste / karaktere nga kërkesat për të ruajtur argumentet
Ndërsa shumë prej tyre janë ende të rëndësishme në raste të caktuara, vendi i paracaktuar për të filluar tani është thjesht vendosja e të gjitha shenjave në dritaren e kontekstit. Për shkak se modelet e Binjakëve janë ndërtuar me qëllim me një dritare të gjatë konteksti, ata janë shumë më të aftë për të mësuar në kontekst. Për shembull, me vetëm materiale udhëzuese (një gramatikë referimi prej 500 faqesh, një fjalor dhe ≈ 400 fjali paralele shtesë) të gjitha të ofruara në kontekst, Gemini 1.5 Pro dhe Gemini 1.5 Flash janë në gjendje të mësojnë të përkthejnë nga anglishtja në Kalamang - një gjuhë papuane me më pak se 200 folës dhe për rrjedhojë nuk ka materiale të ngjashme me prezencën e një personi në internet.
Ky shembull nënvizon se si mund të filloni të mendoni për atë që është e mundur me kontekst të gjatë dhe aftësitë e të mësuarit brenda kontekstit të modeleve të Binjakëve.
Rastet e përdorimit të kontekstit të gjatë
Ndërsa rasti standard i përdorimit për shumicën e modeleve gjeneruese është ende futja e tekstit, familja e modeleve Gemini 1.5 mundëson një paradigmë të re të rasteve të përdorimit multimodal. Këto modele mund të kuptojnë në mënyrë origjinale tekstin, videon, audion dhe imazhet. Ato shoqërohen nga Gemini API që pranon llojet e skedarëve multimodal për lehtësi.
Tekst i formës së gjatë
Teksti ka provuar të jetë shtresa e inteligjencës që mbështet pjesën më të madhe të momentit rreth LLM-ve. Siç u përmend më herët, pjesa më e madhe e kufizimeve praktike të LLM-ve ishte për shkak të mungesës së një dritareje konteksti mjaft të madh për të kryer detyra të caktuara. Kjo çoi në miratimin e shpejtë të gjenerimit të shtuar të rikthimit (RAG) dhe teknikave të tjera të cilat në mënyrë dinamike i japin modelit informacionin përkatës kontekstual. Tani, me dritare konteksti gjithnjë e më të mëdha (aktualisht deri në 2 milionë në Gemini 1.5 Pro), ka teknika të reja duke u bërë të disponueshme që zhbllokojnë raste të reja përdorimi.
Disa raste përdorimi në zhvillim dhe standard për kontekstin e gjatë të bazuar në tekst përfshijnë:
- Përmbledhja e korpuseve të mëdha të tekstit
- Opsionet e mëparshme të përmbledhjes me modele më të vogla të kontekstit do të kërkonin një dritare rrëshqitëse ose një teknikë tjetër për të mbajtur gjendjen e seksioneve të mëparshme ndërsa modelit i kalohen shenjat e reja
- Pyetje dhe përgjigje
- Historikisht kjo ishte e mundur vetëm me RAG duke pasur parasysh sasinë e kufizuar të kontekstit dhe kujtesën faktike të modeleve që ishte e ulët
- Rrjedhat e punës agjenturore
- Teksti është baza e mënyrës se si agjentët mbajnë gjendjen e asaj që kanë bërë dhe çfarë duhet të bëjnë; mospasja e informacionit të mjaftueshëm për botën dhe qëllimin e agjentit është një kufizim në besueshmërinë e agjentëve
Të mësuarit në kontekst me shumë poza është një nga aftësitë më unike të zhbllokuar nga modelet e kontekstit të gjatë. Hulumtimet kanë treguar se marrja e shembullit të paradigmës së zakonshme "të vetme" ose "me shumë goditje", ku modeli paraqitet me një ose disa shembuj të një detyre dhe shkallëzimi i tyre deri në qindra, mijëra apo edhe qindra mijëra shembuj, mund të çojë në aftësi të reja modeli. Kjo qasje e shumëfishta është treguar gjithashtu se funksionon në mënyrë të ngjashme me modelet që janë akorduar mirë për një detyrë specifike. Për rastet e përdorimit ku performanca e një modeli Gemini nuk është ende e mjaftueshme për një prezantim prodhimi, mund të provoni qasjen e shumëfishta. Siç mund të eksploroni më vonë në seksionin e optimizimit të kontekstit të gjatë, ruajtja në memorie e kontekstit e bën këtë lloj ngarkese të lartë të tokenit të hyrjes shumë më të realizueshme ekonomikisht dhe vonesë edhe më të ulët në disa raste.
Video në formë të gjatë
Përdorimi i përmbajtjes së videos ka qenë prej kohësh i kufizuar nga mungesa e aksesit të vetë mediumit. Ishte e vështirë të analizohej përmbajtja, transkriptet shpesh nuk arrinin të kapnin nuancën e një videoje dhe shumica e mjeteve nuk përpunojnë imazhin, tekstin dhe audion së bashku. Me Gemini 1.5, aftësitë e tekstit me kontekst të gjatë përkthehen në aftësinë për të arsyetuar dhe për t'iu përgjigjur pyetjeve rreth hyrjeve multimodale me performancë të qëndrueshme. Gemini 1.5 Flash, kur u testua në gjilpërë në një problem me kashtë video me 1 milion argumente, mori >99,8% rikthim të videos në dritaren e kontekstit dhe 1.5 Pro arriti performancën më të mirë në standardin Video-MME .
Disa raste të përdorimit në zhvillim dhe standarde për kontekstin e gjatë të videos përfshijnë:
- Video pyetje dhe përgjigje
- Kujtesa video, siç tregohet me Projektin Astra të Google
- Titrat e videos
- Sistemet e rekomandimit të videove, duke pasuruar meta të dhënat ekzistuese me kuptim të ri multimodal
- Personalizimi i videos, duke parë një korpus të dhënash dhe meta të dhëna video të lidhura dhe më pas duke hequr pjesë të videove që nuk janë të rëndësishme për shikuesin
- Moderimi i përmbajtjes së videos
- Përpunim video në kohë reale
Kur punoni me video, është e rëndësishme të merrni parasysh se si videot përpunohen në token , gjë që ndikon në kufijtë e faturimit dhe përdorimit. Ju mund të mësoni më shumë rreth kërkesave me skedarë video në udhëzuesin Prompting .
Audio në formë të gjatë
Modelet Gemini 1.5 ishin modelet e para të gjuhëve të mëdha multimodale që mund të kuptonin audio. Historikisht, fluksi tipik i punës së zhvilluesve do të përfshinte bashkimin e modeleve të shumëfishta specifike të domenit, si një model fjalësh në tekst dhe një model tekst në tekst, në mënyrë që të përpunohet audio. Kjo çoi në vonesë shtesë të kërkuar nga kryerja e kërkesave të shumta vajtje-ardhje dhe ulje të performancës që zakonisht i atribuohet arkitekturave të shkëputura të konfigurimit të modelit të shumëfishtë.
Në vlerësimet standarde të kashtës audio, Gemini 1.5 Pro është në gjendje të gjejë audion e fshehur në 100% të testeve dhe Gemini 1.5 Flash është në gjendje ta gjejë atë në 98.7% të testeve . Gemini 1.5 Flash pranon deri në 9,5 orë audio në një kërkesë të vetme dhe Gemini 1.5 Pro mund të pranojë deri në 19 orë audio duke përdorur dritaren e kontekstit me 2 milionë shenja. Më tej, në një grup provë prej 15 minutash audioklipe, Gemini 1.5 Pro arkivon një shkallë gabimi fjalësh (WER) prej ~ 5,5%, shumë më e ulët se edhe modelet e specializuara të fjalës në tekst, pa kompleksitetin e shtuar të segmentimit shtesë të hyrjes dhe përpunimit paraprak.
Disa raste të përdorimit në zhvillim dhe standard për kontekstin audio përfshijnë:
- Transkriptimi dhe përkthimi në kohë reale
- Podcast / video pyetje dhe përgjigje
- Transkriptimi dhe përmbledhja e takimit
- Asistentët e zërit
Ju mund të mësoni më shumë rreth kërkesave me skedarë audio në udhëzuesin Prompting .
Optimizimi i kontekstit të gjatë
Optimizimi parësor kur punoni me kontekst të gjatë dhe modelet Gemini 1.5 është përdorimi i memorizimit të kontekstit . Përtej pamundësisë së mëparshme për të përpunuar shumë token në një kërkesë të vetme, kufizimi tjetër kryesor ishte kostoja. Nëse keni një aplikacion "chat me të dhënat tuaja" ku një përdorues ngarkon 10 PDF, një video dhe disa dokumente pune, historikisht do t'ju duhet të punoni me një mjet / kornizë më komplekse të gjenerimit të shtuar (RAG) në mënyrë që të përpunoni këto kërkesa dhe të paguani një shumë të konsiderueshme për argumentet e zhvendosur në dritaren e kontekstit. Tani, ju mund të ruani skedarët që ngarkon përdoruesi dhe të paguani për t'i ruajtur ato në bazë të orës. Kostoja e hyrjes/daljes për kërkesë me Gemini 1.5 Flash për shembull është ~ 4 herë më pak se kostoja standarde e hyrjes/daljes, kështu që nëse përdoruesi bisedon mjaftueshëm me të dhënat e tij, bëhet një kursim i madh kostoje për ju si zhvillues.
Kufizimet e kontekstit të gjatë
Në seksione të ndryshme të këtij udhëzuesi, ne folëm për mënyrën se si modelet Gemini 1.5 arrijnë performancë të lartë në vlerësime të ndryshme të marrjes me gjilpërë në kashtë. Këto teste konsiderojnë konfigurimin më themelor, ku keni një gjilpërë të vetme që kërkoni. Në rastet kur mund të keni "gjilpëra" të shumta ose informacione specifike që kërkoni, modeli nuk funksionon me të njëjtën saktësi. Performanca mund të ndryshojë në një shkallë të gjerë në varësi të kontekstit. Kjo është e rëndësishme të merret në konsideratë pasi ekziston një shkëmbim i natyrshëm midis marrjes së informacionit të duhur dhe kostos. Ju mund të merrni ~ 99% në një pyetje të vetme, por duhet të paguani koston e kodit të hyrjes sa herë që dërgoni atë pyetje. Pra, që 100 pjesë të informacionit të merren, nëse keni nevojë për performancë 99%, ka të ngjarë të duhet të dërgoni 100 kërkesa. Ky është një shembull i mirë se ku ruajtja në memorie e kontekstit mund të zvogëlojë ndjeshëm koston që lidhet me përdorimin e modeleve Gemini duke e mbajtur performancën të lartë.
Pyetjet e shpeshta
A e humb performancën e modelit kur shtoj më shumë argumente në një pyetje?
Në përgjithësi, nëse nuk keni nevojë për t'i kaluar modelit, është mirë të shmangni kalimin e tyre. Sidoqoftë, nëse keni një pjesë të madhe të argumenteve me disa informacione dhe dëshironi të bëni pyetje në lidhje me atë informacion, modeli është shumë i aftë për ta nxjerrë atë informacion (deri në 99% saktësi në shumë raste).
Si funksionon Gemini 1.5 Pro në testin standard të gjilpërës në kashtë?
Gemini 1.5 Pro arrin 100% tërheqje deri në 530 mijë argumente dhe >99,7% tërheqje deri në 1 milion argumente .
Si mund ta ulë koston time me pyetje me kontekst të gjatë?
Nëse keni një grup të ngjashëm argumentesh/konteksti që dëshironi të ripërdorni shumë herë, ruajtja në memorie e kontekstit mund të ndihmojë në uljen e kostove që lidhen me pyetjet në lidhje me atë informacion.
Si mund të kem akses në dritaren e kontekstit me 2 milionë shenja?
Të gjithë zhvilluesit tani kanë qasje në dritaren e kontekstit me 2 milionë argumente me Gemini 1.5 Pro.
A ndikon gjatësia e kontekstit në vonesën e modelit?
Ekziston një sasi fikse e vonesës në çdo kërkesë të caktuar, pavarësisht nga madhësia, por në përgjithësi pyetjet më të gjata do të kenë vonesë më të lartë (koha deri në shenjën e parë).
A ndryshojnë aftësitë e kontekstit të gjatë midis Gemini 1.5 Flash dhe Gemini 1.5 Pro?
Po, disa nga numrat u përmendën në seksione të ndryshme të këtij udhëzuesi, por në përgjithësi Gemini 1.5 Pro është më performues në shumicën e rasteve të përdorimit të kontekstit të gjatë.