Ekzekutoni gjenerimin dhe konkluzionet e përmbajtjes Gemma

Ka dy vendime kyçe për t'u marrë kur doni të ekzekutoni një model Gemma: 1) cilin variant të Gemma dëshironi të ekzekutoni dhe 2) cilin kuadër ekzekutimi të IA-së do të përdorni për ta ekzekutuar atë? Një çështje kyçe në marrjen e të dyja këtyre vendimeve ka të bëjë me atë se çfarë hardueri keni në dispozicion ju dhe përdoruesit tuaj për të ekzekutuar modelin.

Ky përmbledhje ju ndihmon të ndërmerrni këto vendime dhe të filloni të punoni me modelet Gemma. Hapat e përgjithshëm për të ekzekutuar një model Gemma janë si më poshtë:

Zgjidhni një kornizë

Modelet Gemma janë të pajtueshme me një gamë të gjerë mjetesh ekosistemi. Zgjedhja e mjetit të duhur varet nga hardueri juaj i disponueshëm (GPU-të në cloud kundrejt laptopit lokal) dhe preferenca juaj e ndërfaqes (kodi Python kundrejt aplikacionit për desktop).

Përdorni tabelën e mëposhtme për të identifikuar shpejt mjetin më të mirë për nevojat tuaja:

Nëse doni të... Korniza e Rekomanduar Më e mira për
Ekzekuto lokalisht me një ndërfaqe përdoruesi të bisedës - Studio LM
- Ollama
Fillestarët ose përdoruesit që duan një përvojë "si Binjakët" në laptopin e tyre.
Funksiononi në mënyrë efikase në Edge - Gemma.cpp
- LiteRT-LM
- llama.cpp
- API-ja e Inferencës së MediaPipe LLM
- MLX
Inferencë lokale me performancë të lartë me burime minimale.
Ndërto/Trajno në Python - Biblioteka Gemma për JAX
- Transformues me Fytyrë Përqafuese
- Keras
- PyTorch
- Pakujdesi
Studiues dhe zhvillues që ndërtojnë aplikacione të personalizuara ose përmirësojnë modele.
Vendos në Prodhim / Ndërmarrje - Motori Kubernetes i Google Cloud (GKE)
- Google Cloud Run (Run në Renë e Google)
- Vertex AI
- vLLM
Vendosje e shkallëzueshme dhe e menaxhuar në cloud me siguri të ndërmarrjes dhe mbështetje MLOps.

Detajet e Kornizës

Më poshtë janë udhëzues për ekzekutimin e modeleve Gemma të kategorizuara sipas mjedisit tuaj të vendosjes.

1. Inferenca Desktop & Lokale (Efikasitet i Lartë)

Këto mjete ju lejojnë të ekzekutoni Gemma në pajisje të konsumatorëve (laptop, desktop) duke përdorur formate të optimizuara (si GGUF) ose përshpejtues specifikë të pajisjeve.

  • LM Studio : Një aplikacion për desktop që ju lejon të shkarkoni dhe të bisedoni me modelet e Gemma-s në një ndërfaqe miqësore për përdoruesit. Nuk kërkohet kodim.
  • llama.cpp : Një port i njohur me burim të hapur C++ i Llama-s (dhe Gemma-s) që funksionon tepër shpejt në CPU dhe Apple Silicon.
  • LiteRT-LM : Ofron një ndërfaqe të linjës së komandës ( CLI ) për të ekzekutuar modele të optimizuara .litertlm Gemma në desktop (Windows, Linux, macOS), të mundësuar nga LiteRT (më parë TFLite).
  • MLX : Një strukturë e projektuar posaçërisht për të mësuarit automatik në Apple Silicon, perfekte për përdoruesit e Mac që duan performancë të integruar.
  • Gemma.cpp : Një motor i lehtë dhe i pavarur për nxjerrjen e përfundimeve në C++, posaçërisht nga Google.
  • Ollama : Një mjet për të ekzekutuar LLM-të e hapura në nivel lokal, i përdorur shpesh për të fuqizuar aplikacione të tjera.

2. Zhvillimi i Python (Kërkime dhe Përmirësime)

Korniza standarde për zhvilluesit e IA-së që ndërtojnë aplikacione, tubacione ose modele trajnimi.

  • Transformatorë me Fytyrë Përqafuese : Standardi i industrisë për qasje të shpejtë në modele dhe tubacione.
  • Unsloth : Një bibliotekë e optimizuar për rregullimin e imët të LLM-ve. Ju lejon të stërvitni modelet Gemma 2-5 herë më shpejt me dukshëm më pak memorie, duke e bërë të mundur rregullimin e imët në GPU-të e konsumatorit (p.sh., nivelet falas të Google Colab).
  • Keras / JAX / PyTorch : Biblioteka thelbësore për kërkime të të mësuarit të thellë dhe zbatim të arkitekturës së personalizuar.

3. Vendosja në celular dhe Edge (Në pajisje)

Kornizat e dizajnuara për të ekzekutuar LLM direkt në pajisjet e përdoruesit (Android, iOS, Web) pa lidhje interneti, shpesh duke përdorur NPU (Njësi Përpunimi Neural).

  • LiteRT-LM : Korniza plotësisht me burim të hapur për zhvillimin e LLM në pajisje që ofron performancë maksimale dhe kontroll të detajuar, me mbështetje të drejtpërdrejtë për përshpejtimin e CPU-së, GPU-së dhe NPU-së në Android dhe iOS.
  • API-ja e Inference për MediaPipe LLM : Mënyra më e lehtë për të integruar Gemma-n në aplikacione ndërplatformore. Ofron një API të nivelit të lartë që funksionon në Android, iOS dhe Ueb.

4. Vendosja në re dhe prodhim

Shërbime të menaxhuara për shkallëzimin e aplikacionit tuaj në mijëra përdorues ose për qasje në fuqi të madhe llogaritëse.

  • Vertex AI : Platforma e menaxhuar plotësisht e IA-së e Google Cloud. Më e mira për aplikacionet e ndërmarrjeve që kërkojnë SLA dhe shkallëzim.
  • Google Cloud Kubernetes Engine (GKE) : Për orkestrimin e klasterave tuaja të shërbimit.
  • vLLM : Një motor inference dhe shërbimi me rendiment të lartë dhe efikasitet të lartë në memorie, i përdorur shpesh në shpërndarjet në cloud.

Sigurohuni që formati i modelit Gemma të implementimit që synoni të bëni, siç është formati i integruar Keras, Safetensors ose GGUF, mbështetet nga kuadri që keni zgjedhur.

Zgjidh një variant të Gemma-s

Modelet Gemma janë të disponueshme në disa variante dhe madhësi, duke përfshirë modelet themelore ose thelbësore të Gemma, dhe variante më të specializuara të modelit si PaliGemma dhe DataGemma , dhe shumë variante të krijuara nga komuniteti i zhvilluesve të IA-së në faqe të tilla si Kaggle dhe Hugging Face . Nëse nuk jeni të sigurt se me cilin variant duhet të filloni, zgjidhni modelin më të fundit të Gemma me udhëzime thelbësore (IT) me numrin më të ulët të parametrave. Ky lloj modeli Gemma ka kërkesa të ulëta për llogaritje dhe është në gjendje t'i përgjigjet një larmie të gjerë kërkesash pa kërkuar zhvillim shtesë.

Konsideroni faktorët e mëposhtëm kur zgjidhni një variant Gemma:

  • Gemma core dhe familje të tjera variantesh si PaliGemma, CodeGemma : Rekomandohet Gemma (core). Variantet e Gemma përtej versionit core kanë të njëjtën arkitekturë si modeli core dhe janë të trajnuara për të performuar më mirë në detyra specifike. Nëse aplikacioni ose qëllimet tuaja nuk përputhen me specializimin e një varianti specifik të Gemma, është më mirë të filloni me një model core ose bazë të Gemma.
  • I përshtatur sipas udhëzimeve (IT), i paratrajnuar (PT), i përshtatur imët (FT), i përzier (përzierje) : Rekomandohet IT.
    • Variantet e Gemma-s të përshtatura sipas udhëzimeve (IT) janë modele që janë trajnuar për t'iu përgjigjur një sërë udhëzimesh ose kërkesash në gjuhën njerëzore. Këto variante modeli janë vendi më i mirë për të filluar sepse ato mund t'u përgjigjen kërkesave pa trajnim të mëtejshëm të modelit.
    • Variantet e para-trajnuara (PT) të Gemma janë modele që janë trajnuar për të nxjerrë përfundime rreth gjuhës ose të dhënave të tjera, por nuk janë trajnuar për të ndjekur udhëzimet njerëzore. Këto modele kërkojnë trajnim ose rregullim shtesë për të qenë në gjendje të kryejnë detyrat në mënyrë efektive dhe janë të destinuara për studiues ose zhvillues që duan të studiojnë ose zhvillojnë aftësitë e modelit dhe arkitekturës së tij.
    • Variantet e Gemma-s të rregulluara imët (FT) mund të konsiderohen variante të IT-së, por zakonisht trajnohen për të kryer një detyrë specifike ose performojnë mirë në një pikë referimi specifike të IA-së gjeneruese. Familja e varianteve PaliGemma përfshin një numër variantesh FT.
    • Variantet e përziera (të përziera) të Gemma-s janë versione të modeleve PaliGemma që janë akorduar sipas udhëzimeve me një sërë udhëzimesh dhe janë të përshtatshme për përdorim të përgjithshëm.
  • Parametrat : Rekomandohet numri më i vogël i disponueshëm . Në përgjithësi, sa më shumë parametra të ketë një model, aq më i aftë është. Megjithatë, ekzekutimi i modeleve më të mëdha kërkon burime llogaritëse më të mëdha dhe më komplekse, dhe në përgjithësi ngadalëson zhvillimin e një aplikacioni të inteligjencës artificiale. Nëse nuk keni përcaktuar tashmë se një model më i vogël Gemma nuk mund t'i plotësojë nevojat tuaja, zgjidhni një me një numër të vogël parametrash.
  • Nivelet e kuantizimit: Rekomandohet gjysmë precizioni (16-bit), përveç akordimit . Kuantizimi është një temë komplekse që reduktohet në madhësinë dhe precizionin e të dhënave, dhe rrjedhimisht sa memorie përdor një model gjenerues i IA-së për llogaritjet dhe gjenerimin e përgjigjeve. Pasi një model të trajnohet me të dhëna me precizion të lartë, të cilat zakonisht janë të dhëna me pikë lundruese 32-bit, modele si Gemma mund të modifikohen për të përdorur të dhëna me precizion më të ulët, siç janë madhësitë 16, 8 ose 4-bit. Këto modele të kuantizuara Gemma mund të funksionojnë ende mirë, varësisht nga kompleksiteti i detyrave, duke përdorur dukshëm më pak burime llogaritëse dhe memorieje. Megjithatë, mjetet për akordimin e modeleve të kuantizuara janë të kufizuara dhe mund të mos jenë të disponueshme brenda kornizës suaj të zgjedhur të zhvillimit të IA-së. Zakonisht, duhet të akordoni imët një model si Gemma me precizion të plotë, pastaj të kuantizoni modelin që rezulton.

Për një listë të modeleve kryesore të Gemma-s të publikuara nga Google, shihni " Fillimi me modelet Gemma" , lista e modeleve Gemma.

Ekzekutoni kërkesat e gjenerimit dhe nxjerrjes së përfundimeve

Pasi të keni zgjedhur një kornizë ekzekutimi të IA-së dhe një variant të Gemma-s, mund të filloni të ekzekutoni modelin dhe ta nxitni atë të gjenerojë përmbajtje ose të kryejë detyra. Për më shumë informacion se si të ekzekutoni Gemma-n me një kornizë specifike, shihni udhëzuesit e lidhur në seksionin Zgjidh një kornizë .

Formatimi i menjëhershëm

Të gjitha variantet e Gemma-s të akorduara sipas udhëzimeve kanë kërkesa specifike për formatimin e shpejtë të mesazheve. Disa nga këto kërkesa për formatim trajtohen automatikisht nga kuadri që përdorni për të ekzekutuar modelet Gemma, por kur dërgoni të dhëna të shpejtë direkt në një tokenizues, duhet të shtoni etiketa specifike dhe kërkesat e etiketimit mund të ndryshojnë në varësi të variantit Gemma që po përdorni. Shihni udhëzuesit e mëposhtëm për informacion mbi formatimin e shpejtë të variantit Gemma dhe udhëzimet e sistemit: