पेश है Google AI Edge Portal: बड़े पैमाने पर एज एआई का बेंचमार्क. निजी झलक के दौरान ऐक्सेस का अनुरोध करने के लिए, साइन-अप करें.

वेब के लिए एलएलएम का अनुमान लगाने से जुड़ी गाइड

एलएलएम इन्फ़रेंस एपीआई की मदद से, वेब ऐप्लिकेशन के लिए लार्ज लैंग्वेज मॉडल (एलएलएम) को पूरी तरह से डिवाइस पर चलाया जा सकता है. इसका इस्तेमाल कई तरह के टास्क करने के लिए किया जा सकता है. जैसे, टेक्स्ट जनरेट करना, सामान्य भाषा में जानकारी पाना, और दस्तावेज़ों की खास जानकारी देना. इस टास्क में, टेक्स्ट से टेक्स्ट जनरेट करने वाले कई लार्ज लैंग्वेज मॉडल के लिए, पहले से मौजूद सहायता उपलब्ध है. इसलिए, अपने वेब ऐप्लिकेशन पर डिवाइस पर काम करने वाले जनरेटिव एआई मॉडल के नए वर्शन लागू किए जा सकते हैं. अगर Gemma-3n के नए मॉडल का इस्तेमाल किया जा रहा है, तो इमेज और ऑडियो इनपुट भी इस्तेमाल किए जा सकते हैं.

अपने वेब ऐप्लिकेशन में LLM Inference API को तुरंत जोड़ने के लिए, क्विकस्टार्ट का पालन करें. LLM Inference API चलाने वाले वेब ऐप्लिकेशन के बुनियादी उदाहरण के लिए, सैंपल ऐप्लिकेशन देखें. LLM Inference API के काम करने के तरीके के बारे में ज़्यादा जानकारी पाने के लिए, कॉन्फ़िगरेशन के विकल्प, मॉडल कन्वर्ज़न, और LoRA ट्यूनिंग सेक्शन देखें.

MediaPipe Studio के डेमो में, इस टास्क को काम करते हुए देखा जा सकता है. इस टास्क की सुविधाओं, मॉडल, और कॉन्फ़िगरेशन के विकल्पों के बारे में ज़्यादा जानने के लिए, खास जानकारी देखें.

क्विकस्टार्ट

अपने वेब ऐप्लिकेशन में LLM Inference API जोड़ने के लिए, यह तरीका अपनाएं. LLM Inference API के लिए, WebGPU के साथ काम करने वाला वेब ब्राउज़र ज़रूरी है. इसके साथ काम करने वाले ब्राउज़र की पूरी सूची देखने के लिए, जीपीयू के साथ काम करने वाले ब्राउज़र पर जाएं.

डिपेंडेंसी जोड़ें

LLM Inference API, @mediapipe/tasks-genai पैकेज का इस्तेमाल करता है.

लोकल स्टेजिंग के लिए ज़रूरी पैकेज इंस्टॉल करें:

npm install @mediapipe/tasks-genai

किसी सर्वर पर डिप्लॉय करने के लिए, कॉन्टेंट डिलीवरी नेटवर्क (सीडीएन) सेवा का इस्तेमाल करें. जैसे, jsDelivr. इससे कोड को सीधे अपने एचटीएमएल पेज में जोड़ा जा सकता है:

<head>
  <script src="https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai/genai_bundle.cjs"
    crossorigin="anonymous"></script>
</head>

मॉडल डाउनलोड करना

HuggingFace से Gemma-3n E4B या E2B डाउनलोड करें. जिन मॉडल के नाम में "-Web" होता है उन्हें खास तौर पर वेब पर इस्तेमाल करने के लिए बनाया जाता है. इसलिए, हमारा सुझाव है कि आप हमेशा इनमें से किसी एक मॉडल का इस्तेमाल करें.

उपलब्ध मॉडल के बारे में ज़्यादा जानने के लिए, मॉडल से जुड़ा दस्तावेज़ देखें. इसके अलावा, हमारे HuggingFace कम्यूनिटी पेज पर जाएं. यहां आपको हाल ही में रिलीज़ हुए Gemma 4 E2B और E4B के साथ-साथ, Gemma 3 के कई ऐसे वैरिएंट भी मिलेंगे जिनके बारे में दस्तावेज़ में नहीं बताया गया है. हालांकि, इन सभी को खास तौर पर वेब के लिए बनाया गया है. जैसे, 27 करोड़, 400 करोड़, 1200 करोड़, 2700 करोड़, और MedGemma-2700 करोड़-टेक्स्ट.

मॉडल को अपने प्रोजेक्ट डायरेक्ट्री में सेव करें:

<dev-project-root>/assets/gemma-3n-E4B-it-int4-Web.litertlm

baseOptions ऑब्जेक्ट modelAssetPath पैरामीटर का इस्तेमाल करके, मॉडल का पाथ तय करें:

baseOptions: { modelAssetPath: `/assets/gemma-3n-E4B-it-int4-Web.litertlm`}

टास्क शुरू करना

बुनियादी कॉन्फ़िगरेशन विकल्पों के साथ टास्क शुरू करें:

const genai = await FilesetResolver.forGenAiTasks(
    // path/to/wasm/root
    "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai@latest/wasm"
);
llmInference = await LlmInference.createFromOptions(genai, {
    baseOptions: {
        modelAssetPath: '/assets/gemma-3n-E4B-it-int4-Web.litertlm'
    },
    maxTokens: 1000,
    topK: 40,
    temperature: 0.8,
    randomSeed: 101
});

टास्क चलाना

अनुमानों को ट्रिगर करने के लिए, generateResponse() फ़ंक्शन का इस्तेमाल करें.

const response = await llmInference.generateResponse(inputPrompt);
document.getElementById('output').textContent = response;

जवाब को स्ट्रीम करने के लिए, इसका इस्तेमाल करें:

llmInference.generateResponse(
  inputPrompt,
  (partialResult, done) => {
        document.getElementById('output').textContent += partialResult;
});

मल्टीमॉडल प्रॉम्प्ट

Gemma-3n मॉडल के लिए, LLM Inference API के वेब एपीआई, मल्टीमॉडल प्रॉम्प्टिंग के साथ काम करते हैं. मल्टीमॉडल सुविधा चालू होने पर, उपयोगकर्ता अपने प्रॉम्प्ट में इमेज, ऑडियो, और टेक्स्ट को क्रम से जोड़ सकते हैं. इसके बाद, एलएलएम टेक्स्ट के रूप में जवाब देता है.

शुरू करने के लिए, MediaPipe और वेब के साथ काम करने वाले फ़ॉर्मैट में, Gemma-3n E4B या Gemma-3n E2B का इस्तेमाल करें. ज़्यादा जानकारी के लिए, Gemma-3n का दस्तावेज़ देखें.

देखने से जुड़ी सहायता चालू करने के लिए, पक्का करें कि maxNumImages को पॉज़िटिव वैल्यू पर सेट किया गया हो. इससे यह तय होता है कि एलएलएम, एक प्रॉम्प्ट में इमेज के ज़्यादा से ज़्यादा कितने हिस्सों को प्रोसेस कर सकता है.

ऑडियो की सुविधा चालू करने के लिए, पक्का करें कि supportAudio को true पर सेट किया गया हो.

llmInference = await LlmInference.createFromOptions(genai, {
    baseOptions: {
        modelAssetPath: '/assets/gemma-3n-E4B-it-int4-Web.litertlm'
    },
    maxTokens: 1000,
    topK: 40,
    temperature: 0.8,
    randomSeed: 101,
    maxNumImages: 5,
    supportAudio: true,
});

अब जवाब पहले की तरह जनरेट किए जा सकते हैं. हालांकि, इसके लिए स्ट्रिंग, इमेज, और ऑडियो डेटा के क्रम से लगे ऐरे का इस्तेमाल किया जाता है:

const response = await llmInference.generateResponse([
  '<start_of_turn>user\n',
  'Describe ',
  {imageSource: '/assets/test_image.png'},
  ' and then transcribe ',
  {audioSource: '/assets/test_audio.wav'},
  '<end_of_turn>\n<start_of_turn>model\n',
]);

विजन के लिए, इमेज के यूआरएल और सबसे आम इमेज, वीडियो या कैनवस ऑब्जेक्ट इस्तेमाल किए जा सकते हैं. ऑडियो के लिए, सिर्फ़ एक चैनल वाले AudioBuffer और मोनो-चैनल ऑडियो फ़ाइल के यूआरएल इस्तेमाल किए जा सकते हैं. ज़्यादा जानकारी के लिए, सोर्स कोड ब्राउज़ करें.

सैंपल ऐप्लिकेशन

यह सैंपल ऐप्लिकेशन, वेब के लिए बुनियादी टेक्स्ट जनरेशन ऐप्लिकेशन का एक उदाहरण है. इसमें LLM Inference API का इस्तेमाल किया गया है. इस ऐप्लिकेशन का इस्तेमाल, अपने वेब ऐप्लिकेशन को शुरू करने के लिए किया जा सकता है. इसके अलावा, मौजूदा ऐप्लिकेशन में बदलाव करते समय भी इसका इस्तेमाल किया जा सकता है. उदाहरण के तौर पर दिया गया कोड, GitHub पर होस्ट किया गया है.

नीचे दिए गए कमांड का इस्तेमाल करके, git रिपॉज़िटरी को क्लोन करें:

git clone https://github.com/google-ai-edge/mediapipe-samples

ज़्यादा जानकारी के लिए, वेब के लिए सेटअप गाइड देखें.

कॉन्फ़िगरेशन विकल्प

वेब ऐप्लिकेशन सेट अप करने के लिए, कॉन्फ़िगरेशन के इन विकल्पों का इस्तेमाल करें:

विकल्प का नाम	ब्यौरा	वैल्यू की सीमा	डिफ़ॉल्ट मान
`modelPath`	प्रोजेक्ट डायरेक्ट्री में मॉडल को सेव करने का पाथ.	पाथ	लागू नहीं
`maxTokens`	मॉडल, ज़्यादा से ज़्यादा इतने टोकन (इनपुट टोकन + आउटपुट टोकन) प्रोसेस कर सकता है.	पूर्णांक	512
`topK`	जनरेट करने के हर चरण में मॉडल कितने टोकन का इस्तेमाल करता है. अनुमानों को सबसे ज़्यादा संभावित k टोकन तक सीमित करता है.	पूर्णांक	40
`temperature`	जनरेट करने के दौरान, बिना किसी क्रम के जोड़े गए डेटा की मात्रा. ज़्यादा तापमान पर, जनरेट किए गए टेक्स्ट में ज़्यादा क्रिएटिविटी दिखती है. वहीं, कम तापमान पर, जनरेट किया गया टेक्स्ट ज़्यादा अनुमानित होता है.	फ़्लोट	0.8
`randomSeed`	टेक्स्ट जनरेट करने के दौरान इस्तेमाल किया गया रैंडम सीड.	पूर्णांक	0
`loraRanks`	LoRA मॉडल, रनटाइम के दौरान इस्तेमाल करने के लिए LoRA रैंक. ध्यान दें: यह सिर्फ़ GPU मॉडल के साथ काम करता है.	पूर्णांकों का कलेक्शन	लागू नहीं

मॉडल कन्वर्ज़न

LLM Inference API का इस्तेमाल इन मॉडल के साथ किया जा सकता है. इनमें से कुछ मॉडल के लिए, मॉडल कन्वर्ज़न की ज़रूरत होती है. अपने मॉडल के लिए ज़रूरी चरणों/तरीके की पहचान करने के लिए, इस टेबल का इस्तेमाल करें.

मॉडल	कन्वर्ज़न का तरीका	इन प्लैटफ़ॉर्म पर काम करता है	फ़ाइल टाइप
Gemma-3 1B	कन्वर्ज़न की ज़रूरत नहीं है	Android, वेब	.task
Gemma 2B, Gemma 7B, Gemma-2 2B	कन्वर्ज़न की ज़रूरत नहीं है	Android, iOS, वेब	.bin
Phi-2, StableLM, Falcon	MediaPipe कन्वर्ज़न स्क्रिप्ट	Android, iOS, वेब	.bin
PyTorch के सभी एलएलएम मॉडल	LiteRT Torch Generative लाइब्रेरी	Android, iOS	.task

अन्य मॉडल को बदलने का तरीका जानने के लिए, मॉडल कन्वर्ज़न सेक्शन देखें.

LoRA को पसंद के मुताबिक बनाना

एलएलएम इन्फ़्रेंस एपीआई, PEFT (पैरामीटर-इफ़िशिएंट फ़ाइन-ट्यूनिंग) लाइब्रेरी का इस्तेमाल करके, LoRA (लो-रैंक अडैप्टेशन) ट्यूनिंग के साथ काम करता है. LoRA ट्यूनिंग की मदद से, एलएलएम के व्यवहार को पसंद के मुताबिक बनाया जा सकता है. इसके लिए, ट्रेनिंग की कम लागत वाली प्रोसेस का इस्तेमाल किया जाता है. इससे ट्रेनिंग के लिए उपलब्ध वज़न का एक छोटा सेट तैयार होता है. यह सेट, पूरे मॉडल को फिर से ट्रेन करने के बजाय, नए ट्रेनिंग डेटा पर आधारित होता है.

LLM Inference API, Gemma-2 2B, Gemma 2B, और Phi-2 मॉडल की अटेंशन लेयर में LoRA वेट जोड़ने की सुविधा देता है. मॉडल को safetensors फ़ॉर्मैट में डाउनलोड करें.

LoRA वेट बनाने के लिए, बेस मॉडल safetensors फ़ॉर्मैट में होना चाहिए. LoRA ट्रेनिंग के बाद, मॉडल को MediaPipe पर चलाने के लिए, उन्हें FlatBuffers फ़ॉर्मैट में बदला जा सकता है.

LoRA वेट तैयार करना

PEFT की LoRA Methods गाइड का इस्तेमाल करके, अपने डेटासेट पर फ़ाइन-ट्यून किए गए LoRA मॉडल को ट्रेन करें.

LLM Inference API, सिर्फ़ ध्यान देने वाली लेयर पर LoRA के साथ काम करता है. इसलिए, LoraConfig में सिर्फ़ ध्यान देने वाली लेयर तय करें:

# For Gemma
from peft import LoraConfig
config = LoraConfig(
    r=LORA_RANK,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
)

# For Phi-2
config = LoraConfig(
    r=LORA_RANK,
    target_modules=["q_proj", "v_proj", "k_proj", "dense"],
)

तैयार किए गए डेटासेट पर ट्रेनिंग देने और मॉडल को सेव करने के बाद, फ़ाइन-ट्यून किए गए LoRA मॉडल के वेट, adapter_model.safetensors में उपलब्ध होते हैं. safetensors फ़ाइल, LoRA चेकपॉइंट है. इसका इस्तेमाल मॉडल कन्वर्ज़न के दौरान किया जाता है.

मॉडल कन्वर्ज़न

मॉडल के वज़न को Flatbuffer फ़ॉर्मैट में बदलने के लिए, MediaPipe Python पैकेज का इस्तेमाल करें. ConversionConfig, बेस मॉडल के विकल्पों के साथ-साथ LoRA के अतिरिक्त विकल्पों के बारे में बताता है.

import mediapipe as mp
from mediapipe.tasks.python.genai import converter

config = converter.ConversionConfig(
  # Other params related to base model
  ...
  # Must use gpu backend for LoRA conversion
  backend='gpu',
  # LoRA related params
  lora_ckpt=LORA_CKPT,
  lora_rank=LORA_RANK,
  lora_output_tflite_file=LORA_OUTPUT_FILE,
)

converter.convert_checkpoint(config)

कन्वर्टर, MediaPipe के साथ काम करने वाली दो फ़ाइलें बनाएगा. इनमें से एक फ़ाइल, बेस मॉडल के लिए होगी और दूसरी फ़ाइल, LoRA मॉडल के लिए होगी.

LoRA मॉडल इन्फ़रेंस

वेब, रनटाइम के दौरान डाइनैमिक LoRA का इस्तेमाल करता है. इसका मतलब है कि उपयोगकर्ता, LoRA रैंक का एलान इनिशियलाइज़ेशन के दौरान करते हैं. इसका मतलब है कि रनटाइम के दौरान, अलग-अलग LoRA मॉडल बदले जा सकते हैं.

const genai = await FilesetResolver.forGenAiTasks(
    // path/to/wasm/root
    "https://cdn.jsdelivr.net/npm/@mediapipe/tasks-genai@latest/wasm"
);
const llmInference = await LlmInference.createFromOptions(genai, {
    // options for the base model
    ...
    // LoRA ranks to be used by the LoRA models during runtime
    loraRanks: [4, 8, 16]
});

बेस मॉडल को शुरू करने के बाद, रनटाइम के दौरान LoRA मॉडल लोड करें. एलएलएम का जवाब जनरेट करते समय, मॉडल का रेफ़रंस पास करके LoRA मॉडल को ट्रिगर करें.

// Load several LoRA models. The returned LoRA model reference is used to specify
// which LoRA model to be used for inference.
loraModelRank4 = await llmInference.loadLoraModel(loraModelRank4Url);
loraModelRank8 = await llmInference.loadLoraModel(loraModelRank8Url);

// Specify LoRA model to be used during inference
llmInference.generateResponse(
  inputPrompt,
  loraModelRank4,
  (partialResult, done) => {
        document.getElementById('output').textContent += partialResult;
});