LiteRT की मदद से GenAI मॉडल डिप्लॉय करना

LiteRT, जनरेटिव एआई मॉडल को मोबाइल, डेस्कटॉप, और वेब प्लैटफ़ॉर्म पर बेहतर तरीके से डिप्लॉय करता है. LiteRT, सीपीयू, जीपीयू, और एनपीयू से हार्डवेयर ऐक्सेलरेटिंग का इस्तेमाल करता है. इससे, डिवाइस पर जेन एआई इन्फ़रेंस की परफ़ॉर्मेंस बेहतर होती है.

इन इंटिग्रेटेड टेक्नोलॉजी स्टैक का इस्तेमाल करके, जटिल GenAI मॉडल डिप्लॉय किए जा सकते हैं:

  • Torch Generative API: यह AI Edge Torch Library में मौजूद एक Python मॉड्यूल है. इसका इस्तेमाल PyTorch GenAI मॉडल बनाने और उन्हें बदलने के लिए किया जाता है. यह ऑप्टिमाइज़ किए गए बिल्डिंग ब्लॉक उपलब्ध कराता है. इससे यह पक्का होता है कि डिवाइसों पर बेहतर परफ़ॉर्मेंस मिले. ज़्यादा जानकारी के लिए, PyTorch GenAI मॉडल को बदलना लेख पढ़ें.

  • LiteRT-LM: यह एक खास ऑर्केस्ट्रेशन लेयर है, जिसे LiteRT के ऊपर बनाया गया है. इसका इस्तेमाल एलएलएम से जुड़ी मुश्किलों को मैनेज करने के लिए किया जाता है. जैसे, सेशन क्लोनिंग, केवी-कैश मैनेजमेंट, प्रॉम्प्ट कैशिंग/स्कोरिंग, और स्टेटफ़ुल इन्फ़रेंस. ज़्यादा जानकारी के लिए, LiteRT-LM GitHub repo देखें.

  • LiteRT कन्वर्टर और रनटाइम: यह बुनियादी इंजन है. यह मॉडल को कुशलता से कन्वर्ट करता है, रनटाइम को लागू करता है, और ऑप्टिमाइज़ करता है. साथ ही, यह सीपीयू, जीपीयू, और एनपीयू में बेहतर हार्डवेयर ऐक्सेलरेटर को बेहतर बनाता है.

LiteRT GenAI मॉडल ज़ू

LiteRT, LiteRT Hugging Face Community पर, लोकप्रिय ओपन-वेट मॉडल के बढ़ते कलेक्शन के साथ काम करता है. इन मॉडल को पहले से ही बदल दिया गया है और तुरंत डिप्लॉय करने के लिए ट्यून किया गया है. इससे आपको सीपीयू, जीपीयू, और एनपीयू पर बेहतर परफ़ॉर्मेंस का फ़ायदा मिलता है.

  • Gemma Family
    • Gemma 3 270M
    • Gemma 3 1B
    • Gemma 3n E2B/E4B
    • EmbeddingGemma 300M
    • Gemma 270M फ़ंक्शन
  • Qwen Family
  • Llama
  • Phi
  • SmoLM
  • FastVLM

चुनिंदा अहम जानकारी