LiteRT Torch Generative API হলো একটি উচ্চ-ক্ষমতাসম্পন্ন লাইব্রেরি, যা ট্রান্সফরমার-ভিত্তিক PyTorch মডেল তৈরি এবং LiteRT/LiteRT-LM ফরম্যাটে রূপান্তর করার জন্য ডিজাইন করা হয়েছে। এটি ডেভেলপারদের জেনারেটিভ এআই মডেল, বিশেষত লার্জ ল্যাঙ্গুয়েজ মডেল (LLM), ডিভাইসে সহজে ও নির্বিঘ্নে স্থাপন করতে সক্ষম করে।
টর্চ জেনারেটিভ এপিআই সিপিইউ, জিপিইউ এবং এনপিইউ-এর জন্য মডেল রূপান্তর সমর্থন করে। টর্চ জেনারেটিভ এপিআই-কে LiteRT-LM- এর সাথে যুক্ত করে, আপনি রেসপন্সিভ ও প্রাইভেসি-কেন্দ্রিক অ্যাপ্লিকেশন তৈরি করতে পারেন, যা জেনারেটিভ মডেলগুলোকে সম্পূর্ণরূপে ডিভাইসেই চালায়।
হাগিং ফেস ট্রান্সফরমার লাইব্রেরি থেকে রূপান্তর করুন
LiteRT Torch Hugging Face Export এক্সটেনশনটি জেনারেটিভ এআই মডেলগুলোকে সরাসরি Hugging Face Transformers Library থেকে LiteRT-LM ফরম্যাটে রূপান্তর করার জন্য একটি সুবিন্যস্ত পথ প্রদান করে। LiteRT Torch Generative API- এর তুলনায়, যা আপনাকে কাস্টম মডেল তৈরি ও অপ্টিমাইজ করার জন্য পাইটর্চ বিল্ডিং ব্লক সরবরাহ করে, এই টুলটি একটি একক ওয়ার্কফ্লোতে ওয়েট ডাউনলোড করা, পাইটর্চ মডেল আর্কিটেকচার অনুবাদ করা এবং গ্রাফ অপ্টিমাইজেশন ও কোয়ান্টাইজেশনের মতো অপ্টিমাইজেশন কৌশল প্রয়োগ করার মতো জটিল বিষয়গুলো পরিচালনা করে। এটি একটি .litertlm ফাইল আউটপুট করে, যা LiteRT-LM রানটাইম ব্যবহার করে CPU, GPU এবং NPU-তে অন-ডিভাইস ইনফারেন্সের জন্য অপ্টিমাইজ করা থাকে।
পূর্বশর্ত
এক্সপোর্ট এক্সটেনশনটি ব্যবহার করার আগে, নিশ্চিত করুন যে আপনার নিম্নলিখিত সেটআপটি রয়েছে:
- LiteRT Torch পাইথন প্যাকেজটি ইনস্টল করুন। Hugging Face Export এক্সটেনশনটি সরাসরি
litert-torchপ্যাকেজের মধ্যে অন্তর্নির্মিত রয়েছে। - (ঐচ্ছিক) NPU কম্পাইলেশনের জন্য,
pip install ai-edge-litert[npu-sdk]ব্যবহার করে LiteRT NPU SDK এক্সটেনশনগুলো ইনস্টল করুন। আরও বিস্তারিত জানতে, আপনি LiteRT NPU AOT Compilation Colab অনুসরণ করতে পারেন। - আপনি যদি সরাসরি হাগিং ফেস হাব থেকে লোড করতে চান, তাহলে হাগিং ফেস এনভায়রনমেন্ট সেট আপ করা আছে। export_hf টুলটি
HF_TOKENবা CLI-এর মতো স্ট্যান্ডার্ড ট্রান্সফর্মার অথেনটিকেশন মেকানিজম ব্যবহার করে। উদাহরণ দেখুন:
গেটেড মডেল (যেমন জেমা বা লামা) ডাউনলোড করতে হলে, আপনাকে অবশ্যই CLI অথবা একটি এনভায়রনমেন্ট ভেরিয়েবল ব্যবহার করে হাগিং ফেস-এর সাথে প্রমাণীকরণ করতে হবে:
# Set your Hugging Face token as an environment variable
export HF_TOKEN="your_hugging_face_token"
# Or use the Hugging Face CLI login
hf auth login
মৌলিক ব্যবহার
আপনি কমান্ড লাইন অথবা পাইথন এপিআই ব্যবহার করে export_hf ব্যবহার করতে পারেন। টুলটি স্বয়ংক্রিয়ভাবে Hugging Face থেকে মডেলটি ডাউনলোড করবে অথবা প্রদত্ত লোকাল পাথ থেকে মডেলটি লোড করবে, সেটিকে ট্রেস করবে, ডিফল্ট অপটিমাইজেশন প্রয়োগ করবে এবং এটিকে সিপিইউ ও জিপিইউ ইনফারেন্সের জন্য উপযুক্ত একটি .litertlm ফাইলে রূপান্তর করবে।
কমান্ড লাইন ইন্টারফেস (CLI)
litert-torch export_hf কমান্ডটি ব্যবহার করুন। আপনাকে Hugging Face মডেল আইডি এবং নির্বাচিত আউটপুট ডিরেক্টরি প্রদান করতে হবে।
litert-torch export_hf \
--model=google/gemma-3-270m-it \
--output_dir=/tmp/gemma3-270m-it-litertlm
স্থানীয় বা কাস্টম মডেল এক্সপোর্ট করার জন্য, আপনি সেফটেনসর চেকপয়েন্টের পাথটিও পাস করতে পারেন:
litert-torch export_hf \
--model=/path/to/safetensor/dir \
--output_dir=/my_custom_litertlm
পাইথন এপিআই
পাইথন স্ক্রিপ্ট বা নোটবুকে অন্তর্ভুক্ত করার জন্য, litert_torch.generative.export_hf থেকে export মডিউলটি ইম্পোর্ট করুন।
from litert_torch.generative.export_hf import export
export.export(
model='google/gemma-3-270m-it',
output_dir='/tmp/gemma3-270m-it-litertlm',
)
LiteRT-LM ব্যবহার করে ডিভাইসে স্থাপন
একবার আপনি সফলভাবে আপনার মডেলটি একটি .litertlm ফাইলে এক্সপোর্ট করে ফেললে, আপনি CPU এবং GPU উভয় ক্ষেত্রেই উচ্চ-পারফরম্যান্স এক্সিকিউশনের জন্য LiteRT-LM ব্যবহার করে এটিকে সরাসরি ডিভাইসে ডেপ্লয় করতে পারেন। LiteRT-LM API কীভাবে ব্যবহার করবেন সে সম্পর্কে বিস্তারিত দেখুন। NPU অ্যাক্সিলারেশনের জন্য, NPU AOT কম্পাইলেশন গাইডটি দেখুন।
সমর্থিত স্থাপত্য
export_hf টুলটি নিম্নলিখিত Transformers মডেল আর্কিটেকচারগুলো যাচাই করে। config.json এর model_type ফিল্ডটি পরীক্ষা করে এটি যাচাই করা যেতে পারে।
- জেমা ৩ (
Gemma3ForCausalLM) - Gemma 3n (
Gemma3nForCausalLM) - জেমা ৪ (
Gemma4ForCausalLM) - লামা (
LlamaForCausalLM) - মিস্ট্রাল (
MistralForCausalLM) - Qwen 2/2.5 (
Qwen2ForCausalLM) - Qwen 3 (
Qwen3ForCausalLM) - SmolLM 3 (
SmolLM3ForCausalLM)
উন্নত সেটিংস
যদিও আপনি এক্সটেনশন ফ্ল্যাগগুলিতে উপলব্ধ উন্নত বিকল্পগুলি অন্বেষণ করতে পারেন, নিচে কিছু সাধারণ বিকল্প দেওয়া হলো যা আপনি চেষ্টা করতে পারেন।
দৃষ্টি ভাষা মডেল
সমর্থিত মডেলগুলোর জন্য, আপনি ভিশন এনকোডার মডেল লোড ও এক্সপোর্ট করতে --task=image_text_to_text এবং --export_vision_encoder সেট করতে পারেন।
সমর্থিত আর্কিটেকচারসমূহ:
- জেমা ৩ (
Gemma3ForConditionalGeneration) - জেমা ৪ (
Gemma4ForConditionalGeneration)
কোয়ান্টাইজেশন কনফিগারেশন
জেনারেটিভ এআই মডেলগুলো প্রায়শই এত বড় হয় যে অপ্টিমাইজেশন ছাড়া এজ ডিভাইসে দক্ষতার সাথে চালানো যায় না। ডিফল্টরূপে, export_hf AI Edge Quantizer ব্যবহার করে dynamic_wi8_afp32 কোয়ান্টাইজেশন রেসিপি প্রয়োগ করে, যা অ্যাক্টিভেশনগুলোকে FP32-এ রেখে ওয়েটগুলোকে প্রতি-চ্যানেল INT8-এ কোয়ান্টাইজ করে।
আপনি --quantization_recipe ফ্ল্যাগ (অথবা পাইথনে quantization_recipe প্যারামিটার) ব্যবহার করে এই ডিফল্ট আচরণটি পরিবর্তন করতে পারেন। আপনি AI Edge Quantizer- এর একটি বিল্ট-ইন রেসিপির নাম দিতে পারেন অথবা একটি কাস্টম JSON রেসিপির পাথ নির্দিষ্ট করে দিতে পারেন।
উদাহরণ:
litert-torch export_hf \
--model=google/gemma-3-270m-it \
--output_dir=/tmp/gemma3-270m-it-litertlm \
--quantization_recipe=/path/to/my/quantization_recipe.json
জিনজা টেমপ্লেট ওভাররাইড
ট্রান্সফর্মার্স মডেলের সাথে আসা জিনজা টেমপ্লেটটি LiteRT-LM (যেমন Gemma4 মডেল)-এর সাথে সামঞ্জস্যপূর্ণ নাও হতে পারে, সেক্ষেত্রে আপনি use_jinja_template ফ্ল্যাগটিকে False এ সেট করতে পারেন অথবা টেমপ্লেটটি ওভাররাইড করার জন্য jinja_chat_template_override অপশনটি ব্যবহার করতে পারেন।
উদাহরণ:
litert-torch export_hf \
--model=google/gemma-4-E2B-it \
--output_dir=/tmp/gemma4_2b_litertlm \
--externalize_embedder \
--jinja_chat_template_override=litert-community/gemma-4-E2B-it-litert-lm
এনপিইউ এওটি সংকলন
সিপিইউ এবং জিপিইউ-এর পাশাপাশি, আপনার মডেল এক্সপোর্ট করার সময় এনপিইউ-এর জন্য নির্দিষ্ট অপশনগুলো প্রদান করে আপনি সমর্থিত এনপিইউ অ্যাক্সিলারেটরগুলোকেও টার্গেট করতে পারেন।
গুগল টেনসর
পূর্বশর্ত: ডেভেলপমেন্ট এনভায়রনমেন্ট সেটআপ করার জন্য গুগল টেনসর এসডিকে পেজটি অনুসরণ করুন।
গুগল টেনসর টিপিইউ-কে লক্ষ্য করে এলএলএম এক্সপোর্ট করতে, টিপিইউ কম্পাইলেশনের জন্য প্রয়োজনীয় অতিরিক্ত ফ্ল্যাগগুলোর জন্য উদাহরণটি অনুসরণ করুন।
উদাহরণ:
litert-torch export-hf \
--model=google/gemma-3-270m-it \
--output_dir=/tmp/gemma3-270m-google-tensor-g5 \
--split_cache \
--externalize_embedder \
--prefill_lengths=128, \
--cache_length=1280 \
--quantization_recipe="weight_only_wi8_afp32"
--aot_backend=GOOGLE \
--aot_soc_model=Tensor_G5 \
--aot_compilation_config_dict='{"google_tensor_enable_large_model_support": True}'
আরও তথ্যের জন্য, Google Tensor SDK দিয়ে মডেল কম্পাইল করুন দেখুন।
কোয়ালকম এআই রানটাইম:
পূর্বশর্ত: LiteRT Qualcomm Integration for SDK সেটআপ নির্দেশাবলী এবং সমর্থিত ডিভাইসগুলো অনুসরণ করুন।
উদাহরণ:
litert-torch export-hf \
--model=google/gemma-3-270m-it \
--output_dir=/tmp/gemma3-270m-google-tensor-g5 \
--split_cache \
--externalize_embedder \
--quantization_recipe='' \
--aot_backend=qualcomm \
--aot_soc_model=SM8750
মিডিয়াটেক নিউরোপাইলট:
পূর্বশর্ত: SDK সেটআপের নির্দেশাবলী এবং সমর্থিত ডিভাইসগুলির জন্য LiteRT MediaTek Integration-এর নির্দেশাবলী অনুসরণ করুন।
উদাহরণ:
litert-torch export-hf \
--model=google/gemma-3-270m-it \
--output_dir=/tmp/gemma3-270m-google-tensor-g5 \
--split_cache \
--externalize_embedder \
--aot_backend=mediatek \
--aot_soc_model=MT8189
ইন্টেল ওপেনভিনো
পূর্বশর্ত: SDK সেটআপের নির্দেশাবলী এবং সমর্থিত ডিভাইসগুলির জন্য LiteRT Intel OpenVINO Integration অনুসরণ করুন।
উদাহরণ:
litert-torch export-hf \
--model=google/gemma-3-270m-it \
--output_dir=/tmp/gemma3-270m-google-tensor-g5 \
--split_cache \
--externalize_embedder \
--aot_backend=intel_openvino \
--aot_soc_model=PTL
LiteRT Torch জেনারেটিভ এপিআই ব্যবহার করে পুনঃরচনা ও রূপান্তর করুন
LiteRT Torch জেনারেটিভ এপিআই কাস্টম পাইটর্চ মডেল তৈরি এবং অপ্টিমাইজ করার জন্য বিল্ডিং ব্লকও সরবরাহ করে, যার মধ্যে নর্মালাইজার লেয়ার, অ্যাটেনশন এবং অন্যান্য মৌলিক মডিউল অন্তর্ভুক্ত, তবে এগুলিতেই সীমাবদ্ধ নয়। যদি আপনার মডেলটি LiteRT Torch Hugging Face Export এক্সটেনশনের আওতাভুক্ত না হয়, তবে আপনি LiteRT এবং LiteRT-LM-এর সাথে সামঞ্জস্যপূর্ণ করে আপনার নিজস্ব মডেল তৈরি করতে পারেন।
এখানে এলএলএম, ডিফিউশন মডেল এবং এএসআর মডেল সহ বিভিন্ন মডেল উদাহরণ রয়েছে। আপনি নির্দ্বিধায় সেগুলো দেখে নিতে পারেন এবং আপনার নিজের মডেল প্রয়োগ করতে পারেন।
আরও তথ্যের জন্য, জেনারেটিভ টর্চ এপিআই গিটহাব রিপো দেখুন।