Google Tensor SDK की मदद से, मशीन लर्निंग (एमएल) मॉडल को सीधे तौर पर Google Tensor के टीपीयू पर ऑप्टिमाइज़ और चलाया जा सकता है. स्टैंडर्ड एमएल मॉडल के अलावा, LiteRT वर्कफ़्लो में भाषा मॉडल को कंपाइल और तेज़ किया जा सकता है.
पहले से ऑप्टिमाइज़ किए गए कुछ मॉडल के लिए, हम कंपाइलर के अतिरिक्त विकल्पों वाली बाइनरी फ़ाइल भी उपलब्ध कराते हैं. इसे अपने वर्कफ़्लो में शामिल किया जा सकता है. Google Tensor पर बेहतर परफ़ॉर्मेंस पाने के लिए, हमारा सुझाव है कि कंपाइल करते समय, यहां दिए गए ऑप्टिमाइज़ेशन फ़्लैग का इस्तेमाल करें:
Google Tensor के लिए कंपाइलेशन फ़्लैग
परफ़ॉर्मेंस और संसाधन के इस्तेमाल को बेहतर बनाने के लिए, खास कॉन्फ़िगरेशन फ़्लैग लागू करके, मॉडल कंपाइल करने की प्रोसेस को ऑप्टिमाइज़ करें. इन पैरामीटर का इस्तेमाल, LiteRT Python वर्कफ़्लो में किया जा सकता है. इससे PyTorch और TFLite, दोनों मॉडल के लिए कंपाइल करने के तरीके में बदलाव किया जा सकता है.
| झंडा | आवश्यकता | ब्यौरा | डिफ़ॉल्ट मान |
|---|---|---|---|
google_tensor_truncation_type |
वैकल्पिक | इससे फ़्लोटिंग-पॉइंट ऑपरेशन के लिए टारगेट डेटा टाइप सेट किया जाता है. इस्तेमाल की जा सकने वाली वैल्यू: auto (डिफ़ॉल्ट), bfloat16, half, no_truncation |
अपने-आप |
google_tensor_sharding_intensity |
वैकल्पिक | इससे यह कंट्रोल किया जाता है कि पैरलल प्रोसेसिंग के लिए मॉडल को कितनी बार स्प्लिट किया जाए. विकल्प: कम, सामान्य, ज़्यादा, सबसे ज़्यादा. |
मिनिमल |
google_tensor_int64_to_int32 |
वैकल्पिक | इस विकल्प को 'सही है' पर सेट करने से, कंपाइलर 64-बिट पूर्णांकों को 32-बिट पूर्णांकों में बदल सकता है. यह कुछ मॉडल के लिए ज़रूरी हो सकता है. | गलत |
google_tensor_enable_large_model_support |
वैकल्पिक | अगर आपका मॉडल 2 जीबी से बड़ा है, तो इसे 'सही है' पर सेट करें. | गलत |
google_tensor_enable_4bit_compilation |
वैकल्पिक | इससे, 4 बिट पैरामीटर वाले कनवोल्यूशन ऑपरेशन के साथ मॉडल को कंपाइल किया जा सकता है. | गलत |
google_tensor_extra_options_path |
वैकल्पिक | यह बाइनरी फ़ाइल के तौर पर, कंपाइलर के अतिरिक्त विकल्प पास करता है. | "" (खाली) |
इन फ़्लैग का इस्तेमाल, LiteRT Python फ़्लो के साथ किया जा सकता है. इसके लिए, यहां दिए गए कोड स्निपेट देखें:
ai_edge_torchका इस्तेमाल करके pytorch मॉडल को कंपाइल करते समयcompiled_models = ( ai_edge_torch.experimental_add_compilation_backend(tensor_g5_target, flag_name1=value1, flag_name2=value2, ...).convert( channel_last_selfie_segmentation, sample_input))tflite मॉडल को कंपाइल करते समय
compiled_models = aot_lib.aot_compile( tflite_model_path, target=[tensor_g5_target], flag_name1=value1, flag_name2=value2, ...)
इस्तेमाल का उदाहरण
यहां दिए गए उदाहरण में, google_tensor_truncation_type="half" फ़्लैग का इस्तेमाल किया गया है:
compiled_models = aot_lib.aot_compile(
tflite_model_path,
target=[tensor_g5_target],
keep_going=False,
google_tensor_truncation_type="half"
)
ज़्यादा जानकारी के लिए, LiteRT AOT Colab देखें.
Google Tensor के लिए, लैंग्वेज मॉडल कंपाइल करना
Google Tensor के लिए भाषा मॉडल कंपाइल करने के लिए, एनपीयू एओटी कंपाइलेशन में दिए गए निर्देशों का पालन करें.
Google Tensor TPU के लिए एलएलएम एक्सपोर्ट करने के लिए, एनपीयू कंपाइलेशन के लिए ज़रूरी अतिरिक्त फ़्लैग का उदाहरण देखें.
उदाहरण:
litert-torch export-hf \
--model=google/gemma-3-270m-it \
--output_dir=/tmp/gemma3-270m-google-tensor-g5 \
--split_cache \
--externalize_embedder \
--prefill_lengths=128, \
--cache_length=1280 \
--quantization_recipe="weight_only_wi8_afp32" \
--aot_backend=GOOGLE \
--aot_soc_model=Tensor_G5 \
--aot_compilation_config_dict='{"google_tensor_enable_large_model_support": True}'