पेश है Google AI Edge Portal: बड़े पैमाने पर एज एआई का बेंचमार्क. निजी झलक के दौरान ऐक्सेस का अनुरोध करने के लिए, साइन-अप करें.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Google Tensor SDK की मदद से मॉडल कंपाइल करना

Google Tensor SDK की मदद से, मशीन लर्निंग (एमएल) मॉडल को सीधे तौर पर Google Tensor के टीपीयू पर ऑप्टिमाइज़ और चलाया जा सकता है. स्टैंडर्ड एमएल मॉडल के अलावा, LiteRT वर्कफ़्लो में भाषा मॉडल को कंपाइल और तेज़ किया जा सकता है.

पहले से ऑप्टिमाइज़ किए गए कुछ मॉडल के लिए, हम कंपाइलर के अतिरिक्त विकल्पों वाली बाइनरी फ़ाइल भी उपलब्ध कराते हैं. इसे अपने वर्कफ़्लो में शामिल किया जा सकता है. Google Tensor पर बेहतर परफ़ॉर्मेंस पाने के लिए, हमारा सुझाव है कि कंपाइल करते समय, यहां दिए गए ऑप्टिमाइज़ेशन फ़्लैग का इस्तेमाल करें:

Google Tensor के लिए कंपाइलेशन फ़्लैग

परफ़ॉर्मेंस और संसाधन के इस्तेमाल को बेहतर बनाने के लिए, खास कॉन्फ़िगरेशन फ़्लैग लागू करके, मॉडल कंपाइल करने की प्रोसेस को ऑप्टिमाइज़ करें. इन पैरामीटर का इस्तेमाल, LiteRT Python वर्कफ़्लो में किया जा सकता है. इससे PyTorch और TFLite, दोनों मॉडल के लिए कंपाइल करने के तरीके में बदलाव किया जा सकता है.

झंडा	आवश्यकता	ब्यौरा	डिफ़ॉल्ट मान
`google_tensor_truncation_type`	वैकल्पिक	इससे फ़्लोटिंग-पॉइंट ऑपरेशन के लिए टारगेट डेटा टाइप सेट किया जाता है. इस्तेमाल की जा सकने वाली वैल्यू: auto (डिफ़ॉल्ट), bfloat16, half, no_truncation	अपने-आप
`google_tensor_sharding_intensity`	वैकल्पिक	इससे यह कंट्रोल किया जाता है कि पैरलल प्रोसेसिंग के लिए मॉडल को कितनी बार स्प्लिट किया जाए. विकल्प: कम, सामान्य, ज़्यादा, सबसे ज़्यादा.	मिनिमल
`google_tensor_int64_to_int32`	वैकल्पिक	इस विकल्प को 'सही है' पर सेट करने से, कंपाइलर 64-बिट पूर्णांकों को 32-बिट पूर्णांकों में बदल सकता है. यह कुछ मॉडल के लिए ज़रूरी हो सकता है.	गलत
`google_tensor_enable_large_model_support`	वैकल्पिक	अगर आपका मॉडल 2 जीबी से बड़ा है, तो इसे 'सही है' पर सेट करें.	गलत
`google_tensor_enable_4bit_compilation`	वैकल्पिक	इससे, 4 बिट पैरामीटर वाले कनवोल्यूशन ऑपरेशन के साथ मॉडल को कंपाइल किया जा सकता है.	गलत
`google_tensor_extra_options_path`	वैकल्पिक	यह बाइनरी फ़ाइल के तौर पर, कंपाइलर के अतिरिक्त विकल्प पास करता है.	"" (खाली)

इन फ़्लैग का इस्तेमाल, LiteRT Python फ़्लो के साथ किया जा सकता है. इसके लिए, यहां दिए गए कोड स्निपेट देखें:

ai_edge_torch का इस्तेमाल करके pytorch मॉडल को कंपाइल करते समय

compiled_models = (
  ai_edge_torch.experimental_add_compilation_backend(tensor_g5_target,
  flag_name1=value1,
  flag_name2=value2, ...).convert(
    channel_last_selfie_segmentation,
    sample_input))

tflite मॉडल को कंपाइल करते समय

compiled_models = aot_lib.aot_compile(
    tflite_model_path,
    target=[tensor_g5_target],
    flag_name1=value1,
    flag_name2=value2, ...)

इस्तेमाल का उदाहरण

यहां दिए गए उदाहरण में, google_tensor_truncation_type="half" फ़्लैग का इस्तेमाल किया गया है:

  compiled_models = aot_lib.aot_compile(
      tflite_model_path,
      target=[tensor_g5_target],
      keep_going=False,
      google_tensor_truncation_type="half"
  )

ज़्यादा जानकारी के लिए, LiteRT AOT Colab देखें.

Google Tensor के लिए, लैंग्वेज मॉडल कंपाइल करना

Google Tensor के लिए भाषा मॉडल कंपाइल करने के लिए, एनपीयू एओटी कंपाइलेशन में दिए गए निर्देशों का पालन करें.

Google Tensor TPU के लिए एलएलएम एक्सपोर्ट करने के लिए, एनपीयू कंपाइलेशन के लिए ज़रूरी अतिरिक्त फ़्लैग का उदाहरण देखें.

उदाहरण:

litert-torch export-hf \
  --model=google/gemma-3-270m-it \
  --output_dir=/tmp/gemma3-270m-google-tensor-g5 \
  --split_cache \
  --externalize_embedder \
  --prefill_lengths=128, \
  --cache_length=1280 \
  --quantization_recipe="weight_only_wi8_afp32" \
  --aot_backend=GOOGLE \
  --aot_soc_model=Tensor_G5 \
  --aot_compilation_config_dict='{"google_tensor_enable_large_model_support": True}'