গুগল টেনসর এসডিকে দিয়ে মডেল কম্পাইল করুন

গুগল টেনসর এসডিকে আপনাকে সরাসরি গুগল টেনসরের ডেডিকেটেড টিপিইউ-তে মেশিন লার্নিং (এমএল) মডেল অপ্টিমাইজ এবং রান করার সুযোগ দেয়। স্ট্যান্ডার্ড এমএল মডেলের পাশাপাশি, আপনি আপনার LiteRT ওয়ার্কফ্লো-এর মধ্যে ল্যাঙ্গুয়েজ মডেল কম্পাইল এবং অ্যাক্সিলারেট করতে পারেন।

কিছু নির্দিষ্ট প্রি-অপ্টিমাইজ করা মডেলের জন্য, আমরা একটি অতিরিক্ত কম্পাইলার অপশন বাইনারি ফাইলও সরবরাহ করি যা আপনি আপনার ওয়ার্কফ্লোতে অন্তর্ভুক্ত করতে পারেন। গুগল টেনসরে সর্বোত্তম পারফরম্যান্স পেতে, আমরা কম্পাইলেশনের সময় নিম্নলিখিত অপ্টিমাইজেশন ফ্ল্যাগগুলি ব্যবহার করার পরামর্শ দিই:

গুগল টেনসরের জন্য কম্পাইলেশন ফ্ল্যাগ

পারফরম্যান্স এবং রিসোর্স ব্যবহারকে প্রয়োজনমতো সাজাতে নির্দিষ্ট কনফিগারেশন ফ্ল্যাগ প্রয়োগ করে আপনার মডেল কম্পাইলেশন প্রক্রিয়াকে অপ্টিমাইজ করুন। আপনি আপনার LiteRT পাইথন ওয়ার্কফ্লো-এর মধ্যে এই প্যারামিটারগুলো ব্যবহার করে PyTorch এবং TFLite উভয় মডেলের কম্পাইলেশন আচরণ সমন্বয় করতে পারেন।

পতাকা প্রয়োজনীয়তা বর্ণনা ডিফল্ট মান
google_tensor_truncation_type ঐচ্ছিক ফ্লোটিং-পয়েন্ট অপারেশনের জন্য টার্গেট ডেটা টাইপ নির্ধারণ করে।
সমর্থিত মান: অটো (ডিফল্ট), বিফ্লোট১৬, হাফ, নো_ট্রাঙ্কেশন
অটো
google_tensor_sharding_intensity ঐচ্ছিক সমান্তরাল প্রক্রিয়াকরণের জন্য মডেলটিকে কতটা জোরালোভাবে বিভক্ত করা হবে তা নিয়ন্ত্রণ করে।
বিকল্পসমূহ: ন্যূনতম, মাঝারি, ব্যাপক, সর্বোচ্চ।
ন্যূনতম
google_tensor_int64_to_int32 ঐচ্ছিক কিছু মডেলের জন্য প্রয়োজনীয় হতে পারে এমন ৬৪-বিট পূর্ণসংখ্যাকে ৩২-বিট পূর্ণসংখ্যায় রূপান্তর করার জন্য কম্পাইলারকে অনুমতি দিতে এটিকে 'true' সেট করুন। মিথ্যা
google_tensor_enable_large_model_support ঐচ্ছিক আপনার মডেলটি ২ জিবির চেয়ে বড় হলে এটিকে 'true' সেট করুন। মিথ্যা
google_tensor_enable_4bit_compilation ঐচ্ছিক ৪-বিট প্যারামিটারযুক্ত কনভোলিউশন অপারেশনসহ মডেল কম্পাইল করার সুবিধা দেয়। মিথ্যা
google_tensor_extra_options_path ঐচ্ছিক অতিরিক্ত কম্পাইলার অপশনগুলো একটি বাইনারি ফাইল হিসেবে প্রেরণ করে। "" (খালি)

নিম্নলিখিত কোড স্নিপেটগুলিতে দেখানো অনুযায়ী আপনি LiteRT পাইথন ফ্লো-এর সাথে এই ফ্ল্যাগগুলি ব্যবহার করতে পারেন:

  • ai_edge_torch ব্যবহার করে একটি পাইটর্চ মডেল কম্পাইল করার সময়

    compiled_models = (
      ai_edge_torch.experimental_add_compilation_backend(tensor_g5_target,
      flag_name1=value1,
      flag_name2=value2, ...).convert(
        channel_last_selfie_segmentation,
        sample_input))
    
  • একটি tflite মডেল কম্পাইল করার সময়

    compiled_models = aot_lib.aot_compile(
        tflite_model_path,
        target=[tensor_g5_target],
        flag_name1=value1,
        flag_name2=value2, ...)
    

ব্যবহারের উদাহরণ

নিম্নলিখিত উদাহরণে, google_tensor_truncation_type="half" ফ্ল্যাগটি ব্যবহার করা হয়েছে:

  compiled_models = aot_lib.aot_compile(
      tflite_model_path,
      target=[tensor_g5_target],
      keep_going=False,
      google_tensor_truncation_type="half"
  )

আরও তথ্যের জন্য LiteRT AOT Colab দেখুন।

গুগল টেনসরের জন্য ল্যাঙ্গুয়েজ মডেল কম্পাইল করুন

গুগল টেনসরের জন্য ল্যাঙ্গুয়েজ মডেল কম্পাইল করতে, NPU AOT কম্পাইলেশন- এর নির্দেশাবলী অনুসরণ করুন।

Google Tensor TPU-এর জন্য LLM এক্সপোর্ট করতে, NPU কম্পাইলেশনের জন্য প্রয়োজনীয় অতিরিক্ত ফ্ল্যাগগুলোর জন্য উদাহরণটি অনুসরণ করুন।

উদাহরণ:

litert-torch export-hf \
  --model=google/gemma-3-270m-it \
  --output_dir=/tmp/gemma3-270m-google-tensor-g5 \
  --split_cache \
  --externalize_embedder \
  --prefill_lengths=128, \
  --cache_length=1280 \
  --quantization_recipe="weight_only_wi8_afp32" \
  --aot_backend=GOOGLE \
  --aot_soc_model=Tensor_G5 \
  --aot_compilation_config_dict='{"google_tensor_enable_large_model_support": True}'