গুগল টেনসর এসডিকে দিয়ে মডেল কম্পাইল করুন

গুগল টেনসর এসডিকে আপনাকে সরাসরি গুগল টেনসরের ডেডিকেটেড টিপিইউ-তে মেশিন লার্নিং (এমএল) মডেল অপ্টিমাইজ এবং রান করার সুযোগ দেয়। স্ট্যান্ডার্ড এমএল মডেলের পাশাপাশি, আপনি আপনার LiteRT ওয়ার্কফ্লো-এর মধ্যে ল্যাঙ্গুয়েজ মডেল কম্পাইল এবং অ্যাক্সিলারেট করতে পারেন।

কিছু নির্দিষ্ট প্রি-অপ্টিমাইজ করা মডেলের জন্য, আমরা একটি অতিরিক্ত কম্পাইলার অপশন বাইনারি ফাইলও সরবরাহ করি যা আপনি আপনার ওয়ার্কফ্লোতে অন্তর্ভুক্ত করতে পারেন। গুগল টেনসরে সর্বোত্তম পারফরম্যান্স পেতে, আমরা কম্পাইলেশনের সময় নিম্নলিখিত অপ্টিমাইজেশন ফ্ল্যাগগুলি ব্যবহার করার পরামর্শ দিই:

গুগল টেনসরের জন্য কম্পাইলেশন ফ্ল্যাগ

পারফরম্যান্স এবং রিসোর্স ব্যবহারকে প্রয়োজনমতো সাজাতে নির্দিষ্ট কনফিগারেশন ফ্ল্যাগ প্রয়োগ করে আপনার মডেল কম্পাইলেশন প্রক্রিয়াকে অপ্টিমাইজ করুন। আপনি আপনার LiteRT পাইথন ওয়ার্কফ্লো-এর মধ্যে এই প্যারামিটারগুলো ব্যবহার করে PyTorch এবং TFLite উভয় মডেলের কম্পাইলেশন আচরণ সমন্বয় করতে পারেন।

পতাকা	প্রয়োজনীয়তা	বর্ণনা	ডিফল্ট মান
`google_tensor_truncation_type`	ঐচ্ছিক	ফ্লোটিং-পয়েন্ট অপারেশনের জন্য টার্গেট ডেটা টাইপ নির্ধারণ করে। সমর্থিত মান: অটো (ডিফল্ট), বিফ্লোট১৬, হাফ, নো_ট্রাঙ্কেশন	অটো
`google_tensor_sharding_intensity`	ঐচ্ছিক	সমান্তরাল প্রক্রিয়াকরণের জন্য মডেলটিকে কতটা জোরালোভাবে বিভক্ত করা হবে তা নিয়ন্ত্রণ করে। বিকল্পসমূহ: ন্যূনতম, মাঝারি, ব্যাপক, সর্বোচ্চ।	ন্যূনতম
`google_tensor_int64_to_int32`	ঐচ্ছিক	কিছু মডেলের জন্য প্রয়োজনীয় হতে পারে এমন ৬৪-বিট পূর্ণসংখ্যাকে ৩২-বিট পূর্ণসংখ্যায় রূপান্তর করার জন্য কম্পাইলারকে অনুমতি দিতে এটিকে 'true' সেট করুন।	মিথ্যা
`google_tensor_enable_large_model_support`	ঐচ্ছিক	আপনার মডেলটি ২ জিবির চেয়ে বড় হলে এটিকে 'true' সেট করুন।	মিথ্যা
`google_tensor_enable_4bit_compilation`	ঐচ্ছিক	৪-বিট প্যারামিটারযুক্ত কনভোলিউশন অপারেশনসহ মডেল কম্পাইল করার সুবিধা দেয়।	মিথ্যা
`google_tensor_extra_options_path`	ঐচ্ছিক	অতিরিক্ত কম্পাইলার অপশনগুলো একটি বাইনারি ফাইল হিসেবে প্রেরণ করে।	"" (খালি)

নিম্নলিখিত কোড স্নিপেটগুলিতে দেখানো অনুযায়ী আপনি LiteRT পাইথন ফ্লো-এর সাথে এই ফ্ল্যাগগুলি ব্যবহার করতে পারেন:

ai_edge_torch ব্যবহার করে একটি পাইটর্চ মডেল কম্পাইল করার সময়

compiled_models = (
  ai_edge_torch.experimental_add_compilation_backend(tensor_g5_target,
  flag_name1=value1,
  flag_name2=value2, ...).convert(
    channel_last_selfie_segmentation,
    sample_input))

একটি tflite মডেল কম্পাইল করার সময়

compiled_models = aot_lib.aot_compile(
    tflite_model_path,
    target=[tensor_g5_target],
    flag_name1=value1,
    flag_name2=value2, ...)

ব্যবহারের উদাহরণ

নিম্নলিখিত উদাহরণে, google_tensor_truncation_type="half" ফ্ল্যাগটি ব্যবহার করা হয়েছে:

  compiled_models = aot_lib.aot_compile(
      tflite_model_path,
      target=[tensor_g5_target],
      keep_going=False,
      google_tensor_truncation_type="half"
  )

আরও তথ্যের জন্য LiteRT AOT Colab দেখুন।

গুগল টেনসরের জন্য ল্যাঙ্গুয়েজ মডেল কম্পাইল করুন

গুগল টেনসরের জন্য ল্যাঙ্গুয়েজ মডেল কম্পাইল করতে, NPU AOT কম্পাইলেশন- এর নির্দেশাবলী অনুসরণ করুন।

Google Tensor TPU-এর জন্য LLM এক্সপোর্ট করতে, NPU কম্পাইলেশনের জন্য প্রয়োজনীয় অতিরিক্ত ফ্ল্যাগগুলোর জন্য উদাহরণটি অনুসরণ করুন।

উদাহরণ:

litert-torch export-hf \
  --model=google/gemma-3-270m-it \
  --output_dir=/tmp/gemma3-270m-google-tensor-g5 \
  --split_cache \
  --externalize_embedder \
  --prefill_lengths=128, \
  --cache_length=1280 \
  --quantization_recipe="weight_only_wi8_afp32" \
  --aot_backend=GOOGLE \
  --aot_soc_model=Tensor_G5 \
  --aot_compilation_config_dict='{"google_tensor_enable_large_model_support": True}'