পোস্ট-ট্রেনিং কোয়ান্টাইজেশন

পোস্ট-ট্রেনিং কোয়ান্টাইজেশন হল একটি রূপান্তর কৌশল যা মডেলের আকার কমাতে পারে এবং CPU এবং হার্ডওয়্যার অ্যাক্সিলারেটর লেটেন্সিও উন্নত করে, মডেলের যথার্থতায় সামান্য অবনতি সহ। আপনি LiteRT কনভার্টার ব্যবহার করে LiteRT ফর্ম্যাটে রূপান্তর করার সময় আপনি ইতিমধ্যে-প্রশিক্ষিত ফ্লোট টেনসরফ্লো মডেলের পরিমাণ নির্ধারণ করতে পারেন।

অপ্টিমাইজেশান পদ্ধতি

বেছে নেওয়ার জন্য বেশ কয়েকটি পোস্ট-ট্রেনিং কোয়ান্টাইজেশন বিকল্প রয়েছে। এখানে পছন্দগুলির একটি সারসংক্ষেপ এবং তারা যে সুবিধাগুলি প্রদান করে তা রয়েছে:

টেকনিক সুবিধা হার্ডওয়্যার
গতিশীল পরিসীমা পরিমাপ 4x ছোট, 2x-3x গতি সিপিইউ
সম্পূর্ণ পূর্ণসংখ্যার পরিমাপ 4x ছোট, 3x+ স্পিডআপ সিপিইউ, এজ টিপিইউ, মাইক্রোকন্ট্রোলার
Float16 কোয়ান্টাইজেশন 2x ছোট, GPU ত্বরণ সিপিইউ, জিপিইউ

নিম্নলিখিত সিদ্ধান্তের গাছটি আপনার ব্যবহারের ক্ষেত্রে প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন পদ্ধতিটি সর্বোত্তম তা নির্ধারণ করতে সহায়তা করতে পারে:

প্রশিক্ষণ-পরবর্তী অপ্টিমাইজেশান বিকল্প

কোন কোয়ান্টাইজেশন নেই

কোয়ান্টাইজেশন ছাড়াই একটি TFLite মডেলে রূপান্তর করা একটি প্রস্তাবিত শুরু বিন্দু। এটি একটি ফ্লোট TFLite মডেল তৈরি করবে।

import tensorflow as tf
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
tflite_quant_model = converter.convert()

আমরা সুপারিশ করছি যে আপনি প্রাথমিক TF মডেলের অপারেটরগুলি TFLite-এর সাথে সামঞ্জস্যপূর্ণ তা যাচাই করার প্রাথমিক পদক্ষেপ হিসাবে এটি করুন এবং পরবর্তী প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন পদ্ধতি দ্বারা প্রবর্তিত কোয়ান্টাইজেশন ত্রুটিগুলি ডিবাগ করার জন্য একটি বেসলাইন হিসাবেও ব্যবহার করা যেতে পারে। উদাহরণস্বরূপ, যদি একটি কোয়ান্টাইজড TFLite মডেল অপ্রত্যাশিত ফলাফল তৈরি করে, যখন ফ্লোট TFLite মডেলটি সঠিক হয়, তাহলে আমরা TFLite অপারেটরদের কোয়ান্টাইজড সংস্করণ দ্বারা প্রবর্তিত ত্রুটিগুলিকে সংকুচিত করতে পারি।

গতিশীল পরিসীমা পরিমাপ

ডায়নামিক রেঞ্জ কোয়ান্টাইজেশন আপনাকে ক্রমাঙ্কনের জন্য একটি প্রতিনিধি ডেটাসেট প্রদান না করে কম মেমরি ব্যবহার এবং দ্রুত গণনা প্রদান করে। এই ধরনের কোয়ান্টাইজেশন, রূপান্তরকালে ফ্লোটিং পয়েন্ট থেকে পূর্ণসংখ্যা পর্যন্ত শুধুমাত্র ওজনের পরিমাপ করে, যা 8-বিট নির্ভুলতা প্রদান করে:

import tensorflow as tf
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
tflite_quant_model = converter.convert()

অনুমানের সময় লেটেন্সি আরও কমাতে, "ডাইনামিক-রেঞ্জ" অপারেটররা তাদের পরিসরের উপর ভিত্তি করে 8-বিটের উপর ভিত্তি করে অ্যাক্টিভেশনগুলিকে গতিশীলভাবে পরিমাপ করে এবং 8-বিট ওজন এবং সক্রিয়করণের সাথে গণনা করে। এই অপ্টিমাইজেশন সম্পূর্ণরূপে স্থির-বিন্দু অনুমানের কাছাকাছি বিলম্ব প্রদান করে। যাইহোক, আউটপুটগুলি এখনও ফ্লোটিং পয়েন্ট ব্যবহার করে সংরক্ষণ করা হয় তাই ডায়নামিক-রেঞ্জ অপের বর্ধিত গতি সম্পূর্ণ ফিক্সড-পয়েন্ট গণনার চেয়ে কম।

সম্পূর্ণ পূর্ণসংখ্যার পরিমাপ

সমস্ত মডেলের গণিত পূর্ণসংখ্যার পরিমাপ করা হয়েছে তা নিশ্চিত করে আপনি আরও লেটেন্সি উন্নতি, পিক মেমরির ব্যবহার হ্রাস এবং শুধুমাত্র হার্ডওয়্যার ডিভাইস বা এক্সিলারেটরের সাথে সামঞ্জস্যতা পেতে পারেন।

সম্পূর্ণ পূর্ণসংখ্যা পরিমাপের জন্য, আপনাকে মডেলের সমস্ত ফ্লোটিং-পয়েন্ট টেনসরের রেঞ্জ, অর্থাৎ (মিনিট, সর্বোচ্চ) ক্যালিব্রেট করতে হবে বা অনুমান করতে হবে। ওজন এবং পক্ষপাতের মতো ধ্রুবক টেনসরের বিপরীতে, পরিবর্তনশীল টেনসর যেমন মডেল ইনপুট, অ্যাক্টিভেশন (মধ্যবর্তী স্তরগুলির আউটপুট) এবং মডেল আউটপুটগুলি ক্রমাঙ্কিত করা যায় না যদি না আমরা কয়েকটি অনুমান চক্র চালাই। ফলস্বরূপ, রূপান্তরকারী তাদের ক্রমাঙ্কন করার জন্য একটি প্রতিনিধি ডেটাসেটের প্রয়োজন। এই ডেটাসেট প্রশিক্ষণ বা বৈধতা ডেটার একটি ছোট উপসেট (প্রায় ~100-500 নমুনা) হতে পারে। নীচের representative_dataset() ফাংশন পড়ুন।

TensorFlow 2.7 সংস্করণ থেকে, আপনি নিম্নলিখিত উদাহরণ হিসাবে একটি স্বাক্ষরের মাধ্যমে প্রতিনিধি ডেটাসেট নির্দিষ্ট করতে পারেন:

def representative_dataset():
  for data in dataset:
    yield {
      "image": data.image,
      "bias": data.bias,
    }

প্রদত্ত টেনসরফ্লো মডেলে একাধিক স্বাক্ষর থাকলে, আপনি স্বাক্ষর কীগুলি নির্দিষ্ট করে একাধিক ডেটাসেট নির্দিষ্ট করতে পারেন:

def representative_dataset():
  # Feed data set for the "encode" signature.
  for data in encode_signature_dataset:
    yield (
      "encode", {
        "image": data.image,
        "bias": data.bias,
      }
    )

  # Feed data set for the "decode" signature.
  for data in decode_signature_dataset:
    yield (
      "decode", {
        "image": data.image,
        "hint": data.hint,
      },
    )

আপনি একটি ইনপুট টেনসর তালিকা প্রদান করে প্রতিনিধি ডেটাসেট তৈরি করতে পারেন:

def representative_dataset():
  for data in tf.data.Dataset.from_tensor_slices((images)).batch(1).take(100):
    yield [tf.dtypes.cast(data, tf.float32)]

যেহেতু টেনসরফ্লো 2.7 সংস্করণ, আমরা ইনপুট টেনসর তালিকা-ভিত্তিক পদ্ধতির উপরে স্বাক্ষর-ভিত্তিক পদ্ধতি ব্যবহার করার পরামর্শ দিই কারণ ইনপুট টেনসর অর্ডার সহজেই ফ্লিপ করা যায়।

পরীক্ষার উদ্দেশ্যে, আপনি নিম্নরূপ একটি ডামি ডেটাসেট ব্যবহার করতে পারেন:

def representative_dataset():
    for _ in range(100):
      data = np.random.rand(1, 244, 244, 3)
      yield [data.astype(np.float32)]
 

ফ্লোট ফলব্যাক সহ পূর্ণসংখ্যা (ডিফল্ট ফ্লোট ইনপুট/আউটপুট ব্যবহার করে)

একটি মডেলকে সম্পূর্ণরূপে পূর্ণসংখ্যা পরিমাপ করার জন্য, কিন্তু ফ্লোট অপারেটর ব্যবহার করুন যখন তাদের একটি পূর্ণসংখ্যা বাস্তবায়ন না থাকে (রূপান্তরটি সুচারুভাবে ঘটে তা নিশ্চিত করার জন্য), নিম্নলিখিত পদক্ষেপগুলি ব্যবহার করুন:

import tensorflow as tf
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.representative_dataset = representative_dataset
tflite_quant_model = converter.convert()

শুধুমাত্র পূর্ণসংখ্যা

মাইক্রোকন্ট্রোলার এবং কোরাল এজ TPU-এর জন্য LiteRT-এর জন্য শুধুমাত্র পূর্ণসংখ্যার মডেল তৈরি করা একটি সাধারণ ব্যবহার।

অতিরিক্তভাবে, শুধুমাত্র পূর্ণসংখ্যার ডিভাইস (যেমন 8-বিট মাইক্রোকন্ট্রোলার) এবং এক্সিলারেটর (যেমন কোরাল এজ TPU) এর সাথে সামঞ্জস্য নিশ্চিত করতে, আপনি নিম্নলিখিত পদক্ষেপগুলি ব্যবহার করে ইনপুট এবং আউটপুট সহ সমস্ত অপারেশনের জন্য সম্পূর্ণ পূর্ণসংখ্যা পরিমাপ প্রয়োগ করতে পারেন:

import tensorflow as tf
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.representative_dataset = representative_dataset
converter.target_spec.supported_ops = [tf.lite.OpsSet.TFLITE_BUILTINS_INT8]
converter.inference_input_type = tf.int8  # or tf.uint8
converter.inference_output_type = tf.int8  # or tf.uint8
tflite_quant_model = converter.convert()

Float16 কোয়ান্টাইজেশন

16-বিট ফ্লোটিং পয়েন্ট সংখ্যার জন্য IEEE স্ট্যান্ডার্ড, float16-এ ওজনের পরিমাণ নির্ধারণ করে আপনি একটি ফ্লোটিং পয়েন্ট মডেলের আকার কমাতে পারেন। ওজনের float16 পরিমাপ সক্ষম করতে, নিম্নলিখিত পদক্ষেপগুলি ব্যবহার করুন:

import tensorflow as tf
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.target_spec.supported_types = [tf.float16]
tflite_quant_model = converter.convert()

float16 কোয়ান্টাইজেশনের সুবিধাগুলি নিম্নরূপ:

  • এটি মডেলের আকার অর্ধেক পর্যন্ত হ্রাস করে (যেহেতু সমস্ত ওজন তাদের আসল আকারের অর্ধেক হয়ে যায়)।
  • এটি নির্ভুলতার সর্বনিম্ন ক্ষতি ঘটায়।
  • এটি কিছু প্রতিনিধিকে সমর্থন করে (যেমন GPU প্রতিনিধি) যা সরাসরি float16 ডেটাতে কাজ করতে পারে, যার ফলে float32 কম্পিউটেশনের চেয়ে দ্রুত কার্যকর হয়।

float16 কোয়ান্টাইজেশনের অসুবিধাগুলি নিম্নরূপ:

  • এটি স্থির বিন্দু গণিতের পরিমাণ নির্ধারণের মতো বিলম্ব কমায় না।
  • ডিফল্টরূপে, একটি float16 কোয়ান্টাইজড মডেল CPU-তে চালানোর সময় ওজনের মানগুলিকে float32-এর জন্য "অপমানিত" করবে। (উল্লেখ্য যে GPU প্রতিনিধি এই ডিকোয়ান্টাইজেশন সঞ্চালন করবে না, যেহেতু এটি float16 ডেটাতে কাজ করতে পারে।)

শুধুমাত্র পূর্ণসংখ্যা: 8-বিট ওজন সহ 16-বিট সক্রিয়করণ (পরীক্ষামূলক)

এটি একটি পরীক্ষামূলক কোয়ান্টাইজেশন স্কিম। এটি "শুধুমাত্র পূর্ণসংখ্যা" স্কিমের অনুরূপ, তবে সক্রিয়করণগুলি তাদের পরিসরের ভিত্তিতে 16-বিট পর্যন্ত পরিমাপ করা হয়, ওজনগুলি 8-বিট পূর্ণসংখ্যাতে পরিমাপ করা হয় এবং পক্ষপাতগুলি 64-বিট পূর্ণসংখ্যাতে পরিমাপ করা হয়। এটিকে আরও 16x8 কোয়ান্টাইজেশন হিসাবে উল্লেখ করা হয়।

এই কোয়ান্টাইজেশনের প্রধান সুবিধা হল এটি নির্ভুলতাকে উল্লেখযোগ্যভাবে উন্নত করতে পারে, কিন্তু শুধুমাত্র মডেলের আকার সামান্য বৃদ্ধি করতে পারে।

import tensorflow as tf
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.representative_dataset = representative_dataset
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.target_spec.supported_ops = [tf.lite.OpsSet.EXPERIMENTAL_TFLITE_BUILTINS_ACTIVATIONS_INT16_WEIGHTS_INT8]
tflite_quant_model = converter.convert()

যদি 16x8 কোয়ান্টাইজেশন মডেলের কিছু অপারেটরের জন্য সমর্থিত না হয়, তাহলে মডেলটি এখনও কোয়ান্টাইজ করা যেতে পারে, কিন্তু অসমর্থিত অপারেটরগুলিকে ফ্লোটে রাখা হয়। এটির অনুমতি দেওয়ার জন্য নিম্নলিখিত বিকল্পটি target_spec-এ যোগ করা উচিত।

import tensorflow as tf
converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)
converter.representative_dataset = representative_dataset
converter.optimizations = [tf.lite.Optimize.DEFAULT]
converter.target_spec.supported_ops = [tf.lite.OpsSet.EXPERIMENTAL_TFLITE_BUILTINS_ACTIVATIONS_INT16_WEIGHTS_INT8,
tf.lite.OpsSet.TFLITE_BUILTINS]
tflite_quant_model = converter.convert()

এই কোয়ান্টাইজেশন স্কিম দ্বারা প্রদত্ত নির্ভুলতার উন্নতির ক্ষেত্রে ব্যবহারের উদাহরণগুলির মধ্যে রয়েছে:

  • সুপার-রেজোলিউশন,
  • অডিও সিগন্যাল প্রসেসিং যেমন নয়েজ ক্যান্সেলিং এবং বিমফর্মিং,
  • ইমেজ de-noising,
  • একটি একক চিত্র থেকে HDR পুনর্গঠন।

এই পরিমাণ নির্ধারণের অসুবিধা হল:

  • অপ্টিমাইজ করা কার্নেল বাস্তবায়নের অভাবের কারণে বর্তমানে অনুমানটি 8-বিট পূর্ণ পূর্ণসংখ্যার তুলনায় উল্লেখযোগ্যভাবে ধীর।
  • বর্তমানে এটি বিদ্যমান হার্ডওয়্যার এক্সিলারেটেড TFLite প্রতিনিধিদের সাথে বেমানান।

এই কোয়ান্টাইজেশন মোডের জন্য একটি টিউটোরিয়াল এখানে পাওয়া যাবে।

মডেল নির্ভুলতা

যেহেতু ওজনগুলি প্রশিক্ষণের পরে পরিমাপ করা হয়, বিশেষত ছোট নেটওয়ার্কগুলির জন্য সঠিকতা হ্রাস হতে পারে। কাগল মডেলগুলিতে নির্দিষ্ট নেটওয়ার্কগুলির জন্য প্রাক-প্রশিক্ষিত সম্পূর্ণ কোয়ান্টাইজড মডেলগুলি সরবরাহ করা হয়৷ নির্ভুলতার কোন অবনতি গ্রহণযোগ্য সীমার মধ্যে রয়েছে তা যাচাই করার জন্য কোয়ান্টাইজড মডেলের যথার্থতা পরীক্ষা করা গুরুত্বপূর্ণ। LiteRT মডেলের নির্ভুলতা মূল্যায়ন করার জন্য টুল আছে।

বিকল্পভাবে, সঠিকতা ড্রপ খুব বেশি হলে, কোয়ান্টাইজেশন সচেতন প্রশিক্ষণ ব্যবহার করার কথা বিবেচনা করুন। যাইহোক, এটি করার জন্য জাল কোয়ান্টাইজেশন নোড যোগ করার জন্য মডেল প্রশিক্ষণের সময় পরিবর্তনের প্রয়োজন, যেখানে এই পৃষ্ঠায় প্রশিক্ষণ-পরবর্তী কোয়ান্টাইজেশন কৌশলগুলি একটি বিদ্যমান প্রাক-প্রশিক্ষিত মডেল ব্যবহার করে।

কোয়ান্টাইজড টেনসরের জন্য উপস্থাপনা

8-বিট কোয়ান্টাইজেশন নিম্নলিখিত সূত্র ব্যবহার করে ভাসমান বিন্দু মান আনুমানিক।

\[real\_value = (int8\_value - zero\_point) \times scale\]

উপস্থাপনার দুটি প্রধান অংশ রয়েছে:

  • প্রতি-অক্ষ (ওরফে প্রতি-চ্যানেল) বা প্রতি-টেনসর ওজন 0-এর সমান শূন্য-বিন্দু সহ পরিসরে [-127, 127] int8 দুই এর পরিপূরক মান দ্বারা উপস্থাপিত।

  • প্রতি-টেনসর অ্যাক্টিভেশন/ইনপুটগুলি int8 দুই এর পরিপূরক মান দ্বারা উপস্থাপিত পরিসর [-128, 127], পরিসরে একটি শূন্য-বিন্দু সহ [-128, 127]।

আমাদের কোয়ান্টাইজেশন স্কিমের একটি বিশদ দর্শনের জন্য, অনুগ্রহ করে আমাদের কোয়ান্টাইজেশন স্পেক দেখুন। যে হার্ডওয়্যার বিক্রেতারা TensorFlow Lite-এর প্রতিনিধি ইন্টারফেসে প্লাগ-ইন করতে চান তাদের সেখানে বর্ণিত কোয়ান্টাইজেশন স্কিম বাস্তবায়ন করতে উৎসাহিত করা হয়।