मॉडल ऑप्टिमाइज़ेशन

एज डिवाइसों में अक्सर, कम मेमोरी या कंप्यूटेशनल पावर की कमी होती है. अलग-अलग ऑप्टिमाइज़ेशन को मॉडल पर लागू किया जा सकता है, ताकि उन्हें इनके अंदर चलाया जा सके करना है. इसके अतिरिक्त, कुछ ऑप्टिमाइज़ेशन विशेषज्ञों के हार्डवेयर की मदद से तेज़ी से अनुमान लगाया जा सकता है.

LiteRT और TensorFlow मॉडल ऑप्टिमाइज़ेशन टूलकिट में, इन कामों के लिए टूल उपलब्ध कराए जाते हैं अनुमान को ऑप्टिमाइज़ करने की जटिलता को कम करें.

हमारा सुझाव है कि आप आवेदन के दौरान मॉडल ऑप्टिमाइज़ेशन पर विचार करें डेवलपमेंट प्रोसेस है. इस दस्तावेज़ में, ऑप्टिमाइज़ेशन के लिए कुछ सबसे सही तरीकों के बारे में बताया गया है किनारे के हार्डवेयर पर डिप्लॉयमेंट के लिए, TensorFlow के मॉडल.

मॉडल को ऑप्टिमाइज़ क्यों करना चाहिए

ऐप्लिकेशन के लिए, मॉडल ऑप्टिमाइज़ेशन कई मुख्य तरीकों से मदद कर सकता है डेवलपमेंट.

साइज़ छोटा करने वाले विज्ञापन

किसी मॉडल का साइज़ कम करने के लिए, ऑप्टिमाइज़ेशन के कुछ तरीकों का इस्तेमाल किया जा सकता है. इससे छोटा मॉडल के ये फ़ायदे हैं:

  • छोटा स्टोरेज साइज़: छोटे मॉडल आपके डिवाइस का कम स्टोरेज इस्तेमाल करते हैं उपयोगकर्ताओं का डिवाइस. उदाहरण के लिए, छोटे मॉडल का इस्तेमाल करने वाला Android ऐप्लिकेशन, अपने मोबाइल डिवाइस पर कम स्टोरेज बचा सकते हैं.
  • डाउनलोड का साइज़ छोटा होता है: छोटे मॉडल को डाउनलोड करने के लिए कम समय और बैंडविड्थ की ज़रूरत होती है उपयोगकर्ताओं का डेटा डाउनलोड करें डिवाइस.
  • कम मेमोरी का इस्तेमाल: छोटे मॉडल चलते समय कम रैम का इस्तेमाल करते हैं, जो आपके ऐप्लिकेशन के अन्य हिस्सों के लिए मेमोरी खाली करता है, और बेहतर परफ़ॉर्मेंस और स्थिरता के लिए मदद करते हैं.

क्वांटाइज़ेशन की मदद से, इन सभी मामलों में मॉडल का साइज़ कम हो सकता है. और वह भी कुछ सटीक भी. काट-छांट करने और क्लस्टरिंग से, डाउनलोड करने के लिए मॉडल करना होगा.

इंतज़ार के समय में कमी

इंतज़ार का समय, किसी दिए गए वाक्य के साथ किसी एक अनुमान को चलाने में लगने वाला समय है मॉडल. ऑप्टिमाइज़ेशन के कुछ टाइप, कंप्यूटेशन (हिसाब लगाना) की ज़रूरत को कम कर सकते हैं का इस्तेमाल करें. इससे इंतज़ार का समय कम हो जाता है. इंतज़ार के समय से भी बिजली की खपत पर असर पड़ता है.

फ़िलहाल, क्वांटाइज़ेशन का इस्तेमाल, इंतज़ार के समय को कम करने के लिए किया जा सकता है. इसके लिए, अनुमान के दौरान होने वाली ऐसी कैलकुलेशन ज़्यादा सटीक होता है.

ऐक्सेलरेटर के साथ काम करने की सुविधा

कुछ हार्डवेयर ऐक्सेलरेटर, जैसे कि Edge TPU, इसकी मदद से अनुमान को बहुत तेज़ी से चलाया जा सकता है सही तरीके से ऑप्टिमाइज़ किए गए मॉडल.

आम तौर पर, इस तरह के डिवाइसों के मॉडल को खास तरीका है. हर हार्डवेयर ऐक्सेलरेटर के दस्तावेज़ देखें और उनके बारे में ज़्यादा जानें ज़रूरतें.

ट्रेड-ऑफ़

ऑप्टिमाइज़ेशन की वजह से, मॉडल सटीक होने में बदलाव हो सकता है. इसे ऐसा होना चाहिए को आवेदन तैयार करने की प्रोसेस के दौरान चुना जाता है.

सटीक होने के बदलाव इस बात पर निर्भर करते हैं कि किस मॉडल को ऑप्टिमाइज़ किया जा रहा है. का अनुमान लगाना मुश्किल हो जाता है. आम तौर पर, साइज़ या इंतज़ार के समय की सटीक जानकारी नहीं मिलेगी. आपके अनुरोध पर निर्भर पहले से है, तो इसका असर आपके उपयोगकर्ताओं पर हो भी सकता है और नहीं भी अनुभव. बहुत कम मामलों में, ऑप्टिमाइज़ेशन की प्रोसेस की वजह से, कुछ मॉडल को कुछ सटीक वैल्यू मिल सकती है.

ऑप्टिमाइज़ेशन के टाइप

फ़िलहाल, LiteRT क्वांटाइज़ेशन, ट्रिमिंग, और क्लस्टरिंग.

ये TensorFlow मॉडल ऑप्टिमाइज़ेशन का हिस्सा हैं टूलकिट, जो TensorFlow के साथ काम करने वाले मॉडल ऑप्टिमाइज़ेशन तकनीकों के लिए संसाधन लाइट.

क्वांटाइज़ेशन

क्वांटाइज़ेशन यह फ़ंक्शन, मॉडल की वैल्यू को दिखाने के लिए इस्तेमाल की जाने वाली संख्याओं की शुद्धता को कम करके काम करता है पैरामीटर, जो डिफ़ॉल्ट रूप से 32-बिट फ़्लोटिंग पॉइंट नंबर होते हैं. इस वजह से छोटे मॉडल का साइज़ और तेज़ी से हिसाब लगाने में मदद करता है.

LiteRT में इस तरह के क्वांटाइज़ेशन (क्वांटाइज़ेशन) की सुविधा उपलब्ध है:

तकनीक डेटा से जुड़ी ज़रूरी शर्तें साइज़ छोटा करने वाले विज्ञापन सटीक जानकारी काम करने वाला हार्डवेयर
ट्रेनिंग के बाद फ़्लोट 16 की संख्या का पता लगाना कोई डेटा नहीं मिला 50% तक सटीक तरीके से न मिलने वाला नुकसान सीपीयू, जीपीयू
ट्रेनिंग के बाद डाइनैमिक रेंज क्वांटाइज़ेशन कोई डेटा नहीं मिला 75% तक सटीक होने की सबसे छोटी कमी सीपीयू, जीपीयू (Android)
ट्रेनिंग के बाद पूर्णांक की संख्या बढ़ाना बिना लेबल वाला प्रतिनिधि सैंपल 75% तक सटीक होने में थोड़ी कमी सीपीयू, जीपीयू (Android), EdgeTPU
क्वांटाइज़ेशन अवेयर ट्रेनिंग लेबल किया गया ट्रेनिंग डेटा 75% तक सटीक होने की सबसे छोटी कमी सीपीयू, जीपीयू (Android), EdgeTPU

यहां दिए गए डिसिज़न ट्री की मदद से, डेटा कैलकुलेट करने के तरीकों को चुना जा सकता है आपके मॉडल के लिए बस अपेक्षित मॉडल आकार के आधार पर उपयोग करना चाहते हैं और ज़्यादा सटीक होता है.

क्वांटाइज़ेशन-डिसिज़न-ट्री

ट्रेनिंग के बाद को क्वांटाइज़ेशन के समय और सटीक होने के नतीजे नीचे दिए गए हैं और ऐसे कुछ मॉडल पर क्वांटाइज़ेशन अवेयर ट्रेनिंग दी गई है. इंतज़ार के समय के सभी आंकड़े इस पर मापे जाते हैं एक बड़े कोर वाले सीपीयू का इस्तेमाल करने वाले Pixel 2 डिवाइस. जैसे-जैसे टूलकिट बेहतर होता जाएगा वैसे-वैसे यह बेहतर होगा यहां दिए गए नंबर:

मॉडल टॉप-1 ऐक्यूरसी (मूल) टॉप-1 ऐक्यूरसी (पोस्ट ट्रेनिंग को क्वांटाइज़ किया गया) टॉप-1 ऐक्यूरसी (क्वांटाइज़ेशन अवेयर ट्रेनिंग) इंतज़ार का समय (मूल) (मि॰से॰) इंतज़ार के समय (पोस्ट ट्रेनिंग की मात्रा के हिसाब से) (मि॰से॰) इंतज़ार का समय (क्वांटाइज़ेशन अवेयर ट्रेनिंग) (मि॰से॰) साइज़ (मूल) (एमबी) साइज़ (ऑप्टिमाइज़ किया गया) (एमबी)
Mobilenet-v1-1-2240.7090.6570.70 1241126416.94.3
Mobilenet-v2-1-2240.7190.6370.709 899854143.6
Inception_v30.780.7720.775 113084554395.723.9
Resnet_v2_1010.7700.768लागू नहीं 39732868लागू नहीं178.344.9
टेबल 1 चुनिंदा CNN मॉडल के लिए, मॉडल की गिनती करने के फ़ायदे

int16 ऐक्टिवेशन और int8 वेट के साथ फ़ुल इंटीजर क्वांटाइज़ेशन

Int16 ऐक्टिवेशन के साथ क्वांटाइज़ेशन एक पूरी इंटीजर क्वांटाइज़ेशन स्कीम है, जिसमें int16 में ऐक्टिवेशन और वेट int8. इस मोड में, क्वांटाइज़्ड मॉडल को ज़्यादा सटीक int8 में ऐक्टिवेशन और वेट, दोनों के साथ पूर्णांक क्वांटाइज़ेशन स्कीम समान मॉडल आकार बनाए रखना. इसका सुझाव तब दिया जाता है, जब चालू करना संवेदनशील हो की अहमियत को समझ सकते हैं.

ध्यान दें: फ़िलहाल, सिर्फ़ ऑप्टिमाइज़ नहीं किए गए रेफ़रंस कर्नेल लागू किए गए हैं इस क्वांटाइज़ेशन स्कीम के लिए, TFLite में उपलब्ध है. इसलिए डिफ़ॉल्ट रूप से int8 कर्नेल की तुलना में धीमा होगा. इस मोड के सभी फ़ायदों का इस्तेमाल करने पर जिसे फ़िलहाल खास हार्डवेयर या कस्टम सॉफ़्टवेयर से ऐक्सेस किया जा सकता हो.

इस मोड का फ़ायदा लेने वाले कुछ मॉडल के लिए सटीक नतीजे नीचे दिए गए हैं.

मॉडल सटीक होने की मेट्रिक का टाइप सटीक (फ़्लोट32 ऐक्टिवेशन) सटीक (int8 ऐक्टिवेशन) सटीक (int16 ऐक्टिवेशन)
Wav2letterडब्ल्यूईआर6.7%7.7% 7.2%
DeepSpeech 0.5.1 (अनरोल किया गया)CER6.13%43.67% 6.52%
YoloV3mAP(IOU=0.5)0.5770.563 0.574
MobileNetV1टॉप-1 ऐक्यूरसी0.70620.694 0.6936
MobileNetV2टॉप-1 ऐक्यूरसी0.7180.7126 0.7137
MobileBertF1(एग्ज़ैक्ट मैच)88.81(81.23)2.08(0) 88.73(81.15)
टेबल 2 int16 ऐक्टिवेशन के साथ मॉडल क्वांटाइज़ेशन के फ़ायदे

काट-छांट करना

काट-छांट करने की प्रोसेस ऐसे पैरामीटर को हटा देते हैं जिनका इस मॉडल पर मामूली असर पड़ता है सुझाव. काटे-छांटे गए मॉडल का साइज़, डिस्क पर एक जैसा होता है और उनका रनटाइम भी एक जैसा होता है इंतज़ार का समय, लेकिन ज़्यादा असरदार तरीके से कंप्रेस किया जा सकता है. इससे छांटने में मदद मिलती है यह तकनीक मॉडल के डाउनलोड साइज़ को कम करने में मदद करती है.

आने वाले समय में, LiteRT उन मॉडल के लिए इंतज़ार के समय को कम करने की सुविधा देगा जिनमें काट-छांट की गई है.

गुच्छ

क्लस्टरिंग यह किसी मॉडल की हर लेयर के वेट को, पहले से तय संख्या में ग्रुप करके काम करता है इनमें से हर एक क्लस्टर की वैल्यू के लिए, सेंट्रोइड वैल्यू शेयर की जाती है. अलग-अलग क्लस्टर में बांटा जा सकता है. इससे किसी मॉडल में यूनीक वेट की वैल्यू की संख्या कम हो जाती है, इस तरह, यह डिवाइस की जटिलता को कम कर देता है.

इस वजह से, क्लस्टर किए गए मॉडल ज़्यादा असरदार तरीके से कंप्रेस किए जा सकते हैं. डिप्लॉयमेंट के फ़ायदे, छांटने से मिलते-जुलते हैं.

डेवलपमेंट वर्कफ़्लो

शुरुआती बिंदु के तौर पर, देखें कि क्या मॉडल होस्ट मॉडल आपके ऐप्लिकेशन के लिए काम कर सकते हैं. अगर नहीं, तो हम यह सुझाव दिया जाता है कि उपयोगकर्ता ट्रेनिंग के बाद की संख्यात्मक विश्लेषण के साथ शुरुआत करें टूल के तौर पर उपलब्ध रहेगा, क्योंकि यह ज़्यादा से ज़्यादा लोगों के लिए लागू होता है और उसके लिए ट्रेनिंग डेटा की ज़रूरत नहीं होती.

ऐसे मामलों में जहां सटीक और इंतज़ार के समय वाले टारगेट को पूरा नहीं किया जाता या हार्डवेयर एक्सेलरेटर सहायता ज़रूरी है, क्वांटाइज़ेशन के बारे में जागरूकता ट्रेनिंग तो यह बेहतर विकल्प है. अतिरिक्त ऑप्टिमाइज़ेशन तकनीकें TensorFlow मॉडल ऑप्टिमाइज़ेशन टूलकिट.

अगर आपको अपने मॉडल के साइज़ को और कम करना है, तो काट-छांट की जा सकती है और/या अपने मॉडल की मात्रा तय करने से पहले क्लस्टरिंग करें.