मशीन लर्निंग (एमएल) मॉडल को चलाने के लिए ग्राफ़िक्स प्रोसेसिंग यूनिट (जीपीयू) का इस्तेमाल करने से, आपके मॉडल की परफ़ॉर्मेंस और एमएल की सुविधा वाले ऐप्लिकेशन के उपयोगकर्ता अनुभव में काफ़ी सुधार हो सकता है. LiteRT, डेलिगेट नाम के हार्डवेयर ड्राइवर की मदद से, जीपीयू और अन्य खास प्रोसेसर का इस्तेमाल करने की सुविधा देता है. LiteRT ML ऐप्लिकेशन के साथ जीपीयू का इस्तेमाल करने से, ये फ़ायदे मिल सकते हैं:
- स्पीड - जीपीयू को, बड़े पैमाने पर पैरलल वर्कलोड के लिए बनाया गया है. इस डिज़ाइन की वजह से, ये डीप न्यूरल नेटवर्क के लिए सबसे सही होते हैं. इनमें बड़ी संख्या में ऑपरेटर होते हैं. हर ऑपरेटर, इनपुट टेंसर पर काम करता है. इन्हें एक साथ प्रोसेस किया जा सकता है. इससे आम तौर पर, इंतज़ार का समय कम हो जाता है. सबसे अच्छे मामले में, जीपीयू पर मॉडल को चलाने से, रीयल-टाइम ऐप्लिकेशन को चालू करने में मदद मिल सकती है. ऐसा पहले नहीं किया जा सकता था.
- ऊर्जा की बचत - जीपीयू, एमएल कंप्यूटेशन को बहुत ही असरदार और ऑप्टिमाइज़ तरीके से पूरा करते हैं. आम तौर पर, ये सीपीयू की तुलना में कम ऊर्जा खर्च करते हैं और कम गर्मी पैदा करते हैं.
इस दस्तावेज़ में, LiteRT में जीपीयू के साथ काम करने की सुविधा के बारे में खास जानकारी दी गई है. साथ ही, जीपीयू प्रोसेसर के कुछ ऐडवांस इस्तेमाल के बारे में भी बताया गया है. कुछ प्लैटफ़ॉर्म पर जीपीयू की सुविधा लागू करने के बारे में ज़्यादा जानकारी के लिए, यहां दी गई गाइड देखें:
जीपीयू पर एमएल ऑपरेशन करने की सुविधा
LiteRT GPU डेलिगेट की मदद से, TensorFlow ML के कुछ ops को ही तेज़ी से प्रोसेस किया जा सकता है. डेलिगेट, 16-बिट और 32-बिट फ़्लोट प्रिसिशन में इन ऑपरेशनों के साथ काम करता है:
ADDAVERAGE_POOL_2DCONCATENATIONCONV_2DDEPTHWISE_CONV_2D v1-2EXPFULLY_CONNECTEDLOGICAL_ANDLOGISTICLSTM v2 (Basic LSTM only)MAX_POOL_2DMAXIMUMMINIMUMMULPADPRELURELURELU6RESHAPERESIZE_BILINEAR v1-3SOFTMAXSTRIDED_SLICESUBTRANSPOSE_CONV
डिफ़ॉल्ट रूप से, सभी ऑप सिर्फ़ वर्शन 1 पर काम करते हैं. क्वांटाइज़ेशन की सुविधा चालू करने पर, सही वर्शन चालू हो जाते हैं. उदाहरण के लिए, ADD v2.
जीपीयू सपोर्ट से जुड़ी समस्या हल करना
अगर कुछ ऑप्स, GPU डेलिगेट के साथ काम नहीं करते हैं, तो फ़्रेमवर्क, ग्राफ़ के सिर्फ़ एक हिस्से को GPU पर और बाकी हिस्से को CPU पर चलाएगा. सीपीयू/जीपीयू सिंक्रनाइज़ेशन की ज़्यादा लागत की वजह से, इस तरह के स्प्लिट एक्ज़ीक्यूशन मोड से अक्सर परफ़ॉर्मेंस धीमी हो जाती है. ऐसा तब होता है, जब पूरे नेटवर्क को सिर्फ़ सीपीयू पर चलाया जाता है. इस मामले में, ऐप्लिकेशन इस तरह की चेतावनी जनरेट करता है:
WARNING: op code #42 cannot be handled by this delegate.
इस तरह की गड़बड़ियों के लिए कोई कॉलबैक नहीं होता, क्योंकि यह रनटाइम की गड़बड़ी नहीं है. जीपीयू डेलिगेट के साथ अपने मॉडल को लागू करने की प्रोसेस को टेस्ट करते समय, आपको इन चेतावनियों के बारे में पता होना चाहिए. इन चेतावनियों की ज़्यादा संख्या से पता चल सकता है कि आपका मॉडल, जीपीयू ऐक्सेलरेटेड ट्रेनिंग के लिए सबसे सही नहीं है. साथ ही, इसके लिए मॉडल को फिर से तैयार करने की ज़रूरत पड़ सकती है.
मॉडल के उदाहरण
यहां दिए गए उदाहरण मॉडल, LiteRT के साथ जीपीयू ऐक्सेलरेटर का फ़ायदा पाने के लिए बनाए गए हैं. इन्हें सिर्फ़ रेफ़रंस और टेस्टिंग के लिए उपलब्ध कराया गया है:
- MobileNet v1 (224x224) का इस्तेमाल करके इमेज को कैटगरी में बांटना
- यह इमेज क्लासिफ़िकेशन मॉडल, मोबाइल और एम्बेड किए गए विज़न ऐप्लिकेशन के लिए डिज़ाइन किया गया है.
(model)
* DeepLab segmentation (257x257)
- इमेज सेगमेंटेशन मॉडल, जो इनपुट इमेज में मौजूद हर पिक्सल को सिमैंटिक लेबल असाइन करता है. जैसे, कुत्ता, बिल्ली, कार.
(मॉडल)
* MobileNet SSD ऑब्जेक्ट डिटेक्शन
- इमेज क्लासिफ़िकेशन मॉडल, जो बाउंडिंग बॉक्स की मदद से कई ऑब्जेक्ट का पता लगाता है.
(मॉडल)
* PoseNet for pose estimation
- यह एक विज़न मॉडल है. यह इमेज या वीडियो में लोगों की पोज़ का अनुमान लगाता है. (मॉडल)
- इमेज क्लासिफ़िकेशन मॉडल, जो बाउंडिंग बॉक्स की मदद से कई ऑब्जेक्ट का पता लगाता है.
(मॉडल)
* PoseNet for pose estimation
- इमेज सेगमेंटेशन मॉडल, जो इनपुट इमेज में मौजूद हर पिक्सल को सिमैंटिक लेबल असाइन करता है. जैसे, कुत्ता, बिल्ली, कार.
(मॉडल)
* MobileNet SSD ऑब्जेक्ट डिटेक्शन
- यह इमेज क्लासिफ़िकेशन मॉडल, मोबाइल और एम्बेड किए गए विज़न ऐप्लिकेशन के लिए डिज़ाइन किया गया है.
(model)
* DeepLab segmentation (257x257)
जीपीयू के लिए ऑप्टिमाइज़ करना
LiteRT GPU डेलिगेट का इस्तेमाल करके, जीपीयू हार्डवेयर पर मॉडल चलाने के दौरान बेहतर परफ़ॉर्मेंस पाने के लिए, इन तकनीकों का इस्तेमाल किया जा सकता है:
रीशेप ऑपरेशन - कुछ ऐसे ऑपरेशन होते हैं जो सीपीयू पर तेज़ी से पूरे हो जाते हैं. हालांकि, मोबाइल डिवाइसों पर जीपीयू के लिए इनकी लागत ज़्यादा हो सकती है. रीशेप ऑपरेशन को चलाने में ज़्यादा समय लगता है. इनमें
BATCH_TO_SPACE,SPACE_TO_BATCH,SPACE_TO_DEPTHवगैरह शामिल हैं. आपको रीशेप करने की कार्रवाइयों के इस्तेमाल की बारीकी से जांच करनी चाहिए. साथ ही, यह ध्यान रखना चाहिए कि इन्हें सिर्फ़ डेटा एक्सप्लोर करने या मॉडल के शुरुआती वर्शन के लिए लागू किया गया हो. इन्हें हटाने से, परफ़ॉर्मेंस में काफ़ी सुधार हो सकता है.इमेज डेटा चैनल - जीपीयू पर, टेंसर डेटा को चार चैनलों में बांटा जाता है. इसलिए,
[B,H,W,5]शेप वाले टेंसर पर की गई कैलकुलेशन,[B,H,W,8]शेप वाले टेंसर पर की गई कैलकुलेशन के बराबर होती है. हालांकि, यह[B,H,W,4]से काफ़ी कम होती है. अगर इस्तेमाल किया जा रहा कैमरा हार्डवेयर, RGBA में इमेज फ़्रेम के साथ काम करता है, तो चार चैनल वाला इनपुट देने की प्रोसेस काफ़ी तेज़ होती है. ऐसा इसलिए, क्योंकि इससे तीन चैनल वाले RGB से चार चैनल वाले RGBX में मेमोरी कॉपी करने की ज़रूरत नहीं पड़ती.मोबाइल के लिए ऑप्टिमाइज़ किए गए मॉडल - बेहतर परफ़ॉर्मेंस के लिए, आपको मोबाइल के लिए ऑप्टिमाइज़ किए गए नेटवर्क आर्किटेक्चर के साथ अपने क्लासिफ़ायर को फिर से ट्रेन करना चाहिए. डिवाइस पर मौजूद डेटा का इस्तेमाल करके अनुमान लगाने की प्रोसेस को ऑप्टिमाइज़ करने से, मोबाइल हार्डवेयर की सुविधाओं का फ़ायदा मिलता है. इससे, ऐप्लिकेशन के खुलने में लगने वाला समय और बैटरी की खपत काफ़ी कम हो सकती है.
ऐडवांस जीपीयू सपोर्ट
जीपीयू प्रोसेसिंग के साथ-साथ, ज़्यादा बेहतर और नई तकनीकों का इस्तेमाल किया जा सकता है. इससे आपके मॉडल की परफ़ॉर्मेंस और भी बेहतर हो सकती है. इनमें क्वानटाइज़ेशन और सीरियलाइज़ेशन शामिल हैं. इन सेक्शन में, इन तकनीकों के बारे में ज़्यादा जानकारी दी गई है.
क्वांटाइज़ किए गए मॉडल का इस्तेमाल करना
इस सेक्शन में बताया गया है कि जीपीयू डेलिगेट, 8-बिट क्वॉन्टाइज़्ड मॉडल को कैसे तेज़ करता है. इसमें यह भी शामिल है:
- क्वांटाइज़ेशन-अवेयर ट्रेनिंग का इस्तेमाल करके ट्रेन किए गए मॉडल
- पोस्ट-ट्रेनिंग डाइनैमिक-रेंज क्वांटाइज़ेशन
- पोस्ट-ट्रेनिंग फ़ुल-इंटीजर क्वांटाइज़ेशन
बेहतर परफ़ॉर्मेंस के लिए, ऐसे मॉडल इस्तेमाल करें जिनमें फ़्लोटिंग-पॉइंट इनपुट और आउटपुट टेंसर, दोनों हों.
यह कैसे काम करता है?
जीपीयू बैकएंड सिर्फ़ फ़्लोटिंग-पॉइंट एक्ज़ीक्यूशन के साथ काम करता है. इसलिए, हम क्वांटाइज़ किए गए मॉडल को ओरिजनल मॉडल का ‘फ़्लोटिंग-पॉइंट व्यू’ देकर चलाते हैं. बड़े लेवल पर, इसमें ये चरण शामिल होते हैं:
कॉन्स्टेंट टेंसर (जैसे कि वज़न/बायस) को GPU मेमोरी में एक बार डी-क्वांटाइज़ किया जाता है. यह कार्रवाई तब होती है, जब LiteRT के लिए डेलिगेट चालू होता है.
अगर जीपीयू प्रोग्राम के इनपुट और आउटपुट को 8-बिट में क्वांटाइज़ किया गया है, तो हर अनुमान के लिए उन्हें डी-क्वांटाइज़ और क्वांटाइज़ किया जाता है. यह कार्रवाई, LiteRT के ऑप्टिमाइज़ किए गए कर्नल का इस्तेमाल करके सीपीयू पर की जाती है.
क्वांटाइज़ेशन सिम्युलेटर को ऑपरेशन के बीच में डाला जाता है, ताकि क्वांटाइज़ किए गए व्यवहार की नकल की जा सके. यह तरीका उन मॉडल के लिए ज़रूरी है जिनमें ओपीएस को उम्मीद होती है कि ऐक्टिवेशन, क्वांटाइज़ेशन के दौरान सीखी गई सीमाओं का पालन करेंगे.
जीपीयू डेलिगेट के साथ इस सुविधा को चालू करने के बारे में जानकारी के लिए, यहां जाएं:
- Android पर GPU के साथ क्वॉन्टाइज़ किए गए मॉडल का इस्तेमाल करना
- iOS पर जीपीयू के साथ क्वॉन्टाइज़ किए गए मॉडल का इस्तेमाल करना
सीरियलाइज़ेशन की मदद से, शुरू होने में लगने वाला समय कम करना
जीपीयू डेलिगेट सुविधा की मदद से, पहले से कंपाइल किए गए कर्नल कोड और मॉडल डेटा को लोड किया जा सकता है. साथ ही, पिछले रन से डिस्क पर सेव किए गए डेटा को क्रम से लगाया जा सकता है. इस तरीके से, फिर से कंपाइल करने की ज़रूरत नहीं पड़ती. साथ ही, स्टार्टअप में लगने वाले समय को 90% तक कम किया जा सकता है. इस सुधार को, डिस्क स्पेस के बदले समय बचाने के लिए किया गया है. इस सुविधा को चालू करने के लिए, कॉन्फ़िगरेशन के कुछ विकल्प इस्तेमाल किए जा सकते हैं. इनके बारे में कोड के इन उदाहरणों में बताया गया है:
C++
TfLiteGpuDelegateOptionsV2 options = TfLiteGpuDelegateOptionsV2Default(); options.experimental_flags |= TFLITE_GPU_EXPERIMENTAL_FLAGS_ENABLE_SERIALIZATION; options.serialization_dir = kTmpDir; options.model_token = kModelToken; auto* delegate = TfLiteGpuDelegateV2Create(options); if (interpreter->ModifyGraphWithDelegate(delegate) != kTfLiteOk) return false;
Java
GpuDelegate delegate = new GpuDelegate( new GpuDelegate.Options().setSerializationParams( /* serializationDir= */ serializationDir, /* modelToken= */ modelToken)); Interpreter.Options options = (new Interpreter.Options()).addDelegate(delegate);
सीरियलाइज़ेशन की सुविधा का इस्तेमाल करते समय, पक्का करें कि आपका कोड लागू करने से जुड़े इन नियमों का पालन करता हो:
- सीरियलाइज़ेशन डेटा को ऐसी डायरेक्ट्री में सेव करें जिसे अन्य ऐप्लिकेशन ऐक्सेस न कर पाएं. Android डिवाइसों पर,
getCodeCacheDir()का इस्तेमाल करें. यह मौजूदा ऐप्लिकेशन के लिए निजी जगह की जानकारी देता है. - मॉडल टोकन, डिवाइस के लिए यूनीक होना चाहिए.
farmhash::Fingerprint64जैसी लाइब्रेरी का इस्तेमाल करके, मॉडल के डेटा से फ़िंगरप्रिंट जनरेट करके मॉडल टोकन का हिसाब लगाया जा सकता है.