शेयर करें

Roboflow ने PaliGemma 2 की मदद से, कंप्यूटर विज़न को बेहतर बनाया

Roboflow को 2020 में लॉन्च किया गया था. इसका मकसद कंप्यूटर विज़न को बेहतर बनाना था. इससे मशीनों और कंप्यूटर को, इंसानों की तरह ही इमेज, वीडियो, और कैमरे के फ़ीड को समझने और उनका विश्लेषण करने में मदद मिलती है.

अपने लक्ष्य को हासिल करने के लिए, Roboflow ने टूल का एक नया सेट बनाया है. इसकी मदद से, PaliGemma का इस्तेमाल करके कंप्यूटर विज़न का बेहतर वर्कफ़्लो बनाया जा सकता है. PaliGemma, Gemma का विज़न-लैंग्वेज मॉडल (वीएलएम) है. इसे Roboflow के मुख्य मॉडल में से एक के तौर पर इस्तेमाल किया जाता है. PaliGemma 2, अब Roboflow के टूल सेट का एक ज़रूरी कॉम्पोनेंट है. साथ ही, यह प्लैटफ़ॉर्म पर सबसे ज़्यादा इस्तेमाल किया जाने वाला मॉडल है. इस वजह से, Roboflow ने मॉडल के डेवलपमेंट में काफ़ी योगदान दिया है.

चुनौती

Roboflow के फ़ाउंडर ने शुरुआत में, अपने कंप्यूटर विज़न ऐप्लिकेशन बनाने पर काम किया था. इससे, डेवलपर अपनी समस्याओं को हल करने के लिए, कंप्यूटर विज़न का बेहतर तरीके से इस्तेमाल कर पाएंगे. डेवलपमेंट की प्रोसेस के दौरान, टीम को कंप्यूटर विज़न मॉडल और उन पर आधारित ऐप्लिकेशन बनाने और उन्हें डिप्लॉय करने में परेशानी हुई. इस प्रोसेस में कोई खास स्ट्रक्चर नहीं था. इसमें बहुत ज़्यादा बार कोशिश-गलती की जाती थी. साथ ही, उन्हें फ़्लाइट के दौरान कोड लिखना पड़ता था और अपने ट्रेनिंग डेटा का इस्तेमाल करना पड़ता था. टीमों और संगठनों के बीच काम शेयर करने में भी समस्याएं आ रही थीं, क्योंकि कंप्यूटर विज़न के डेवलपमेंट के लिए, कोई रणनीति या तकनीक तय नहीं की गई थी. कंप्यूटर विज़न का इस्तेमाल कई कामों के लिए किया जा सकता है. हालांकि, इस पर काम करने वाले लोगों की संख्या काफ़ी कम थी.

बुल्गारियाई भाषा में एलएलएम की परफ़ॉर्मेंस की तुलना.
बुल्गारियाई भाषा में एलएलएम की परफ़ॉर्मेंस की तुलना.
Roboflow की ऑप्टिकल कैरेक्टर रिकग्निशन टेस्टिंग में, PaliGemma सबसे तेज़ और सबसे किफ़ायती मॉडल के तौर पर रैंक करता है.

समाधान

Roboflow की टीम, डेवलपर वर्कफ़्लो और टूलसेट बनाकर, कंप्यूटर विज़न ऐप्लिकेशन बनाने की प्रोसेस को आसान और कोड में बदलने के लिए काम कर रही थी. इससे डेवलपर के लिए प्रोसेस आसान हो जाती है. Roboflow अब कंप्यूटर विज़न ऐप्लिकेशन के लिए, विकल्पों का एक बेहतरीन सुइट उपलब्ध कराता है. इसमें, पहले से तैयार किए गए बिल्डिंग ब्लॉक शामिल हैं, जिनसे तुरंत लागू किए जा सकने वाले समाधान मिलते हैं. साथ ही, इसमें अपने विज़न मॉडल बनाने और उन्हें ट्रेन करने के लिए बेहतर टूल भी शामिल हैं.

Roboflow के टूलबॉक्स में PaliGemma 2 3B की अद्भुत क्षमता एक ज़रूरी एसेट है. PaliGemma, Roboflow के ग्राहकों का पसंदीदा मॉडल है. इसकी मदद से, इंडस्ट्री में सबसे सटीक, तेज़, और बेहतर परफ़ॉर्मेंस वाली नतीजे मिलते हैं. साथ ही, इसमें कई खास सुविधाएं भी मिलती हैं. इनमें से एक खास सुविधा यह है कि PaliGemma को मालिकाना डेटा के साथ स्थानीय तौर पर ट्रेन किया जा सकता है और चलाया जा सकता है. इससे डेवलपर, अपनी कंपनी के बाहर डेटा शेयर किए बिना, खास और निजी समाधान बना सकते हैं. Roboflow के मार्केटिंग लीड ट्रेवर लिन के मुताबिक, यह सुविधा PaliGemma को अन्य वीएलएम से अलग बनाती है. “ओपन वीएलएम, एंटरप्राइज़ के लिए कई मोड वाले ऐप्लिकेशन बनाने में काफ़ी मददगार हैं.”

Roboflow, टूल और वर्कफ़्लो के अलावा, डेवलपर को बिना किसी शुल्क के शिक्षा से जुड़े संसाधन उपलब्ध कराकर, “दुनिया को प्रोग्राम करने लायक बनाने” के अपने मिशन को पूरा करता है. Roboflow के ब्लॉग में, PaliGemma और अन्य वीएलएम के साथ काम करने के बारे में पूरी जानकारी दी गई है. साथ ही, इसके डेवलपर लगातार X और YouTube जैसे चैनलों पर ज़्यादा जानकारी वाले ट्यूटोरियल शेयर करते हैं. इससे सभी डेवलपर को कंप्यूटर विज़न की दुनिया को बेहतर बनाने में मदद मिलती है. भले ही, वे Roboflow के नेटवर्क से बाहर के हों.

असर

आज, Roboflow के टूलसेट का इस्तेमाल करने वाले एक मिलियन से ज़्यादा इंजीनियर हैं. इनकी मदद से, इंडस्ट्री के लीडर अपने कारोबार को ज़्यादा असरदार बना रहे हैं. साथ ही, वे अपना अहम समय और संसाधन बचा रहे हैं. उदाहरण के लिए, अमेरिका की सबसे बड़ी फ़्रेट रेलवे कंपनी BNSF Railway ने Roboflow का इस्तेमाल करके, कंप्यूटर विज़न के समाधान बनाए. जैसे, रीयल-टाइम इन्वेंट्री मॉनिटरिंग और सुरक्षा जांच को बेहतर बनाना.

“लैब में एआई का इस्तेमाल करके अच्छे नतीजे पाना आसान है. हालांकि, असल चुनौती तब आती है, जब हमारे जैसे नेटवर्क में रोज़ के कामों में रुकावट डाले बिना, किसी समस्या का समाधान पूरे नेटवर्क में लागू किया जाए. Roboflow के साथ हमारी साझेदारी की मदद से, हम ऐसा कर पा रहे हैं.”

— असीम घांची, बीएनएसएफ़ रेलवे के एवीपी ऑफ़ टेक्नोलॉजी

175 हज़ार

पहले से ट्रेन किए गए मॉडल उपलब्ध हैं

10 लाख

डेवलपर उपयोगकर्ता

57.5 करोड़

Roboflow का इस्तेमाल करके लेबल की गई इमेज

अब क्या होगा

Roboflow, डेवलपर के लिए उपलब्ध टूल और संसाधनों के पोर्टफ़ोलियो को लगातार बड़ा कर रहा है. इसके लिए, वह नए प्रॉडक्ट उपलब्ध कराता है और मौजूदा प्रॉडक्ट में बड़े अपडेट करता है. हाल ही में, टीम ने Roboflow Annotate का इस्तेमाल करके, मल्टीमोडल विज़न मॉडल के लिए डेटा को लेबल करने और उसकी समीक्षा करने की सुविधा लॉन्च की है. साथ ही, डेवलपर के लिए मल्टीमोडल मॉडल रिलीज़ करना शुरू किया है, ताकि वे उन्हें डाउनलोड कर सकें, उनमें बदलाव कर सकें, और उन्हें ट्रेन कर सकें.

इन पहलों से, Roboflow की कंप्यूटर विज़न को बेहतर बनाने की प्रतिबद्धता और डेवलपर को PaliGemma जैसे मॉडल की मदद से नए समाधान बनाने में मदद करने की कोशिश को और मज़बूती मिलती है. कंप्यूटर विज़न के भविष्य के बारे में पूछे जाने पर, Roboflow के सीईओ जोसेफ़ नेल्सन ने कहा, “मेरा मानना है कि विज़ुअल एआई एक बुनियादी टेक्नोलॉजी है, जो हर इंडस्ट्री को बदल देगी. जिस तरह इंसानों को दुनिया को देखने की मुख्य भावना आंखों से मिलती है, उसी तरह आने वाले समय में कंप्यूटर और सॉफ़्टवेयर को भी दुनिया को देखने की मुख्य भावना आंखों से ही मिलेगी.”