Roboflow משפרת את הראייה הממוחשבת באמצעות PaliGemma 2
Roboflow הושקה ב-2020 במטרה לשפר את הראייה הממוחשבת, שמאפשרת למכונות ולמחשבים לזהות ולפרש תמונות, סרטונים ופידים של מצלמות, בדומה לראייה אנושית.
כדי להשיג את היעד הזה, ב-Roboflow יצרו קבוצה חדשה של כלים ליצירת תהליך עבודה איכותי של עיבוד תמונה באמצעות PaliGemma, מודל ה-VLM (Vision-Language) של Gemma, כאחד מהמודלים המרכזיים. PaliGemma 2 הוא עכשיו רכיב חיוני בערכת הכלים של Roboflow, ואחד מהמודלים הנפוצים ביותר בפלטפורמה שלה. בעקבות זאת, צוות Roboflow תרם רבות לפיתוח המודל.
האתגר
בתחילה, המייסדים של Roboflow עבדו על יצירת אפליקציות ראייה ממוחשבת משלהם כדי לשפר את האופן שבו מפתחים מיישמים ראייה ממוחשבת לפתרון הבעיות שלהם. במהלך תהליך הפיתוח, הצוות גילה שהיצירה והפריסה של מודלים של ראייה ממוחשבת והאפליקציות שמבוססות עליהם היא תהליך מתסכל. התהליך לא היה בעל מבנה ברור, והתבסס על יותר מדי ניסוי וטעייה. בנוסף, הוא דרש מהם לכתוב קוד בזמן אמת ולהשתמש בנתוני אימון משלהם. גם שיתוף העבודה בין צוותים וארגונים הציב אתגרים, כי לא היו שיטות או אסטרטגיות מוסכמות לפיתוח ראיית מכונה. לראייה ממוחשבת יש פוטנציאל לשימוש כמעט בלתי מוגבל, אבל מספר האנשים שיכולים לעבוד איתה היה מוגבל יחסית.


הפתרון
צוות Roboflow היה נחוש לפשט ולקבוע קוד לתהליך יצירת אפליקציות של ראייה ממוחשבת, על ידי יצירת סט כלים ותהליך עבודה למפתחים שמפשטים את התהליך עבורם. Roboflow מציעה עכשיו חבילת אפשרויות מקיפה לאפליקציות של עיבוד תמונה, כולל אבני בניין מוכנות לפתרון זמין לפריסה וכלים מתקדמים ליצירה ולהדרכה של מודלים משלכם לעיבוד תמונה.
אחד הנכסים החיוניים בכלי של Roboflow הוא העוצמה המדהימה של PaliGemma 2 3B. PaliGemma מציע דיוק, מהירות, ביצועים ותכונות ייחודיות המובילים בתחום, והוא אחד מהמודלים המועדפים על לקוחות Roboflow. אחת מהתכונות הייחודיות האלה היא שאפשר לאמן את PaliGemma ולהריץ אותה באופן מקומי באמצעות נתונים קנייניים, וכך מפתחים יכולים ליצור פתרונות מותאמים אישית ופרטיים בלי לשתף את הנתונים שלהם מחוץ לחברה. לדברי Trevor Lynn, מנהל השיווק של Roboflow, התכונה הזו היא אחד הדברים שמבדילים את PaliGemma מ-VLM אחרים. "מודלים פתוחים של VLM הם פריצת דרך מוחלטת ליצירת אפליקציות עם מגוון מופעים לארגונים".
בנוסף לכלים ולתהליכי העבודה, Roboflow פועלת בהתאם למשימתה "להפוך את העולם לתוכנה" על ידי מתן משאבים חינוכיים חינמיים למפתחים. בבלוג של Roboflow יש מדריכים מפורטים לעבודה עם PaliGemma ועם מודלים אחרים של VLM. המפתחים של Roboflow משתפים באופן קבוע מדריכים מפורטים בערוצים כמו X ו-YouTube, כדי לעזור לשפר את עולם הראייה הממוחשבת לכל המפתחים – גם אלה שאינם נמצאים בסביבה העסקית של Roboflow.
ההשפעה
כיום, יותר ממיליון מהנדסים משתמשים בערכות הכלים של Roboflow, שעוזרות למובילי התעשייה לשפר את היעילות של העסקים שלהם ולחסוך זמן ומשאבים חשובים. לדוגמה, חברת BNSF Railway, חברת הרכבות הגדולה ביותר בארצות הברית להובלת מטענים, השתמשה ב-Roboflow כדי ליצור פתרונות של ראיית מכונה, כמו מעקב אחר מלאי בזמן אמת ושיפור הבדיקות הבטיחותיות.
"קל להשיג תוצאות חיוביות באמצעות AI בסביבת מעבדה, אבל האתגר האמיתי מגיע כשצריך להתאים את הפתרונות לרשת כמו שלנו בלי לשבש את הפעילות היומיומית. השותפות שלנו עם Roboflow מאפשרת לנו לעשות זאת".
175k
מודלים שעברו אימון מראש
מיליון
משתמשים למפתחים
575M
תמונות שסומנו באמצעות Roboflow
השלב הבא
אנחנו ב-Roboflow ממשיכים להרחיב את מגוון הכלים והמשאבים שזמינים למפתחים, ומציעים מוצרים חדשים ועדכונים נרחבים למוצרים קיימים. לאחרונה הצוות השיק את היכולת לתייג ולבדוק נתונים של מודלים של ראייה מרובת-מודולים באמצעות Roboflow Annotate, וגם התחיל להוציא מודלים של ראייה מרובת-מודולים כדי שמפתחים יוכלו להוריד אותם, לערוך אותם ולאמן אותם.
היוזמות האלה מבטאות את המחויבות של Roboflow לקידום הראייה הממוחשבת ולעזרה למפתחים ליצור פתרונות חדשניים באמצעות מודלים כמו PaliGemma. כשנשאל על העתיד של זיהוי אובייקטים, מנכ"ל Roboflow, ג'וזף נלסון, אמר: "אני מאמין ש-AI חזותי הוא טכנולוגיה בסיסית שתשנה כל תעשייה. בדומה לאופן שבו בני אדם חווים את העולם בעיקר באמצעות חוש הראייה, כך יהיה גם לגבי מחשבים ותוכנות במהלך חיינו".