Roboflow verbessert maschinelles Sehen mit PaliGemma 2
Roboflow wurde 2020 mit dem Ziel gegründet, maschinelles Sehen zu verbessern. Dadurch können Maschinen und Computer Bilder, Videos und Kamerafeeds ähnlich wie das menschliche Auge wahrnehmen und interpretieren.
Um dieses Ziel zu erreichen, hat Roboflow eine Reihe neuer Tools entwickelt, um einen hochwertigen Workflow für maschinelles Sehen mit PaliGemma, dem Vision-Language-Modell (VLM) von Gemma, als einem seiner Kernmodelle zu erstellen. PaliGemma 2 ist jetzt eine wichtige Komponente im Tool-Set von Roboflow und eines der am häufigsten verwendeten Modelle auf der Plattform. Das hat dazu geführt, dass Roboflow einen wesentlichen Beitrag zur Entwicklung des Modells geleistet hat.
Die Herausforderung
Die Gründer von Roboflow haben ursprünglich an der Entwicklung ihrer eigenen Anwendungen für maschinelles Sehen gearbeitet, um die Art und Weise zu verbessern, wie Entwickler maschinelles Sehen auf ihre Probleme anwenden. Während des Entwicklungsprozesses stellte das Team fest, dass das Erstellen und Bereitstellen von Modellen für maschinelles Sehen und darauf basierender Apps frustrierend war. Der Prozess hatte keine klare Struktur, basierte zu sehr auf Versuch und Irrtum und erforderte, dass sie spontan programmieren und ihre eigenen Trainingsdaten verwenden mussten. Auch die Arbeitsteilung zwischen Teams und Organisationen stellte eine Herausforderung dar, da es keine vereinbarten Strategien oder Techniken für die Entwicklung von Technologien für maschinelles Sehen gab. Obwohl maschinelles Sehen nahezu unbegrenzte Anwendungsfälle bietet, war die Anzahl der Personen, die damit arbeiten konnten, vergleichsweise gering.


Die Lösung
Das Roboflow-Team war entschlossen, den Prozess zum Erstellen von Anwendungen für maschinelles Sehen zu vereinfachen und zu kodifizieren. Dazu entwickelte es einen Entwickler-Workflow und ein Toolset, das den Prozess für Entwickler vereinfacht. Roboflow bietet jetzt eine umfassende Suite an Optionen für Anwendungen für maschinelles Sehen, darunter vorgefertigte Bausteine für sofort einsatzbereite Lösungen und erweiterte Tools zum Erstellen und Trainieren eigener Visionsmodelle.
Ein unverzichtbares Tool in Roboflow ist die unglaubliche Leistung von PaliGemma 2 3B. PaliGemma bietet branchenführende Genauigkeit, Geschwindigkeit, Leistung und einzigartige Funktionen und ist eines der bevorzugten Modelle der Kunden von Roboflow. Eine dieser einzigartigen Funktionen ist, dass PaliGemma lokal mit proprietären Daten trainiert und ausgeführt werden kann. So können Entwickler maßgeschneiderte und private Lösungen erstellen, ohne ihre Daten außerhalb ihres Unternehmens teilen zu müssen. Diese Funktion ist laut Roboflow-Marketingleiter Trevor Lynn eine der Besonderheiten von PaliGemma, die es von anderen VLMs abhebt. „Offene VLMs sind ein echter Durchbruch für die Entwicklung multimodaler Anwendungen für Unternehmen.“
Neben den Tools und Workflows verfolgt Roboflow sein Ziel, „die Welt programmierbar zu machen“, indem es Entwicklern kostenlose Bildungsressourcen anbietet. Der Roboflow-Blog enthält detaillierte Anleitungen zur Arbeit mit PaliGemma und anderen VLMs. Die Entwickler veröffentlichen regelmäßig detaillierte Tutorials auf Kanälen wie X und YouTube, um die Welt der Computer Vision für alle Entwickler zu verbessern – auch für diejenigen, die nicht zum Roboflow-System gehören.
Die Auswirkungen
Heute nutzen über eine Million Entwickler die Tools von Roboflow, um ihre Unternehmen effizienter zu gestalten und wertvolle Zeit und Ressourcen zu sparen. So hat beispielsweise die BNSF Railway, die größte Güterbahn in den USA, Roboflow verwendet, um Lösungen für die Computer Vision zu entwickeln, z. B. Echtzeitinventarüberwachung, um Sicherheitsprüfungen zu verbessern.
„Es ist einfach, mithilfe von KI in einer Laborumgebung positive Ergebnisse zu erzielen. Die eigentliche Herausforderung besteht darin, die Lösung auf ein Netzwerk wie unseres zu skalieren, ohne den täglichen Betrieb zu beeinträchtigen. Unsere Partnerschaft mit Roboflow ermöglicht uns genau das.“
175.000
Vortrainierte Modelle verfügbar
1 Mio.
Entwicklernutzer
575 Mio.
Mit Roboflow gekennzeichnete Bilder
Weiteres Vorgehen
Roboflow erweitert sein Portfolio an Tools und Ressourcen für Entwickler kontinuierlich, indem es neue Produkte und umfangreiche Updates für bestehende Produkte anbietet. Vor Kurzem hat das Team die Möglichkeit eingeführt, Daten für multimodale Visionsmodelle mit Roboflow Annotate zu labeln und zu überprüfen. Außerdem wurden multimodale Modelle veröffentlicht, die Entwickler herunterladen, bearbeiten und trainieren können.
Diese Initiativen unterstreichen das Engagement von Roboflow für die Weiterentwicklung des maschinellen Sehens und ermöglichen es Entwicklern, mit Modellen wie PaliGemma innovative Lösungen zu entwickeln. Auf die Frage nach der Zukunft des maschinellen Sehens sagte Joseph Nelson, CEO von Roboflow: „Ich glaube, visuelle KI ist eine grundlegende Technologie, die jede Branche verändern wird. Ähnlich wie Menschen die Welt hauptsächlich über ihren Sehsinn wahrnehmen, wird das in unserem Leben auch für Computer und Software gelten.“