Roboflow が PaliGemma 2 でコンピュータ ビジョンを改善
Roboflow は、コンピュータ ビジョンの改善を目標に 2020 年に設立されました。これにより、機械やコンピュータが人間の視覚と同様に画像、動画、カメラフィードを認識して解釈できるようになります。
この目標を達成するために、Roboflow は、PaliGemma(Gemma の視覚言語モデル(VLM))をコアモデルの 1 つとして使用し、高品質のコンピュータ ビジョン ワークフローを構築するための新しいツールセットを作成しました。PaliGemma 2 は Roboflow のツールセットの重要なコンポーネントであり、同プラットフォームで広く採用されているモデルの一つです。これにより、Roboflow はモデルの開発に大きく貢献しています。
課題
Roboflow の創設者は、デベロッパーがコンピュータ ビジョンを問題に適用する方法を改善するために、独自のコンピュータ ビジョン アプリケーションの作成に取り組んでいました。開発プロセスで、コンピュータ ビジョン モデルとそれに基づいて構築されたアプリの構築とデプロイが煩雑であることに気づきました。このプロセスには明確な構造がなく、試行錯誤に頼りすぎており、その場でコードを記述して独自のトレーニング データを使用する必要がありました。コンピュータ ビジョン開発に関する合意された戦略や手法がないため、チームや組織間で作業を共有することも課題でした。コンピュータ ビジョンにはほぼ無限のユースケースの可能性がありますが、それを扱える人の数は比較的限られていました。


ソリューション
Roboflow チームは、デベロッパーの作業を簡素化するデベロッパー ワークフローとツールセットを作成することで、コンピュータ ビジョン アプリケーションの作成プロセスを簡素化し、コード化することに取り組みました。Roboflow は、すぐにデプロイできるソリューション向けの事前作成済みビルディング ブロックや、独自のビジョンモデルを作成してトレーニングするための高度なツールなど、コンピュータ ビジョン アプリケーション向けの包括的なオプション スイートを提供しています。
Roboflow のツールボックスに欠かせないアセットは、PaliGemma 2 3B の驚異的なパワーです。業界をリードする精度、速度、パフォーマンス、独自の機能を備えた PaliGemma は、Roboflow のお客様に好まれるモデルの 1 つです。独自の機能の一つとして、PaliGemma は独自のデータを使用してローカルでトレーニングして実行できるため、デベロッパーはデータを社外に共有することなく、カスタムおよび非公開のソリューションを作成できます。Roboflow マーケティング リード Trevor Lynn によると、この機能は PaliGemma を他の VLM と本当に差別化する要素の一つです。「オープン VLM は、企業向けのマルチモーダル アプリケーションを構築するための画期的な技術です。」
ツールとワークフローの提供にとどまらず、Roboflow は、開発者に無料の教育リソースを提供することで、「世界をプログラム可能にする」という使命を追求しています。Roboflow のブログでは、PaliGemma の使用やその他の VLM の詳細なチュートリアルが紹介されています。また、Roboflow のエコシステム外のデベロッパーも含め、すべてのデベロッパーがコンピュータ ビジョンの世界を改善できるよう、デベロッパーが X などのチャンネルや YouTube で詳細なチュートリアルを継続的に共有しています。
効果
現在、Roboflow のツールセットは 100 万人以上のエンジニアが使用しており、業界をリードする企業がビジネスを効率化し、貴重な時間とリソースを節約できるよう支援しています。たとえば、米国最大の貨物鉄道である BNSF Railway は、Roboflow を使用して、リアルタイムの在庫モニタリングなどのコンピューター ビジョン ソリューションを構築し、安全性検査を改善しました。
「ラボ環境で AI を使用して良い結果を得るのは簡単ですが、日常業務を中断することなく、Google のようなネットワーク全体にソリューションを拡張するのが本当の課題です。Roboflow とのパートナーシップにより、それが可能になりました。」
175,000 人
使用可能な事前トレーニング済みモデル
100 万
デベロッパー ユーザー
575M
Roboflow を使用してラベル付けされた画像
次のステップ
Roboflow は、新製品の提供や既存製品の大幅な更新を通じて、デベロッパーが利用できるツールとリソースのポートフォリオを継続的に拡大しています。最近、チームは Roboflow Annotate を使用してマルチモーダル画像モデルのデータにラベルを付け、確認する機能をリリースしました。また、デベロッパーがダウンロード、編集、トレーニングできるようにマルチモーダル モデルのリリースも開始しました。
これらの取り組みは、コンピューター ビジョンの進歩と、デベロッパーが PaliGemma などのモデルを使用して革新的なソリューションを構築できるようにするための Roboflow の取り組みをさらに推進します。コンピュータ ビジョンの将来について尋ねられた Roboflow の CEO である Joseph Nelson 氏は、次のように述べています。「視覚 AI は、あらゆる業界を変革する基盤技術であると考えています。人間が主に視覚で世界を体験するように、コンピュータとソフトウェアも、私たちの存命中に同じことが言えるでしょう。」