Roboflow, PaliGemma 2로 컴퓨터 비전 개선
Roboflow는 2020년에 컴퓨터 비전을 개선하는 것을 목표로 설립되었습니다. 컴퓨터 비전을 통해 기계와 컴퓨터가 인간의 시각과 마찬가지로 이미지, 동영상, 카메라 피드를 인식하고 해석할 수 있습니다.
Roboflow는 이 목표를 달성하기 위해 Gemma의 비전 언어 모델 (VLM)인 PaliGemma를 핵심 모델 중 하나로 사용하여 고품질 컴퓨터 비전 워크플로를 설정하는 새로운 도구 세트를 만들었습니다. PaliGemma 2는 이제 Roboflow의 도구 세트에서 필수 구성요소이며 플랫폼에서 가장 널리 채택된 모델 중 하나입니다. 이를 통해 Roboflow는 모델 개발에 크게 기여했습니다.
도전과제
Roboflow 창립자는 원래 개발자가 문제에 컴퓨터 비전을 적용하는 방식을 개선하기 위해 자체 컴퓨터 비전 애플리케이션을 만드는 작업을 진행했습니다. 개발 과정에서 팀은 컴퓨터 비전 모델과 이를 기반으로 빌드된 앱을 빌드하고 배포하는 것이 불편하다는 사실을 발견했습니다. 이 프로세스는 명확한 구조가 없고 시행착오에 너무 많이 의존했으며, 실시간으로 코딩하고 자체 학습 데이터를 사용해야 했습니다. 컴퓨터 비전 개발에 대한 합의된 전략이나 기법이 없었기 때문에 팀과 조직 간에 작업을 공유하는 것도 쉽지 않았습니다. 컴퓨터 비전은 거의 무한한 사용 사례를 보유하고 있지만 이를 활용할 수 있는 인력은 비교적 제한적입니다.


해결 방법
Roboflow팀은 개발자를 위한 프로세스를 간소화하는 개발자 워크플로 및 도구 모음을 만들어 컴퓨터 비전 애플리케이션을 만드는 프로세스를 간소화하고 코딩하기로 결정했습니다. 이제 Roboflow는 즉시 배포할 수 있는 솔루션을 위한 사전 제작된 구성요소와 자체 비전 모델을 만들고 학습하는 고급 도구를 포함하여 컴퓨터 비전 애플리케이션을 위한 포괄적인 옵션 모음을 제공합니다.
Roboflow의 도구 상자에서 중요한 자산은 PaliGemma 2 3B의 놀라운 성능입니다. 업계 최고의 정확성, 속도, 성능, 고유한 기능을 제공하는 PaliGemma는 Roboflow 고객이 선호하는 모델 중 하나입니다. 이러한 고유한 기능 중 하나는 PaliGemma를 독점 데이터로 로컬에서 학습하고 실행할 수 있다는 점입니다. 이를 통해 개발자는 회사 외부에 데이터를 공유하지 않고도 맞춤형 비공개 솔루션을 만들 수 있습니다. Roboflow 마케팅 책임자인 트레버 린은 이 기능이 PaliGemma를 다른 VLM과 차별화하는 요소 중 하나라고 말합니다. '개방형 VLM은 기업을 위한 다중 모달 애플리케이션을 빌드하는 데 있어 완전한 혁신입니다.'
Roboflow는 도구와 워크플로 외에도 개발자에게 무료 교육 리소스를 제공하여 '프로그래밍 가능한 세상을 만들기'라는 사명을 추구합니다. Roboflow 블로그에서는 PaliGemma 및 기타 VLM 사용에 관한 자세한 워크스루를 제공하며, 개발자들은 X 및 YouTube와 같은 채널에서 지속적으로 자세한 튜토리얼을 공유하여 Roboflow 생태계 외부의 개발자도 포함한 모든 개발자를 위해 컴퓨터 비전의 세계를 개선하는 데 도움을 주고 있습니다.
영향
현재 Roboflow의 도구 모음은 100만 명 이상의 엔지니어에게 사용되고 있으며, 업계 리더가 비즈니스를 더 효율적으로 운영하고 귀중한 시간과 리소스를 절약할 수 있도록 지원하고 있습니다. 예를 들어 미국에서 가장 큰 화물 철도인 BNSF Railway는 Roboflow를 사용하여 실시간 인벤토리 모니터링과 같은 컴퓨터 비전 솔루션을 구축하여 안전 검사를 개선했습니다.
“실험실 환경에서 AI를 사용하여 긍정적인 결과를 얻는 것은 쉽지만, 일상적인 운영을 중단하지 않고 Google과 같은 네트워크에서 솔루션을 확장하는 것이 진짜 어려운 일입니다. Roboflow와의 파트너십을 통해 이를 실현할 수 있습니다."
17.5만
사용 가능한 사전 학습된 모델
1M
개발자 사용자
575M
Roboflow를 사용하여 라벨이 지정된 이미지
다음 단계
Roboflow는 새로운 제품을 제공하고 기존 제품을 대대적으로 업데이트하여 개발자가 사용할 수 있는 도구 및 리소스 포트폴리오를 지속적으로 확장하고 있습니다. 최근에 팀은 Roboflow Annotate를 사용하여 멀티모달 비전 모델의 데이터에 라벨을 지정하고 검토하는 기능을 출시했으며, 개발자가 다운로드, 수정, 학습할 수 있는 멀티모달 모델을 출시하기 시작했습니다.
이러한 이니셔티브는 컴퓨터 비전을 발전시키고 개발자가 PaliGemma와 같은 모델로 혁신적인 솔루션을 구축할 수 있도록 지원하기 위한 Roboflow의 노력을 한층 강화합니다. 컴퓨터 비전의 미래에 관해 질문을 받은 Roboflow CEO 조셉 넬슨은 “시각적 AI는 모든 산업을 혁신할 기반 기술이라고 생각합니다. 인간이 주로 시각을 통해 세상을 경험하는 것처럼 앞으로 컴퓨터와 소프트웨어도 마찬가지가 될 것입니다."