Chia sẻ

Roboflow cải thiện công nghệ thị giác máy tính bằng PaliGemma 2

Roboflow được ra mắt vào năm 2020 với mục tiêu cải thiện công nghệ thị giác máy tính, cho phép máy móc và máy tính nhận biết và diễn giải hình ảnh, video và nguồn cấp dữ liệu máy ảnh, tương tự như thị giác của con người.

Để giúp hoàn thành mục tiêu của mình, Roboflow đã tạo một bộ công cụ mới để thiết lập quy trình làm việc chất lượng về thị giác máy tính bằng cách sử dụng PaliGemma, mô hình ngôn ngữ thị giác (VLM) của Gemma, làm một trong các mô hình cốt lõi của mình. PaliGemma 2 hiện là một thành phần thiết yếu trong bộ công cụ của Roboflow và là một trong những mô hình được áp dụng rộng rãi hơn trên nền tảng của công cụ này. Điều này đã thúc đẩy Roboflow đóng góp đáng kể vào sự phát triển của mô hình.

Thách thức

Ban đầu, các nhà sáng lập Roboflow đã nỗ lực tạo ra các ứng dụng thị giác máy tính của riêng họ để cải thiện cách các nhà phát triển áp dụng công nghệ thị giác máy tính cho các vấn đề của họ. Trong quá trình phát triển, nhóm này nhận thấy việc xây dựng và triển khai các mô hình thị giác máy tính cũng như ứng dụng dựa trên các mô hình đó rất khó khăn. Quy trình này thiếu cấu trúc rõ ràng, dựa quá nhiều vào phương pháp thử và sai, đồng thời yêu cầu họ lập trình nhanh chóng và sử dụng dữ liệu huấn luyện của riêng họ. Việc chia sẻ công việc giữa các nhóm và tổ chức cũng gây ra nhiều thách thức vì không có chiến lược hoặc kỹ thuật nào được thống nhất để phát triển công nghệ thị giác máy tính. Mặc dù công nghệ thị giác máy tính có tiềm năng cho vô số trường hợp sử dụng, nhưng số lượng người có thể làm việc với công nghệ này lại bị hạn chế tương đối.

So sánh hiệu suất của LLM bằng tiếng Bulgaria.
So sánh hiệu suất của LLM bằng tiếng Bulgaria.
PaliGemma được xếp hạng là mô hình nhanh nhất và tiết kiệm chi phí nhất trong quy trình kiểm thử nhận dạng ký tự quang học của Roboflow.

Giải pháp

Nhóm Roboflow quyết tâm đơn giản hoá và lập trình quy trình tạo ứng dụng thị giác máy tính bằng cách tạo một quy trình làm việc và bộ công cụ dành cho nhà phát triển giúp đơn giản hoá quy trình này. Roboflow hiện cung cấp một bộ tuỳ chọn toàn diện cho các ứng dụng thị giác máy tính, bao gồm các khối dựng sẵn cho các giải pháp sẵn sàng triển khai và các công cụ nâng cao để tạo và huấn luyện mô hình thị giác của riêng bạn.

Một thành phần thiết yếu trong hộp công cụ của Roboflow là sức mạnh đáng kinh ngạc của PaliGemma 2 3B. Với độ chính xác, tốc độ, hiệu suất và các tính năng độc đáo hàng đầu trong ngành, PaliGemma là một trong những mô hình được khách hàng của Roboflow ưu tiên lựa chọn. Một trong những tính năng độc đáo đó là PaliGemma có thể được huấn luyện và chạy cục bộ bằng dữ liệu độc quyền, cho phép nhà phát triển tạo các giải pháp riêng tư và tuỳ chỉnh mà không cần chia sẻ dữ liệu của họ với bên ngoài công ty. Theo Trevor Lynn, Trưởng bộ phận tiếp thị của Roboflow, tính năng này là một trong những điểm khác biệt thực sự của PaliGemma so với các VLM khác. "VLM mở là một bước đột phá hoàn toàn để xây dựng các ứng dụng đa phương thức cho doanh nghiệp".

Ngoài các công cụ và quy trình làm việc, Roboflow theo đuổi sứ mệnh "giúp thế giới có thể lập trình" bằng cách cung cấp cho nhà phát triển các tài nguyên giáo dục miễn phí. Blog của Roboflow có các hướng dẫn chi tiết về cách làm việc với PaliGemma và các VLM khác. Ngoài ra, các nhà phát triển của Roboflow liên tục chia sẻ hướng dẫn chi tiết trên các kênh như XYouTube, giúp cải thiện thế giới thị giác máy tính cho tất cả nhà phát triển, ngay cả những nhà phát triển không thuộc hệ sinh thái của Roboflow.

Mức độ tác động

Hiện tại, Roboflow có hơn một triệu kỹ sư sử dụng bộ công cụ của công ty, giúp các nhà lãnh đạo trong ngành hoạt động kinh doanh hiệu quả hơn, tiết kiệm thời gian và tài nguyên quý giá. Ví dụ: BNSF Railway, công ty đường sắt vận tải hàng hóa lớn nhất ở Hoa Kỳ, đã sử dụng Roboflow để xây dựng các giải pháp máy tính thị giác như giám sát kho hàng theo thời gian thực, cải thiện hoạt động kiểm tra an toàn.

"Việc đạt được kết quả tích cực bằng AI trong môi trường phòng thí nghiệm là điều dễ dàng, nhưng thách thức thực sự là khi mở rộng quy mô giải pháp trên một mạng lưới như của chúng tôi mà không làm gián đoạn hoạt động hằng ngày. Mối quan hệ đối tác với Roboflow giúp chúng tôi làm được điều đó”.

– Asim Ghanchi, Phó chủ tịch cấp cao phụ trách công nghệ, BNSF Railway

175.000

Có các mô hình được huấn luyện trước

1 TRIỆU

Người dùng là nhà phát triển

575 triệu

Hình ảnh được gắn nhãn bằng Roboflow

Bước tiếp theo

Roboflow tiếp tục mở rộng danh mục công cụ và tài nguyên dành cho nhà phát triển bằng cách cung cấp các sản phẩm mới và cập nhật rộng rãi cho các sản phẩm hiện có. Gần đây, nhóm đã ra mắt tính năng gắn nhãn và xem xét dữ liệu cho các mô hình thị giác đa phương thức bằng Roboflow Annotate, đồng thời bắt đầu phát hành các mô hình đa phương thức để nhà phát triển tải xuống, chỉnh sửa và huấn luyện.

Những sáng kiến này tiếp tục cam kết của Roboflow trong việc phát triển công nghệ thị giác máy tính và trao quyền cho nhà phát triển xây dựng các giải pháp sáng tạo bằng các mô hình như PaliGemma. Khi được hỏi về tương lai của công nghệ thị giác máy tính, Joseph Nelson, Giám đốc điều hành của Roboflow, cho biết: "Tôi tin rằng AI hình ảnh là một công nghệ nền tảng sẽ biến đổi mọi ngành. Tương tự như cách con người chủ yếu trải nghiệm thế giới bằng thị giác, máy tính và phần mềm cũng sẽ như vậy trong suốt cuộc đời chúng ta".