Compartilhar

A Roboflow melhora a visão computacional com a PaliGemma 2

O Roboflow foi lançado em 2020 com o objetivo de melhorar a visão computacional, que permite que máquinas e computadores percebam e interpretem imagens, vídeos e feeds de câmera, de forma semelhante à visão humana.

Para alcançar esse objetivo, a Roboflow criou um novo conjunto de ferramentas para estabelecer um fluxo de trabalho de visão computacional de qualidade usando o PaliGemma, o modelo de visão-linguagem (VLM) do Gemma, como um dos modelos principais. A PaliGemma 2 agora é um componente essencial no conjunto de ferramentas do Roboflow e é um dos modelos mais adotados na plataforma. Isso fez com que a Roboflow contribuísse significativamente para o desenvolvimento do modelo.

O desafio

Os fundadores da Roboflow trabalharam originalmente na criação dos próprios aplicativos de visão computacional para melhorar a forma como os desenvolvedores aplicam a visão computacional aos problemas. Durante o processo de desenvolvimento, a equipe descobriu que criar e implantar modelos de visão computacional e apps baseados neles era frustrante. O processo não tinha uma estrutura clara, dependia muito de tentativa e erro e exigia que eles codificassem em tempo real e usassem os próprios dados de treinamento. O compartilhamento de trabalho entre equipes e organizações também foi um desafio, já que não havia estratégias ou técnicas acordadas para o desenvolvimento de visão computacional. Embora a visão computacional tenha potencial para casos de uso quase infinitos, o número de pessoas que podiam trabalhar com ela era relativamente restrito.

Comparação do desempenho de LLMs em búlgaro.
Comparação do desempenho de LLMs em búlgaro.
A PaliGemma é o modelo mais rápido e econômico nos testes de reconhecimento óptico de caracteres do Roboflow.

A solução

A equipe da Roboflow estava determinada a simplificar e codificar o processo de criação de aplicativos de visão computacional criando um fluxo de trabalho e um conjunto de ferramentas que simplificam o processo para os desenvolvedores. Agora, o Roboflow oferece um pacote completo de opções para aplicativos de visão computacional, incluindo elementos básicos pré-criados para soluções prontas para implantação e ferramentas avançadas para criar e treinar seus próprios modelos de visão.

Um recurso essencial na caixa de ferramentas do Roboflow é o incrível poder do PaliGemma 2 3B. Com precisão, velocidade, desempenho e recursos exclusivos líderes do setor, a PaliGemma é um dos modelos preferidos dos clientes da Roboflow. Um desses recursos exclusivos é que o PaliGemma pode ser treinado e executado localmente com dados reservados, permitindo que os desenvolvedores criem soluções personalizadas e particulares sem precisar compartilhar os dados fora da empresa. Esse recurso é uma das coisas que realmente diferenciam a PaliGemma de outros VLMs, de acordo com o líder de marketing da Roboflow, Trevor Lynn. "Os VLMs abertos são um avanço total para a criação de aplicativos multimodais para empresas".

Além das ferramentas e dos fluxos de trabalho, a Roboflow tem a missão de "tornar o mundo programável", oferecendo recursos educacionais sem custo financeiro aos desenvolvedores. O blog da Roboflow tem tutoriais detalhados sobre como trabalhar com a PaliGemma e outras VLMs. Além disso, os desenvolvedores compartilham tutoriais detalhados em canais como X e YouTube, ajudando a melhorar o mundo da visão computacional para todos os desenvolvedores, mesmo aqueles que estão fora do ecossistema da Roboflow.

O impacto

Hoje, a Roboflow tem mais de um milhão de engenheiros usando as ferramentas, ajudando líderes do setor a tornar os negócios mais eficientes, economizando tempo e recursos valiosos. Por exemplo, a BNSF Railway, a maior ferrovia de carga dos Estados Unidos, usou o Roboflow para criar soluções de visão computacional, como o monitoramento de inventário em tempo real, melhorando as inspeções de segurança.

"É fácil alcançar resultados positivos usando a IA em um ambiente de laboratório, mas o verdadeiro desafio é dimensionar a solução em uma rede como a nossa sem interromper as operações diárias. Nossa parceria com a Roboflow está nos permitindo fazer exatamente isso."

— Asim Ghanchi, vice-presidente de tecnologia da BNSF Railway

175 mil

Modelos pré-treinados disponíveis

1 milhão

Usuários desenvolvedores

575 milhões

Imagens marcadas usando o Roboflow

Próximas etapas

A Roboflow continua a expandir seu portfólio de ferramentas e recursos disponíveis para desenvolvedores, oferecendo novos produtos e atualizações extensas para os produtos atuais. Recentemente, a equipe lançou a capacidade de rotular e analisar dados para modelos de visão multimodal usando o Roboflow Annotate e também começou a lançar modelos multimodais para que os desenvolvedores possam fazer o download, editar e treinar.

Essas iniciativas reforçam o compromisso da Roboflow de avançar na visão computacional e capacitar os desenvolvedores a criar soluções inovadoras com modelos como o PaliGemma. Ao ser questionado sobre o futuro da visão computacional, o CEO da Roboflow, Joseph Nelson, disse: "Acredito que a IA visual é uma tecnologia fundamental que vai transformar todos os setores. Assim como os humanos percebem o mundo principalmente com o sentido da visão, o mesmo será verdade para computadores e softwares ao longo da vida."