Card de modelo FunctionGemma

Página do modelo: FunctionGemma

Recursos e documentação técnica:

Termos de Uso: Termos
Autores: Google DeepMind

Informações do modelo

Descrição resumida e breve definição de entradas e saídas.

Descrição

OBSERVAÇÃO: o FunctionGemma foi projetado para ser ajustado para sua tarefa específica de chamada de função, incluindo casos de uso com vários turnos.

O FunctionGemma é um modelo aberto e leve do Google, criado como base para criar seus próprios modelos especializados de chamada de função. A FunctionGemma não foi criada para ser usada como um modelo de diálogo direto. Ela foi projetada para ter um desempenho muito bom após um ajuste refinado, como é comum em modelos desse tamanho. Criado com base no modelo Gemma 3 270M e com a mesma pesquisa e tecnologia usadas para criar os modelos do Gemini, o FunctionGemma foi treinado especificamente para chamadas de função. O modelo tem a mesma arquitetura do Gemma 3, mas usa um formato de chat diferente. O modelo é adequado para chamadas de função somente de texto. O tamanho pequeno exclusivo permite a implantação em ambientes com recursos limitados, como laptops, computadores ou sua própria infraestrutura de nuvem, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos. Além disso, assim como o Gemma 270M de base, o modelo foi otimizado para ser extremamente versátil e eficiente em uma variedade de hardware em cenários de uma única interação. No entanto, ele precisa ser ajustado com dados específicos de tarefas de uma única interação ou de várias interações para alcançar a melhor precisão em domínios específicos. Para demonstrar como a especialização do modelo de 270 milhões de parâmetros pode alcançar alta performance em fluxos de trabalho de agente específicos, destacamos dois casos de uso no app Google AI Edge Gallery.

  • Tiny Garden:um modelo refinado para oferecer suporte a um jogo interativo controlado por voz. Ele processa a lógica do jogo para gerenciar um terreno virtual, decompondo comandos como "Plante girassóis na linha de cima" e "Regue as flores nos canteiros 1 e 2" em funções específicas do app (por exemplo, plant_seed, water_plots) e coordena os destinos. Isso demonstra a capacidade do modelo de impulsionar mecânicas de apps personalizados sem conectividade com o servidor.

  • Mobile Actions:para permitir que os desenvolvedores criem seus próprios agentes especializados, publicamos um conjunto de dados e uma receita de ajuste refinado para demonstrar o ajuste refinado do FunctionGemma. Ele traduz entradas do usuário (por exemplo, "Crie um evento na agenda para o almoço", "Ligue a lanterna") em chamadas de função que acionam ferramentas do sistema operacional Android. Este notebook interativo demonstra como usar o modelo FunctionGemma básico e criar um ajuste fino de "Ações para dispositivos móveis" do zero para uso no app da galeria do Google AI Edge. Esse caso de uso demonstra a capacidade do modelo de atuar como um agente off-line e particular para tarefas de dispositivos pessoais.

Entradas e saídas

  • Entrada:
    • String de texto, como uma pergunta, um comando ou um documento a ser resumido
    • Contexto de entrada total de 32 mil tokens
  • Saída:
    • Texto gerado em resposta à entrada, como uma resposta a uma pergunta ou um resumo de um documento
    • Contexto total de saída de até 32 mil tokens por solicitação, subtraindo os tokens de entrada da solicitação

Dados do modelo

Dados usados para treinamento de modelo e como eles foram tratados.

Conjunto de dados de treinamento

Esses modelos foram treinados em um conjunto de dados de texto que inclui uma grande variedade de fontes. O modelo foi treinado com 6 trilhões de tokens. A data de corte de conhecimento dos dados de treinamento foi agosto de 2024. Estes são os principais componentes:

  • Definições de ferramentas públicas: APIs comuns encontradas na Web
  • Interações de uso de ferramentas: são uma mistura de comandos, chamadas de função, respostas de função e respostas de linguagem natural do modelo para resumir a resposta da chamada de função ou pedir esclarecimentos quando o comando é ambíguo ou incompleto.

Pré-processamento de dados

Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

  • Filtragem de CSAM: uma filtragem rigorosa de CSAM (material de abuso sexual infantil) foi aplicada em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo prejudicial e ilegal.
  • Filtragem de dados sensíveis: como parte da criação de modelos pré-treinados do Gemma seguros e confiáveis, foram usadas técnicas automatizadas para filtrar determinadas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
  • Outros métodos: filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.

Informações de implementação

Detalhes sobre os elementos internos do modelo.

Hardware

A Gemma foi treinada usando hardware de Unidade de Processamento de Tensor (TPU) (TPUv4p, TPUv5p e TPUv5e). O treinamento de modelos de visão-linguagem (VLMs) exige uma capacidade computacional significativa. As TPUs, projetadas especificamente para operações de matriz comuns no aprendizado de máquina, oferecem várias vantagens nesse domínio:

  • Performance: as TPUs são projetadas especificamente para lidar com os cálculos massivos envolvidos no treinamento de VLMs. Elas podem acelerar o treinamento consideravelmente em comparação com as CPUs.
  • Memória: as TPUs geralmente vêm com grandes quantidades de memória de alta largura de banda, permitindo o processamento de modelos e tamanhos de lote grandes durante o treinamento. Isso pode melhorar a qualidade do modelo.
  • Escalonabilidade: os pods de TPU (grandes clusters de TPUs) oferecem uma solução escalonável para lidar com a crescente complexidade de modelos de fundação grandes. É possível distribuir o treinamento em vários dispositivos de TPU para um processamento mais rápido e eficiente.
  • Custo-benefício: em muitos cenários, as TPUs oferecem uma solução mais econômica para treinar modelos grandes em comparação com a infraestrutura baseada em CPU, especialmente considerando o tempo e os recursos economizados devido ao treinamento mais rápido.
  • Essas vantagens estão alinhadas aos compromissos do Google de operar de forma sustentável.

Software

O treinamento foi feito usando JAX e ML Pathways. O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes. O ML Pathways é o mais recente esforço do Google para criar sistemas de inteligência artificial capazes de generalizar várias tarefas. Isso é especialmente adequado para modelos de fundação, incluindo modelos de linguagem grandes como estes.
Juntos, o JAX e os ML Pathways são usados conforme descrito no artigo sobre a família de modelos do Gemini: "o modelo de programação de 'controlador único' do JAX e dos Pathways permite que um único processo Python organize toda a execução do treinamento, simplificando drasticamente o fluxo de trabalho de desenvolvimento".

Avaliação

Métricas e resultados da avaliação do modelo.

Resultados da comparação

Benchmark n-shot Função Gemma 270m
BFCL Simple 0-shot 61,6
BFCL Parallel 0-shot 63,5
BFCL Multiple 0-shot 39
BFCL Parallel Multiple 0-shot 29,5
BFCL Live Simple 0-shot 36,2
BFCL Live Parallel 0-shot 25,7
BFCL Live Multiple 0-shot 22,9
BFCL Live Parallel Multiple 0-shot 20,8
Relevância da BFCL 0-shot 61,1
Irrelevância de BFCL 0-shot 70,6

Impacto na performance após o ajuste fino no conjunto de dados de ações em dispositivos móveis
Para demonstrar o valor da especialização para modelos de linguagem pequenos, comparamos o modelo FunctionGemma de base com o modelo ajustado usando a receita "Ações em dispositivos móveis". O ajuste fino melhorou significativamente a capacidade do modelo FunctionGemma de identificar e formatar corretamente as chamadas do sistema móvel.


Modelo

Resultados da avaliação para ações em dispositivos móveis

Modelo base FunctionGemma

58%

Ajuste refinado de ações em dispositivos móveis

85%

Performance no dispositivo dos casos de uso refinados da Gemma 270m
Avaliamos os casos de uso refinados em um Samsung S25 Ultra para analisar a latência e a ocupação de memória no dispositivo.

  • Contexto:512 tokens de pré-preenchimento e 32 tokens de decodificação.
  • Hardware:CPU S25 Ultra usando o delegado LiteRT XNNPACK com quatro linhas de execução.

Ações em dispositivos móveis na performance do dispositivo


Back-end

Esquema de quantização

Tamanho do contexto

Pré-preenchimento (tokens por segundo)

Decodificar (tokens por segundo)

Tempo para o primeiro token (segundos)

Tamanho do modelo (MB)

Pico de memória RSS (MB)

CPU

dynamic_int8

1024

1718

125.9

0.3

288

551

Performance do Tiny Garden no dispositivo


Back-end

Esquema de quantização

Tamanho do contexto

Pré-preenchimento (tokens por segundo)

Decodificar (tokens por segundo)

Tempo para o primeiro token (segundos)

Tamanho do modelo (MB)

Pico de memória RSS (MB)

CPU

dynamic_int8

1024

1743

125.7

0.3

288

549

Ética e segurança

Abordagem e resultados da avaliação de ética e segurança.

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de equipe vermelha das políticas de conteúdo relevantes. O red team foi realizado por várias equipes diferentes, cada uma com metas e métricas de avaliação humana diferentes. Esses modelos foram avaliados em várias categorias relevantes para ética e segurança, incluindo:

  • Segurança infantil: avaliação de comandos de texto para texto e de imagem para texto que abordam políticas de segurança infantil, incluindo abuso e exploração sexual infantil.
  • Segurança do conteúdo:avaliação de comandos de texto para texto e de imagem para texto que abrangem políticas de segurança, incluindo assédio, violência e conteúdo sangrento e discurso de ódio.
  • Danos representacionais: avaliação de comandos de texto para texto e de imagem para texto que abrangem políticas de segurança, incluindo viés, estereótipos e associações ou imprecisões prejudiciais.

Resultados da avaliação

Em todas as áreas de teste de segurança, observamos melhorias significativas nas categorias de segurança infantil, segurança de conteúdo e danos representacionais em relação aos modelos anteriores da Gemma. Todos os testes foram realizados sem filtros de segurança para avaliar as capacidades e os comportamentos do modelo. O modelo gerou poucas violações de política e mostrou melhorias significativas em relação à performance dos modelos Gemma anteriores no que diz respeito a inferências sem embasamento. Uma limitação das nossas avaliações foi que elas incluíram apenas comandos em inglês.

Uso e limitações

Esses modelos têm algumas limitações que os usuários precisam conhecer.

Uso pretendido

Esse modelo não foi projetado para ser usado como um modelo de diálogo direto.
Os modelos de linguagem grandes (LLMs) abertos têm uma ampla gama de aplicações em vários setores e domínios. A lista a seguir de possíveis usos não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo.

  • Criação de conteúdo e comunicação
    • Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, scripts, códigos, textos de marketing e rascunhos de e-mail.
    • Chatbots e IA conversacional: potencialize interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
    • Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
  • Pesquisa e educação
    • Pesquisa em processamento de linguagem natural (PLN): esses modelos podem servir como base para que os pesquisadores testem técnicas de PLN, desenvolvam algoritmos e contribuam para o avanço da área.
    • Ferramentas de aprendizado de idiomas: oferecem experiências interativas de aprendizado de idiomas, ajudando na correção gramatical ou oferecendo prática de escrita.
    • Exploração de conhecimento: ajuda pesquisadores a analisar grandes quantidades de texto gerando resumos ou respondendo a perguntas sobre temas específicos.

Limitações

  • Dados de treinamento
    • A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
    • O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficiência.
  • Contexto e complexidade da tarefa
    • Os modelos são melhores em tarefas que podem ser enquadradas com comandos e instruções claras. Tarefas abertas ou altamente complexas podem ser difíceis.
    • O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida. Um contexto mais longo geralmente leva a melhores resultados, até um determinado ponto.
  • Ambiguidade e nuances de linguagem
    • A linguagem natural é inerentemente complexa. Os modelos podem ter dificuldade em entender nuances sutis, sarcasmo ou linguagem figurada.
  • Precisão factual
    • Os modelos geram respostas com base nas informações aprendidas com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
  • Common Sense
    • Os modelos dependem de padrões estatísticos na linguagem. Elas podem não conseguir aplicar o raciocínio de bom senso em determinadas situações.

Considerações e riscos éticos

O desenvolvimento de modelos de linguagem grandes (LLMs) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

  • Viés e imparcialidade
    • Os LLMs treinados com dados de texto reais e em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passaram por uma análise cuidadosa, pré-processamento de dados de entrada descrito e avaliações posteriores informadas neste card.
  • Desinformação e uso indevido
  • Transparência e responsabilidade:
    • Este card resume detalhes sobre a arquitetura, as capacidades, as limitações e os processos de avaliação dos modelos.
    • Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar a inovação, tornando a tecnologia de LLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigação:

  • Perpetuação de vieses: é recomendável realizar monitoramento contínuo (usando métricas de avaliação, revisão humana) e explorar técnicas de remoção de vieses durante o treinamento e ajuste fino do modelo, além de outros casos de uso.
  • Geração de conteúdo nocivo: mecanismos e diretrizes de segurança de conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cautela e implementem salvaguardas de segurança de conteúdo adequadas com base nas políticas de produtos e casos de uso de aplicativos específicos.
  • Uso indevido para fins maliciosos: limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a reduzir aplicativos maliciosos de LLMs. Recursos educativos e mecanismos de denúncia estão disponíveis para os usuários sinalizarem o uso indevido. Os usos proibidos dos modelos do Gemma estão descritos na Política de uso proibido do Gemma.
  • Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de PII (informações de identificação pessoal). Recomendamos que os desenvolvedores sigam os regulamentos de privacidade com técnicas de preservação da privacidade.

Vantagens

No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes abertos de alta performance projetadas desde o início para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.