O Gemma 3n foi lançado com entrada de áudio e otimizado para uso em dispositivos do dia a dia. Saiba mais

Card de modelo FunctionGemma

Página do modelo: FunctionGemma

Recursos e documentação técnica:

Termos de Uso: Termos
Autores: Google DeepMind

Informações do modelo

Descrição resumida e breve definição de entradas e saídas.

Descrição

OBSERVAÇÃO: o FunctionGemma foi projetado para ser ajustado para sua tarefa específica de chamada de função, incluindo casos de uso com vários turnos.

O FunctionGemma é um modelo aberto e leve do Google, criado como base para criar seus próprios modelos especializados de chamada de função. A FunctionGemma não foi criada para ser usada como um modelo de diálogo direto e foi projetada para ter um desempenho muito bom após um ajuste refinado, como é típico de modelos desse tamanho. Criado com base no modelo Gemma 3 270M e com a mesma pesquisa e tecnologia usadas para criar os modelos do Gemini, o FunctionGemma foi treinado especificamente para chamadas de função. O modelo tem a mesma arquitetura do Gemma 3, mas usa um formato de chat diferente. O modelo é adequado para chamadas de função somente de texto. O tamanho pequeno exclusivo permite a implantação em ambientes com recursos limitados, como laptops, computadores desktop ou sua própria infraestrutura de nuvem, democratizando o acesso a modelos de IA de última geração e ajudando a promover a inovação para todos. Além disso, assim como o Gemma 270M de base, o modelo foi otimizado para ser extremamente versátil e ter bom desempenho em uma variedade de hardware em cenários de uma única interação. No entanto, ele precisa ser ajustado com dados específicos de tarefas de uma ou várias interações para alcançar a melhor precisão em domínios específicos. Para demonstrar como a especialização do modelo de 270 milhões de parâmetros pode alcançar alta performance em fluxos de trabalho específicos de agentes, destacamos dois casos de uso no app Google AI Edge Gallery.

Tiny Garden:um modelo refinado para oferecer suporte a um jogo interativo controlado por voz. Ele processa a lógica do jogo para gerenciar um terreno virtual, decompondo comandos como "Plante girassóis na linha de cima" e "Regue as flores nos canteiros 1 e 2" em funções específicas do app (por exemplo, plant_seed, water_plots) e coordena os destinos. Isso demonstra a capacidade do modelo de impulsionar mecânicas de apps personalizados sem conectividade com o servidor.
Ações para dispositivos móveis:para capacitar os desenvolvedores a criar os próprios agentes especializados, publicamos um conjunto de dados e uma receita de ajuste refinado para demonstrar o ajuste refinado do FunctionGemma. Ele traduz entradas do usuário (por exemplo, "Crie um evento na agenda para o almoço", "Ligue a lanterna") em chamadas de função que acionam ferramentas do sistema operacional Android. Este notebook interativo demonstra como usar o modelo FunctionGemma básico e criar um ajuste fino de "Ações para dispositivos móveis" do zero para uso no app da galeria do Google AI Edge. Esse caso de uso demonstra a capacidade do modelo de atuar como um agente off-line e particular para tarefas de dispositivos pessoais.

Entradas e saídas

Entrada:
- String de texto, como uma pergunta, um comando ou um documento a ser resumido
- Contexto total de entrada de 32 mil tokens
Saída:
- Texto gerado em resposta à entrada, como uma resposta a uma pergunta ou um resumo de um documento
- Contexto total de saída de até 32 mil tokens por solicitação, subtraindo os tokens de entrada da solicitação

Dados do modelo

Dados usados para treinamento de modelo e como eles foram tratados.

Conjunto de dados de treinamento

Esses modelos foram treinados em um conjunto de dados de texto que inclui uma grande variedade de fontes. O modelo foi treinado com 6 trilhões de tokens. A data de corte de conhecimento dos dados de treinamento foi agosto de 2024. Estes são os principais componentes:

Definições de ferramentas públicas: APIs comuns encontradas na Web
Interações de uso de ferramentas: são uma mistura de comandos, chamadas de função, respostas de função e respostas de linguagem natural do modelo para resumir a resposta da chamada de função ou pedir esclarecimentos quando o comando é ambíguo ou incompleto.

Pré-processamento de dados

Estes são os principais métodos de limpeza e filtragem de dados aplicados aos dados de treinamento:

Filtragem de CSAM: aplicamos uma filtragem rigorosa de CSAM (material de abuso sexual infantil) em várias etapas do processo de preparação de dados para garantir a exclusão de conteúdo prejudicial e ilegal.
Filtragem de dados sensíveis: como parte da criação de modelos pré-treinados do Gemma seguros e confiáveis, foram usadas técnicas automatizadas para filtrar determinadas informações pessoais e outros dados sensíveis dos conjuntos de treinamento.
Outros métodos: filtragem com base na qualidade e segurança do conteúdo, de acordo com nossas políticas.

Informações de implementação

Detalhes sobre os elementos internos do modelo.

Hardware

A Gemma foi treinada usando hardware de Unidade de Processamento de Tensor (TPU) (TPUv4p, TPUv5p e TPUv5e). O treinamento de modelos de visão-linguagem (VLMs) exige uma capacidade computacional significativa. As TPUs, projetadas especificamente para operações de matriz comuns no aprendizado de máquina, oferecem várias vantagens nesse domínio:

Performance: as TPUs são projetadas especificamente para lidar com os cálculos massivos envolvidos no treinamento de VLMs. Elas podem acelerar o treinamento consideravelmente em comparação com as CPUs.
Memória: as TPUs geralmente vêm com grandes quantidades de memória de alta largura de banda, o que permite o processamento de modelos e tamanhos de lote grandes durante o treinamento. Isso pode melhorar a qualidade do modelo.
Escalonabilidade: os pods de TPU (grandes clusters de TPUs) oferecem uma solução escalonável para lidar com a crescente complexidade de modelos de fundação grandes. É possível distribuir o treinamento em vários dispositivos de TPU para um processamento mais rápido e eficiente.
Custo-benefício: em muitos cenários, as TPUs oferecem uma solução mais econômica para treinar modelos grandes em comparação com a infraestrutura baseada em CPU, especialmente quando se considera o tempo e os recursos economizados devido ao treinamento mais rápido.
Essas vantagens estão alinhadas aos compromissos do Google de operar de forma sustentável.

Software

O treinamento foi feito usando JAX e ML Pathways. O JAX permite que os pesquisadores aproveitem a geração mais recente de hardware, incluindo TPUs, para um treinamento mais rápido e eficiente de modelos grandes. O ML Pathways é o mais recente esforço do Google para criar sistemas de inteligência artificial capazes de generalizar várias tarefas. Isso é especialmente adequado para modelos de fundação, incluindo modelos de linguagem grandes como estes.
Juntos, o JAX e os ML Pathways são usados conforme descrito no artigo sobre a família de modelos do Gemini: "o modelo de programação de 'controlador único' do Jax e dos Pathways permite que um único processo Python organize toda a execução do treinamento, simplificando muito o fluxo de trabalho de desenvolvimento".

Avaliação

Métricas e resultados da avaliação do modelo.

Resultados da comparação

Benchmark	n-shot	Função Gemma 270m
BFCL Simple	0-shot	61,6
BFCL Multiple	0-shot	63,5
BFCL Parallel	0-shot	39
BFCL Parallel Multiple	0-shot	29,5
BFCL Live Simple	0-shot	36,2
BFCL Live Multiple	0-shot	25,7
BFCL Live Parallel	0-shot	22,9
BFCL Live Parallel Multiple	0-shot	20,8
Relevância do BFCL	0-shot	61.1
Irrelevância de BFCL	0-shot	73,7

Impacto na performance após o ajuste fino no conjunto de dados de ações para dispositivos móveis
Para demonstrar o valor da especialização em modelos de linguagem pequenos, comparamos o modelo FunctionGemma de base com o modelo ajustado usando a receita "Ações para dispositivos móveis". O ajuste fino melhorou significativamente a capacidade do modelo FunctionGemma de identificar e formatar corretamente as chamadas do sistema móvel.

Modelo	Resultados da avaliação para ações em dispositivos móveis
Modelo base FunctionGemma	58%
Ajuste refinado de ações em dispositivos móveis	85%

Performance no dispositivo dos casos de uso refinados da Gemma 270m
Avaliamos os casos de uso refinados em um Samsung S25 Ultra para avaliar a latência e a ocupação de memória no dispositivo.

Contexto:512 tokens de pré-preenchimento e 32 tokens de decodificação.
Hardware:CPU S25 Ultra usando o delegado LiteRT XNNPACK com quatro linhas de execução.

Ações em dispositivos móveis na performance do dispositivo

Back-end	Esquema de quantização	Tamanho do contexto	Pré-preenchimento (tokens por segundo)	Decodificar (tokens por segundo)	Tempo para o primeiro token (segundos)	Tamanho do modelo (MB)	Pico de memória RSS (MB)
CPU	dynamic_int8	1024	1718	125.9	0.3	288	551

Performance do Tiny Garden no dispositivo

Back-end	Esquema de quantização	Tamanho do contexto	Pré-preenchimento (tokens por segundo)	Decodificar (tokens por segundo)	Tempo para o primeiro token (segundos)	Tamanho do modelo (MB)	Pico de memória RSS (MB)
CPU	dynamic_int8	1024	1743	125.7	0.3	288	549

Ética e segurança

Abordagem e resultados da avaliação de ética e segurança.

Abordagem de avaliação

Nossos métodos de avaliação incluem avaliações estruturadas e testes internos de equipe vermelha das políticas de conteúdo relevantes. O red team foi realizado por várias equipes diferentes, cada uma com metas e métricas de avaliação humana diferentes. Esses modelos foram avaliados em várias categorias relevantes para ética e segurança, incluindo:

Segurança infantil: avaliação de comandos de texto para texto e de imagem para texto que abordam políticas de segurança infantil, incluindo abuso e exploração sexual infantil.
Segurança de conteúdo:avaliação de comandos de texto para texto e de imagem para texto que abrangem políticas de segurança, incluindo assédio, violência e conteúdo sangrento e discurso de ódio.
Danos representacionais: avaliação de comandos de texto para texto e de imagem para texto que abrangem políticas de segurança, incluindo viés, estereotipagem e associações ou imprecisões prejudiciais.

Resultados da avaliação

Em todas as áreas de testes de segurança, observamos melhorias significativas nas categorias de proteção infantil, segurança de conteúdo e danos representacionais em relação aos modelos anteriores da Gemma. Todos os testes foram realizados sem filtros de segurança para avaliar as capacidades e os comportamentos do modelo. O modelo gerou poucas violações de política e mostrou melhorias significativas em relação à performance dos modelos Gemma anteriores no que diz respeito a inferências sem embasamento. Uma limitação das nossas avaliações foi que elas incluíram apenas comandos em inglês.

Uso e limitações

Esses modelos têm algumas limitações que os usuários precisam conhecer.

Uso pretendido

Esse modelo não foi projetado para ser usado como um modelo de diálogo direto.
Os modelos de linguagem grandes (LLMs) abertos têm uma ampla gama de aplicações em vários setores e domínios. A lista a seguir de possíveis usos não é abrangente. O objetivo desta lista é fornecer informações contextuais sobre os possíveis casos de uso que os criadores de modelos consideraram como parte do treinamento e desenvolvimento do modelo.

Criação de conteúdo e comunicação
- Geração de texto: esses modelos podem ser usados para gerar formatos de texto criativos, como poemas, scripts, códigos, textos de marketing e rascunhos de e-mail.
- Chatbots e IA de conversação: potencialize interfaces de conversação para atendimento ao cliente, assistentes virtuais ou aplicativos interativos.
- Resumo de texto: gere resumos concisos de um corpus de texto, artigos de pesquisa ou relatórios.
Pesquisa e educação
- Pesquisa em processamento de linguagem natural (PLN): esses modelos podem servir como base para que os pesquisadores testem técnicas de PLN, desenvolvam algoritmos e contribuam para o avanço da área.
- Ferramentas de aprendizado de idiomas: oferecem experiências interativas de aprendizado de idiomas, ajudando na correção gramatical ou oferecendo prática de escrita.
- Exploração de conhecimento: ajuda pesquisadores a analisar grandes quantidades de texto gerando resumos ou respondendo a perguntas sobre temas específicos.

Limitações

Dados de treinamento
- A qualidade e a diversidade dos dados de treinamento influenciam significativamente as capacidades do modelo. Vieses ou lacunas nos dados de treinamento podem levar a limitações nas respostas do modelo.
- O escopo do conjunto de dados de treinamento determina as áreas de assunto que o modelo pode processar com eficiência.
Contexto e complexidade da tarefa
- Os modelos são melhores em tarefas que podem ser enquadradas com comandos e instruções claras. Tarefas abertas ou muito complexas podem ser difíceis.
- O desempenho de um modelo pode ser influenciado pela quantidade de contexto fornecida. Um contexto mais longo geralmente leva a resultados melhores, até um determinado ponto.
Ambiguidade e nuances de linguagem
- A linguagem natural é inerentemente complexa. Os modelos podem ter dificuldade em entender nuances sutis, sarcasmo ou linguagem figurada.
Precisão factual
- Os modelos geram respostas com base nas informações aprendidas com os conjuntos de dados de treinamento, mas não são bases de conhecimento. Eles podem gerar declarações factuais incorretas ou desatualizadas.
Common Sense
- Os modelos dependem de padrões estatísticos na linguagem. Elas podem não conseguir aplicar o raciocínio de bom senso em determinadas situações.

Considerações e riscos éticos

O desenvolvimento de modelos de linguagem grandes (LLMs) levanta várias questões éticas. Ao criar um modelo aberto, consideramos cuidadosamente o seguinte:

Viés e imparcialidade
- Os LLMs treinados com dados de texto reais e em grande escala podem refletir vieses socioculturais incorporados no material de treinamento. Esses modelos passaram por uma análise cuidadosa, pré-processamento de dados de entrada descrito e avaliações posteriores informadas neste card.
Desinformação e uso indevido
- Os LLMs podem ser usados indevidamente para gerar texto falso, enganoso ou prejudicial.
- Confira as diretrizes de uso responsável do modelo no toolkit para IA generativa responsável.
Transparência e responsabilidade:
- Este card resume detalhes sobre a arquitetura, as capacidades, as limitações e os processos de avaliação dos modelos.
- Um modelo aberto desenvolvido de forma responsável oferece a oportunidade de compartilhar a inovação, tornando a tecnologia de LLM acessível a desenvolvedores e pesquisadores em todo o ecossistema de IA.

Riscos identificados e mitigação:

Perpetuação de vieses: é recomendável realizar monitoramento contínuo (usando métricas de avaliação e revisão humana) e explorar técnicas de remoção de vieses durante o treinamento e ajuste fino do modelo, além de outros casos de uso.
Geração de conteúdo nocivo: mecanismos e diretrizes de segurança de conteúdo são essenciais. Recomendamos que os desenvolvedores tenham cautela e implementem as proteções de segurança de conteúdo adequadas com base nas políticas de produtos e casos de uso de aplicativos específicos.
Uso indevido para fins maliciosos: limitações técnicas e educação de desenvolvedores e usuários finais podem ajudar a reduzir aplicativos maliciosos de LLMs. Recursos educativos e mecanismos de denúncia estão disponíveis para os usuários sinalizarem casos de uso indevido. Os usos proibidos dos modelos do Gemma estão descritos na Política de uso proibido do Gemma.
Violações de privacidade: os modelos foram treinados com dados filtrados para remoção de PII (informações de identificação pessoal). Os desenvolvedores são incentivados a aderir aos regulamentos de privacidade com técnicas de preservação da privacidade.

Vantagens

No momento do lançamento, essa família de modelos oferece implementações de modelos de linguagem grandes abertos de alta performance projetadas desde o início para o desenvolvimento de IA responsável em comparação com modelos de tamanho semelhante.