Página del modelo: FunctionGemma
Recursos y documentación técnica:
- Kit de herramientas de IA generativa responsable
- FunctionGemma en Kaggle
- FunctionGemma en Model Garden de Vertex
Condiciones de Uso: Condiciones
Autores: Google DeepMind
Información del modelo
Descripción resumida y breve definición de las entradas y salidas.
Descripción
NOTA: FunctionGemma está diseñada para ajustarse a tu tarea específica de llamada a funciones, incluidos los casos de uso de varios turnos.
FunctionGemma es un modelo abierto y ligero de Google, creado como base para crear tus propios modelos especializados de llamadas a funciones. FunctionGemma no está diseñado para usarse como un modelo de diálogo directo y está diseñado para tener un alto rendimiento después de un ajuste más detallado, como es típico de los modelos de este tamaño. FunctionGemma se creó a partir del modelo Gemma 3 270M y con la misma investigación y tecnología que se usaron para crear los modelos de Gemini, y se entrenó específicamente para la llamada a funciones. El modelo tiene la misma arquitectura que Gemma 3, pero usa un formato de chat diferente. El modelo es adecuado para las llamadas a función solo de texto. Su tamaño excepcionalmente pequeño permite la implementación en entornos con recursos limitados, como laptops, computadoras de escritorio o tu propia infraestructura de nube, lo que democratiza el acceso a modelos de IA de vanguardia y ayuda a fomentar la innovación para todos. Además, al igual que el modelo base Gemma 270M, se optimizó para ser extremadamente versátil y tener un buen rendimiento en una variedad de hardware en situaciones de un solo turno, pero se debe ajustar con datos específicos de tareas de un solo turno o de varios turnos para lograr la mejor precisión en dominios específicos. Para demostrar cómo la especialización del modelo de 270 M de parámetros puede lograr un alto rendimiento en flujos de trabajo específicos basados en agentes, destacamos dos casos de uso en la app de Google AI Edge Gallery.
Tiny Garden: Es un modelo optimizado para potenciar un juego interactivo controlado por voz. Maneja la lógica del juego para administrar una parcela virtual, descompone comandos como "Planta girasoles en la fila superior" y "Riega las flores en las parcelas 1 y 2" en funciones específicas de la app (p.ej., plant_seed, water_plots) y coordina los objetivos. Esto demuestra la capacidad del modelo para impulsar la mecánica de apps personalizadas sin conectividad del servidor.
Acciones para dispositivos móviles: Para permitir que los desarrolladores creen sus propios agentes expertos, publicamos un conjunto de datos y una receta de ajuste para demostrar el ajuste de FunctionGemma. Traduce las entradas del usuario (p.ej., "Crea un evento de calendario para el almuerzo" y "Enciende la linterna") en llamadas a funciones que activan herramientas del sistema operativo Android. En este notebook interactivo, se muestra cómo tomar el modelo base de FunctionGemma y compilar una versión ajustada de "Acciones para dispositivos móviles" desde cero para usarla en la app de la galería de Google AI Edge. Este caso de uso demuestra la capacidad del modelo para actuar como un agente privado sin conexión para tareas de dispositivos personales.
Entradas y salidas
- Entrada:
- Cadena de texto, como una pregunta, una instrucción o un documento que se resumirá
- Contexto de entrada total de 32,000 tokens
- Resultado:
- Texto generado en respuesta a la entrada, como una respuesta a una pregunta o un resumen de un documento
- Contexto de salida total de hasta 32,000 tokens por solicitud, restando los tokens de entrada de la solicitud
Modelar datos
Datos que se usaron para entrenar el modelo y cómo se procesaron.
Conjunto de datos de entrenamiento
Estos modelos se entrenaron con un conjunto de datos de texto que incluye una amplia variedad de fuentes. El modelo se entrenó con 6 T de tokens. La fecha límite de conocimiento de los datos de entrenamiento fue agosto de 2024. Estos son los componentes clave:
- Definiciones de herramientas públicas: APIs comunes que se encuentran en la Web
- Interacciones de uso de herramientas: Son una combinación de instrucciones, llamadas a funciones, respuestas a funciones y respuestas en lenguaje natural del modelo para resumir la respuesta a la llamada a función o solicitar aclaraciones cuando la instrucción es ambigua o incompleta.
Procesamiento previo de los datos
A continuación, se indican los principales métodos de limpieza y filtrado de datos que se aplican a los datos de entrenamiento:
- Filtrado de CSAM: Se aplicó un filtrado riguroso de CSAM (material de abuso sexual infantil) en varias etapas del proceso de preparación de datos para garantizar la exclusión del contenido dañino e ilegal.
- Filtrado de datos sensibles: Como parte del proceso para garantizar la seguridad y confiabilidad de los modelos previamente entrenados de Gemma, se utilizaron técnicas automatizadas para filtrar cierta información personal y otros datos sensibles de los conjuntos de entrenamiento.
- Métodos adicionales: Filtrado basado en la calidad y la seguridad del contenido de acuerdo con nuestras políticas
Información de implementación
Son detalles sobre el funcionamiento interno del modelo.
Hardware
Gemma se entrenó con hardware de unidad de procesamiento tensorial (TPU) (TPUv4p, TPUv5p y TPUv5e). El entrenamiento de modelos de lenguaje de visión (VLM) requiere una potencia de procesamiento significativa. Las TPU, diseñadas específicamente para las operaciones de matrices comunes en el aprendizaje automático, ofrecen varias ventajas en este dominio:
- Rendimiento: Las TPU están diseñadas específicamente para controlar los cálculos masivos que implica el entrenamiento de los VLM. Pueden acelerar el entrenamiento considerablemente en comparación con las CPUs.
- Memoria: Las TPU suelen tener grandes cantidades de memoria de gran ancho de banda, lo que permite controlar modelos y tamaños de lotes grandes durante el entrenamiento. Esto puede mejorar la calidad del modelo.
- Escalabilidad: Los TPU Pods (clústeres grandes de TPU) proporcionan una solución escalable para controlar la creciente complejidad de los modelos de base grandes. Puedes distribuir el entrenamiento en varios dispositivos TPU para lograr un procesamiento más rápido y eficiente.
- Rentabilidad: En muchas situaciones, las TPU pueden proporcionar una solución más rentable para entrenar modelos grandes en comparación con la infraestructura basada en CPU, en especial si se tienen en cuenta el tiempo y los recursos que se ahorran gracias a un entrenamiento más rápido.
- Estas ventajas se alinean con los compromisos de Google para operar de forma sustentable.
Software
El entrenamiento se realizó con JAX y ML Pathways.
JAX permite que los investigadores aprovechen la última generación de hardware, incluidas las TPU, para entrenar modelos grandes de manera más rápida y eficiente. ML Pathways es el esfuerzo más reciente de Google para crear sistemas de inteligencia artificial capaces de generalizar en múltiples tareas. Esto es especialmente adecuado para los modelos de base, incluidos los modelos de lenguaje grandes como estos.
En conjunto, JAX y ML Pathways se usan como se describe en el artículo sobre la familia de modelos de Gemini: "El modelo de programación de "controlador único" de JAX y Pathways permite que un solo proceso de Python coordine toda la ejecución del entrenamiento, lo que simplifica drásticamente el flujo de trabajo de desarrollo".
Evaluación
Métricas y resultados de la evaluación del modelo
Resultados de comparativas
| Benchmark | n-shot | Function Gemma 270m |
|---|---|---|
| BFCL Simple | 0-shot | 61.6 |
| BFCL Parallel | 0-shot | 63.5 |
| BFCL Multiple | 0-shot | 39 |
| BFCL, Parallel Multiple | 0-shot | 29.5 |
| BFCL Live Simple | 0-shot | 36.2 |
| BFCL Live Parallel | 0-shot | 25.7 |
| BFCL Live Multiple | 0-shot | 22.9 |
| BFCL Live Parallel Multiple | 0-shot | 20.8 |
| Relevancia de BFCL | 0-shot | 61.1 |
| Irrelevancia de BFCL | 0-shot | 70.6 |
Impacto en el rendimiento después del ajuste de datos en el conjunto de datos de acciones para dispositivos móviles
Para demostrar el valor de la especialización en modelos de lenguaje pequeños, comparamos el modelo base de FunctionGemma con el modelo ajustado con la receta de "Acciones para dispositivos móviles".
El ajuste mejoró significativamente la capacidad del modelo base de FunctionGemma para identificar y dar formato correctamente a las llamadas del sistema móvil.
Modelo |
Resultados de la evaluación de las acciones para dispositivos móviles |
|---|---|
Modelo Base FunctionGemma |
58% |
Ajuste de acciones para dispositivos móviles |
85% |
Rendimiento en el dispositivo de los casos de uso ajustados de Gemma 270M
Evaluamos los casos de uso ajustados en un Samsung S25 Ultra para evaluar la latencia y el uso de memoria en el dispositivo.
- Contexto: 512 tokens de relleno previo y 32 tokens de decodificación.
- Hardware: CPU del S25 Ultra con el delegado de LiteRT XNNPACK y 4 subprocesos.
Acciones en dispositivos móviles sobre el rendimiento del dispositivo
Backend |
Esquema de cuantización |
Longitud del contexto |
Prefill (tokens por segundo) |
Decodificación (tokens por segundo) |
Tiempo hasta el primer token (segundos) |
Tamaño del modelo (MB) |
Memoria RSS máxima (MB) |
|---|---|---|---|---|---|---|---|
CPU |
dynamic_int8 |
1024 |
1718 |
125.9 |
0.3 |
288 |
551 |
Rendimiento del modelo Tiny Garden en el dispositivo
Backend |
Esquema de cuantización |
Longitud del contexto |
Prefill (tokens por segundo) |
Decodificación (tokens por segundo) |
Tiempo hasta el primer token (segundos) |
Tamaño del modelo (MB) |
Memoria RSS máxima (MB) |
|---|---|---|---|---|---|---|---|
CPU |
dynamic_int8 |
1024 |
1743 |
125.7 |
0.3 |
288 |
549 |
Ética y seguridad
Enfoque y resultados de la evaluación de ética y seguridad
Enfoque de evaluación
Nuestros métodos de evaluación incluyen evaluaciones estructuradas y pruebas internas de equipo rojo de las políticas de contenido pertinentes. El equipo rojo realizó pruebas con diferentes objetivos y métricas de evaluación humana. Estos modelos se evaluaron en función de varias categorías diferentes pertinentes para la ética y la seguridad, incluidas las siguientes:
- Seguridad infantil: Evaluación de instrucciones de texto a texto y de imagen a texto que abarcan las políticas de seguridad infantil, incluido el abuso sexual infantil y la explotación infantil
- Seguridad del contenido: Evaluación de instrucciones de texto a texto y de imagen a texto que abarcan políticas de seguridad, como hostigamiento, violencia y contenido gráfico, y discurso de odio.
- Daños representacionales: Evaluación de instrucciones de texto a texto y de imagen a texto que abarcan políticas de seguridad, como sesgos, estereotipos y asociaciones o imprecisiones dañinas.
Resultados de la evaluación
En todas las áreas de las pruebas de seguridad, observamos mejoras significativas en las categorías de seguridad infantil, seguridad del contenido y daños representacionales en comparación con los modelos de Gemma anteriores. Todas las pruebas se realizaron sin filtros de seguridad para evaluar las capacidades y el comportamiento del modelo. El modelo produjo una cantidad mínima de incumplimientos de políticas y mostró mejoras significativas en el rendimiento en comparación con los modelos de Gemma anteriores con respecto a las inferencias no fundamentadas. Una limitación de nuestras evaluaciones fue que solo incluían instrucciones en inglés.
Uso y limitaciones
Estos modelos tienen ciertas limitaciones que los usuarios deben conocer.
Uso previsto
Este modelo no está diseñado para usarse como un modelo de diálogo directo.
Los modelos de lenguaje grandes (LLM) abiertos tienen una amplia variedad de aplicaciones en diferentes industrias y dominios. La siguiente lista de posibles usos no es exhaustiva. El propósito de esta lista es proporcionar información contextual sobre los posibles casos de uso que los creadores del modelo consideraron como parte del entrenamiento y el desarrollo del modelo.
- Creación y comunicación de contenido
- Generación de texto: Estos modelos se pueden usar para generar formatos de texto creativos, como poemas, guiones, código, textos de marketing y borradores de correos electrónicos.
- Chatbots y la IA conversacional: Potencia las interfaces conversacionales para la atención al cliente, los asistentes virtuales o las aplicaciones interactivas.
- Resúmenes de texto: Genera resúmenes concisos de un corpus de texto, artículos de investigación o informes.
- Investigación y educación
- Investigación en procesamiento de lenguaje natural (PLN): Estos modelos pueden servir como base para que los investigadores experimenten con técnicas de PLN, desarrollen algoritmos y contribuyan al avance del campo.
- Herramientas de aprendizaje de idiomas: Admiten experiencias interactivas de aprendizaje de idiomas, ayudan a corregir la gramática o brindan práctica de escritura.
- Exploración del conocimiento: Ayuda a los investigadores a explorar grandes cantidades de texto generando resúmenes o respondiendo preguntas sobre temas específicos.
Limitaciones
- Datos de Entrenamiento
- La calidad y la diversidad de los datos de entrenamiento influyen significativamente en las capacidades del modelo. Los sesgos o las brechas en los datos de entrenamiento pueden generar limitaciones en las respuestas del modelo.
- El alcance del conjunto de datos de entrenamiento determina las áreas temáticas que el modelo puede abordar de manera eficaz.
- Contexto y complejidad de la tarea
- Los modelos son mejores en las tareas que se pueden enmarcar con instrucciones y mensajes claros. Las tareas abiertas o muy complejas pueden ser difíciles.
- El rendimiento de un modelo puede verse afectado por la cantidad de contexto que se proporciona (en general, un contexto más largo genera mejores resultados, hasta cierto punto).
- Ambigüedad y matices del lenguaje
- El lenguaje natural es inherentemente complejo. Es posible que los modelos tengan dificultades para comprender matices sutiles, sarcasmo o lenguaje figurativo.
- Precisión fáctica
- Los modelos generan respuestas basadas en la información que aprendieron de sus conjuntos de datos de entrenamiento, pero no son bases de conocimiento. Pueden generar declaraciones fácticas incorrectas o desactualizadas.
- Common Sense
- Los modelos se basan en patrones estadísticos del lenguaje. Es posible que no puedan aplicar el razonamiento de sentido común en ciertas situaciones.
Consideraciones y riesgos éticos
El desarrollo de modelos de lenguaje grandes (LLM) plantea varias preocupaciones éticas. Para crear un modelo abierto, tuvimos en cuenta cuidadosamente lo siguiente:
- Sesgo y equidad
- Los LLMs entrenados con datos de texto a gran escala y del mundo real pueden reflejar sesgos socioculturales integrados en el material de entrenamiento. Estos modelos se sometieron a un análisis minucioso, se describió el preprocesamiento de los datos de entrada y se informaron las evaluaciones a posteriori en esta tarjeta.
- Información errónea y uso inadecuado
- Los LLM se pueden usar de forma inadecuada para generar texto falso, engañoso o dañino.
- Se proporcionan lineamientos para el uso responsable del modelo. Consulta el kit de herramientas de IA generativa responsable.
- Transparencia y responsabilidad:
- En esta tarjeta de modelo, se resumen los detalles sobre la arquitectura, las capacidades, las limitaciones y los procesos de evaluación de los modelos.
- Un modelo abierto desarrollado de forma responsable ofrece la oportunidad de compartir la innovación, ya que hace que la tecnología de LLM sea accesible para los desarrolladores y los investigadores de todo el ecosistema de la IA.
Riesgos identificados y mitigaciones:
- Perpetuación de sesgos: Se recomienda realizar un monitoreo continuo (con métricas de evaluación y revisión humana) y explorar técnicas de reducción de sesgos durante el entrenamiento y el ajuste del modelo, así como en otros casos de uso.
- Generación de contenido perjudicial: Los mecanismos y los lineamientos para la seguridad del contenido son fundamentales. Se recomienda a los desarrolladores que tengan precaución y que implementen las protecciones de seguridad de contenido adecuadas según las políticas de productos y los casos de uso de la aplicación específicos.
- Uso inadecuado con fines maliciosos: Las limitaciones técnicas y la capacitación de los desarrolladores y los usuarios finales pueden ayudar a mitigar el uso malicioso de los LLM. Se proporcionan recursos educativos y mecanismos de denuncia para que los usuarios marquen el uso inadecuado. Los usos prohibidos de los modelos de Gemma se describen en la Política de Uso Prohibido de Gemma.
- Incumplimientos de la privacidad: Los modelos se entrenaron con datos filtrados para quitar la PII (información de identificación personal). Se recomienda a los desarrolladores que cumplan con las reglamentaciones de privacidad utilizando técnicas que preserven la privacidad.
Beneficios
En el momento del lanzamiento, esta familia de modelos proporciona implementaciones de modelos de lenguaje grandes abiertos de alto rendimiento diseñados desde cero para el desarrollo de la IA responsable en comparación con modelos de tamaño similar.