Lanzamos el Gemma 3n con entrada de audio y optimizado para su uso en dispositivos cotidianos. Más información

Ajusta FunctionGemma 270M para acciones en dispositivos móviles

Descripción general

Mobile Actions es una app de demostración en la que los usuarios pueden activar acciones en su dispositivo a partir de entradas de voz o texto. Reimagina la interacción con el asistente como una capacidad completamente sin conexión. Ya sea "Crea un evento de calendario para el almuerzo de mañana", "Agrega a Juan a mis contactos" o "Enciende la linterna", el modelo analiza el lenguaje natural y, luego, identifica la herramienta del SO correcta para ejecutar el comando.

En esta guía, se indica cómo realizar las siguientes acciones:

Ajuste del modelo FunctionGemma 270M con el conjunto de datos de Mobile Actions
Implementación del modelo personalizado en la Galería de Google AI Edge

Podrás aprender de extremo a extremo, desde el ajuste detallado de un modelo hasta su implementación en el dispositivo.

Paso 1: Ajusta FunctionGemma con el conjunto de datos de Mobile Actions

FunctionGemma es un modelo de 270 millones de parámetros basado en la arquitectura de Gemma 3. Se entrenó específicamente para las llamadas a funciones, lo que le permite traducir solicitudes en lenguaje natural a llamadas a funciones.

Este modelo es lo suficientemente pequeño y eficiente como para ejecutarse en un teléfono celular, pero, como es común en los modelos de este tamaño, requiere un ajuste para especializarlo en la tarea que realizará.

Para ajustar FunctionGemma, usamos el conjunto de datos de Mobile Actions, que está disponible públicamente en Hugging Face. Cada entrada de este conjunto de datos proporciona lo siguiente:

Conjunto de herramientas (funciones) que puede usar el modelo:
1. Enciende la linterna.
2. Apaga la linterna.
3. Crea un contacto en la lista de contactos del teléfono.
4. Envía un correo electrónico
5. Muestra una ubicación en el mapa
6. Abre la configuración de Wi-Fi.
7. Crea un evento de calendario nuevo
La instrucción del sistema que proporciona el contexto, como la fecha y la hora actuales
Es la instrucción del usuario, como turn on the flashlight.
La respuesta esperada del modelo, incluidas las llamadas a función adecuadas.

Así se ve la función para mostrar el mapa:

{
  "function": {
    "name": "show_map",
    "description": "Shows a location on the map.",
    "parameters": {
      "type": "OBJECT",
      "properties": {
        "query": {
          "type": "STRING",
          "description": "The location to search for. May be the name of a place, a business, or an address."
        }
      },
      "required": [
        "query"
      ]
    }
  }
}

El notebook de Colab abarca todos los pasos necesarios, incluidos los siguientes:

Configura el entorno
Carga y procesamiento previo del conjunto de datos de Mobile Actions
Ajuste del modelo con Hugging Face TRL
Cómo convertir el modelo al formato .litertlm para la implementación

Paso 2: Implementación en Google AI Edge Gallery

Requisito previo: Necesitas la misma Cuenta de Google que usaste para guardar el archivo .litertlm en el paso 1 y acceder a ella en tu teléfono Android.

Después del ajuste, convertimos y cuantificamos los pesos del modelo al formato .litertlm.

Para implementar el modelo en la opción Google AI Edge Gallery - Mobile Actions, elige Load Model y selecciónalo desde tu unidad de Google Drive (o cualquier otro método de distribución). La Galería de Google AI Edge está disponible en Google Play Store.

Desafío de ajuste de acciones para dispositivos móviles en la Galería de Google AI Edge

Tarea de Acciones para dispositivos móviles en la Galería de Google AI Edge

Ahora, puedes intentar dar un comando de voz o escribir en la app para ver qué tan bien funciona tu nuevo modelo ajustado cuando llama a las funciones disponibles.

Próximos pasos

¡Felicitaciones! Ahora sabes cómo ajustar un modelo con Hugging Face y, luego, implementarlo en el dispositivo con LiteRT-LM.