Fiche du modèle FunctionGemma

Page du modèle : FunctionGemma

Ressources et documentation technique :

Conditions d'utilisation : Conditions
Auteurs : Google DeepMind

Infos sur le modèle

Description récapitulative et brève définition des entrées et des sorties.

Description

REMARQUE : FunctionGemma est conçu pour être affiné en fonction de votre tâche d'appel de fonction spécifique, y compris les cas d'utilisation multitours.

FunctionGemma est un modèle léger et ouvert de Google, conçu comme base pour créer vos propres modèles spécialisés d'appel de fonction. FunctionGemma n'est pas conçu pour être utilisé comme modèle de dialogue direct. Il est conçu pour être très performant après un affinement supplémentaire, comme c'est le cas pour les modèles de cette taille. Basé sur le modèle Gemma 3 270M et utilisant les mêmes recherches et technologies que celles utilisées pour créer les modèles Gemini, FunctionGemma a été entraîné spécifiquement pour l'appel de fonction. Le modèle a la même architecture que Gemma 3, mais utilise un format de chat différent. Le modèle est bien adapté aux appels de fonction de texte uniquement. Sa taille unique et réduite permet de le déployer dans des environnements aux ressources limitées, tels que des ordinateurs portables, des ordinateurs de bureau ou votre propre infrastructure cloud. Il démocratise ainsi l'accès aux modèles d'IA de pointe et favorise l'innovation pour tous. De plus, comme le modèle de base Gemma 270M, il a été optimisé pour être extrêmement polyvalent et performant sur différents types de matériel dans des scénarios à un seul tour. Toutefois, il doit être affiné sur des données spécifiques à une tâche à un seul tour ou multitour pour obtenir la meilleure précision dans des domaines spécifiques. Pour montrer comment la spécialisation du modèle à 270 millions de paramètres peut atteindre des performances élevées sur des workflows agentiques spécifiques, nous avons mis en évidence deux cas d'utilisation dans l'application Google AI Edge Gallery.

  • Tiny Garden : modèle affiné pour alimenter un jeu interactif contrôlé par la voix. Il gère la logique du jeu pour gérer une parcelle de terrain virtuelle, en décomposant les commandes telles que "Plante des tournesols dans la rangée du haut" et "Arrose les fleurs dans les parcelles 1 et 2" en fonctions spécifiques à l'application (par exemple, plant_seed, water_plots) et en coordonnant les cibles. Cela démontre la capacité du modèle à générer des mécanismes d'application personnalisés sans connectivité serveur.

  • Actions mobiles : pour permettre aux développeurs de créer leurs propres agents experts, nous avons publié un ensemble de données et une recette de réglage fin pour montrer comment régler finement FunctionGemma. Il traduit les entrées utilisateur (par exemple, "Crée un événement d'agenda pour le déjeuner", "Allume la lampe de poche") en appels de fonction qui déclenchent les outils système de l'OS Android. Ce notebook interactif montre comment prendre le modèle de base FunctionGemma et créer un modèle "Mobile Actions" affiné à partir de zéro pour l'utiliser dans l'application Google AI Edge Gallery. Ce cas d'utilisation démontre la capacité du modèle à agir en tant qu'agent hors connexion et privé pour les tâches sur les appareils personnels.

Entrées et sorties

  • Entrée :
    • Chaîne de texte, comme une question, une requête ou un document à résumer
    • Contexte d'entrée total de 32 000 jetons
  • Sortie :
    • Texte généré en réponse à l'entrée, comme une réponse à une question ou un résumé d'un document
    • Contexte de sortie total jusqu'à 32 000 jetons par requête, en soustrayant les jetons d'entrée de la requête

Modéliser les données

Données utilisées pour l'entraînement du modèle et la façon dont elles ont été traitées.

Ensemble de données d'entraînement

Ces modèles ont été entraînés sur un ensemble de données textuelles provenant de sources très variées. Le modèle a été entraîné avec 6 T de jetons. La date limite de connaissances pour les données d'entraînement était août 2024. Voici les principaux composants :

  • Définitions d'outils publics : API courantes disponibles sur le Web
  • Interactions d'utilisation d'outils : il s'agit d'un mélange de requêtes, d'appels de fonction, de réponses de fonction et de réponses en langage naturel du modèle pour résumer la réponse d'appel de fonction ou demander des clarifications lorsque la requête est ambiguë ou incomplète.

Prétraitement des données

Voici les principales méthodes de nettoyage et de filtrage des données appliquées aux données d'entraînement :

  • Filtrage des contenus d'abus sexuels sur mineurs : un filtrage rigoureux des contenus d'abus sexuels sur mineurs a été appliqué à plusieurs étapes du processus de préparation des données pour garantir l'exclusion des contenus dangereux et illégaux.
  • Filtrage des données sensibles : pour rendre les modèles Gemma pré-entraînés sûrs et fiables, des techniques automatisées ont été utilisées pour filtrer certaines informations personnelles et d'autres données sensibles des ensembles d'entraînement.
  • Autres méthodes : filtrage basé sur la qualité et la sécurité du contenu conformément à nos règles.

Informations sur l'implémentation

Détails sur les éléments internes du modèle.

Matériel

Gemma a été entraîné à l'aide du matériel Tensor Processing Unit (TPU) (TPUv4p, TPUv5p et TPUv5e). L'entraînement de modèles de vision-langage (VLM) nécessite une puissance de calcul importante. Les TPU, conçus spécifiquement pour les opérations matricielles courantes dans le machine learning, offrent plusieurs avantages dans ce domaine :

  • Performances : les TPU sont spécialement conçus pour gérer les calculs massifs impliqués dans l'entraînement des VLM. Ils peuvent accélérer considérablement l'entraînement par rapport aux CPU.
  • Mémoire : les TPU sont souvent dotés d'une grande quantité de mémoire à haut débit, ce qui permet de gérer de grands modèles et des tailles de lots importantes pendant l'entraînement. Cela peut améliorer la qualité du modèle.
  • Évolutivité : les pods TPU (grands clusters de TPU) offrent une solution évolutive pour gérer la complexité croissante des grands modèles de fondation. Vous pouvez répartir l'entraînement sur plusieurs appareils TPU pour un traitement plus rapide et plus efficace.
  • Rentabilité : dans de nombreux cas, les TPU peuvent offrir une solution plus rentable pour l'entraînement de grands modèles par rapport à une infrastructure basée sur les CPU, en particulier en tenant compte du temps et des ressources économisés grâce à un entraînement plus rapide.
  • Ces avantages sont conformes aux engagements de Google en matière de développement durable.

Logiciel

L'entraînement a été effectué à l'aide de JAX et de ML Pathways. JAX permet aux chercheurs de tirer parti de la dernière génération de matériel, y compris des TPU, pour entraîner des modèles volumineux plus rapidement et plus efficacement. ML-Pathways est la dernière initiative de Google visant à créer des systèmes d'intelligence artificielle capables de généraliser plusieurs tâches. Cela convient particulièrement aux modèles de fondation, y compris aux grands modèles de langage comme ceux-ci.
JAX et Pathways sont utilisés ensemble comme décrit dans l'article sur la famille de modèles Gemini : "le modèle de programmation "contrôleur unique" de Jax et Pathways permet à un seul processus Python d'orchestrer l'ensemble de l'exécution de l'entraînement, ce qui simplifie considérablement le workflow de développement."

Évaluation

Métriques et résultats de l'évaluation du modèle.

Résultats du benchmark

Benchmark n-shot Fonction Gemma 270m
BFCL Simple 0 tir 61.6
BFCL Parallel 0 tir 63,5
Multiple BFCL 0 tir 39
BFCL Parallel Multiple 0 tir 29,5
BFCL Live Simple 0 tir 36.2
BFCL Live Parallel 0 tir 25,7
BFCL Live Multiple 0 tir 22,9
BFCL Live Parallel Multiple 0 tir 20.8
Pertinence BFCL 0 tir 61.1
Non-pertinence de BFCL 0 tir 70,6

Impact sur les performances après l'affinage sur l'ensemble de données "Actions mobiles"
Pour démontrer la valeur de la spécialisation pour les petits modèles de langage, nous avons comparé le modèle FunctionGemma de base au modèle affiné à l'aide de la recette "Actions mobiles". L'affinage a considérablement amélioré la capacité du modèle FunctionGemma de base à identifier et à mettre en forme correctement les appels système mobiles.


Modèle

Résultats d'évaluation pour les actions mobiles

Modèle Gemma de fonction de base

58 %

Ajustement précis des actions mobiles

85 %

Performances sur l'appareil des cas d'utilisation affinés de Gemma 270m
Nous avons évalué les cas d'utilisation affinés sur un Samsung S25 Ultra pour évaluer la latence et l'empreinte mémoire sur l'appareil.

  • Contexte : 512 jetons de préremplissage et 32 jetons de décodage.
  • Matériel : processeur S25 Ultra utilisant le délégué LiteRT XNNPACK avec quatre threads.

Actions mobiles sur les performances de l'appareil


Backend

Schéma de quantification

Longueur du contexte

Préremplissage (jetons par seconde)

Décodage (jetons par seconde)

Délai d'émission du premier jeton (en secondes)

Taille du modèle (Mo)

Mémoire RSS maximale (Mo)

CPU

dynamic_int8

1024

1718

125.9

0.3

288

551

Performances de Tiny Garden sur l'appareil


Backend

Schéma de quantification

Longueur du contexte

Préremplissage (jetons par seconde)

Décodage (jetons par seconde)

Délai d'émission du premier jeton (en secondes)

Taille du modèle (Mo)

Mémoire RSS maximale (Mo)

CPU

dynamic_int8

1024

1743

125.7

0.3

288

549

Éthique et sécurité

Approche et résultats de l'évaluation de l'éthique et de la sécurité.

Approche d'évaluation

Nos méthodes d'évaluation incluent des évaluations structurées et des tests internes de red teaming des règles relatives au contenu concernées. Le red teaming a été effectué par plusieurs équipes différentes, chacune ayant des objectifs et des métriques d'évaluation humaine différents. Ces modèles ont été évalués par rapport à différentes catégories liées à l'éthique et à la sécurité, y compris :

  • Sécurité des enfants : évaluation des requêtes texte-vers-texte et image-vers-texte couvrant les règles de sécurité des enfants, y compris l'abus et l'exploitation sexuels sur mineurs.
  • Sécurité du contenu : évaluation des requêtes texte à texte et image à texte couvrant les règles de sécurité, y compris le harcèlement, la violence et le gore, et les propos haineux.
  • Préjudices liés à la représentation : évaluation des requêtes de conversion de texte en texte et d'image en texte couvrant les règles de sécurité, y compris les biais, les stéréotypes, les associations nuisibles ou les inexactitudes.

Résultats de l'évaluation

Pour tous les domaines de tests de sécurité, nous avons constaté des améliorations majeures dans les catégories de sécurité des enfants, de sécurité du contenu et de préjudices liés à la représentation par rapport aux modèles Gemma précédents. Tous les tests ont été effectués sans filtres de sécurité pour évaluer les capacités et les comportements du modèle. Le modèle a généré un nombre minimal de non-respect des règles et a montré des améliorations significatives par rapport aux performances des modèles Gemma précédents en ce qui concerne les inférences non ancrées. Une limite de nos évaluations était qu'elles n'incluaient que des requêtes en anglais.

Utilisation et limites

Ces modèles présentent certaines limites que les utilisateurs doivent connaître.

Utilisation prévue

Ce modèle n'est pas destiné à être utilisé comme modèle de dialogue direct.
Les grands modèles de langage (LLM) ouverts ont de nombreuses applications dans divers secteurs et domaines. La liste suivante des utilisations potentielles n'est pas exhaustive. L'objectif de cette liste est de fournir des informations contextuelles sur les cas d'utilisation possibles que les créateurs de modèles ont pris en compte lors de l'entraînement et du développement des modèles.

  • Création et communication de contenu
    • Génération de texte : ces modèles peuvent être utilisés pour générer des formats de texte créatifs tels que des poèmes, des scripts, du code, des textes marketing et des brouillons d'e-mails.
    • Chatbots et IA conversationnelle : alimentez les interfaces conversationnelles pour le service client, les assistants virtuels ou les applications interactives.
    • Synthèse de texte : générez des résumés concis d'un corpus de texte, d'articles de recherche ou de rapports.
  • Recherche et enseignement
    • Recherche sur le traitement du langage naturel (TLN) : ces modèles peuvent servir de base aux chercheurs pour expérimenter des techniques de TLN, développer des algorithmes et contribuer à l'avancement du domaine.
    • Outils d'apprentissage des langues : ils permettent de proposer des expériences d'apprentissage des langues interactives, en aidant à corriger la grammaire ou en proposant des exercices d'écriture.
    • Exploration des connaissances : aider les chercheurs à explorer de grands corpus de texte en générant des résumés ou en répondant à des questions sur des sujets spécifiques.

Limites

  • Données d'entraînement
    • La qualité et la diversité des données d'entraînement ont une influence considérable sur les capacités du modèle. Les biais ou les lacunes dans les données d'entraînement peuvent entraîner des limites dans les réponses du modèle.
    • La portée de l'ensemble de données d'entraînement détermine les domaines que le modèle peut traiter efficacement.
  • Contexte et complexité de la tâche
    • Les modèles sont plus performants pour les tâches qui peuvent être formulées avec des requêtes et des instructions claires. Les tâches ouvertes ou très complexes peuvent être difficiles.
    • Les performances d'un modèle peuvent être influencées par la quantité de contexte fournie (un contexte plus long conduit généralement à de meilleurs résultats, jusqu'à un certain point).
  • Ambiguïté et nuances linguistiques
    • Le langage naturel est intrinsèquement complexe. Les modèles peuvent avoir du mal à saisir les nuances subtiles, le sarcasme ou le langage figuré.
  • Précision factuelle
    • Les modèles génèrent des réponses en fonction des informations qu'ils ont apprises à partir de leurs ensembles de données d'entraînement, mais ils ne sont pas des bases de connaissances. Ils peuvent générer des affirmations factuelles incorrectes ou obsolètes.
  • Common Sense
    • Les modèles s'appuient sur des schémas statistiques dans le langage. Il est possible qu'ils ne soient pas en mesure d'appliquer un raisonnement de bon sens dans certaines situations.

Considérations et risques éthiques

Le développement de grands modèles de langage (LLM) soulève plusieurs préoccupations éthiques. Pour créer un modèle ouvert, nous avons soigneusement examiné les points suivants :

  • Biais et équité
    • Les LLM entraînés sur des données textuelles réelles à grande échelle peuvent refléter des biais socioculturels intégrés dans le matériel d'entraînement. Ces modèles ont été examinés avec soin. Le prétraitement des données d'entrée est décrit et les évaluations a posteriori sont indiquées sur cette fiche.
  • Informations incorrectes et utilisation abusive
    • Les LLM peuvent être utilisés à mauvais escient pour générer du texte faux, trompeur ou nuisible.
    • Des consignes sont fournies pour une utilisation responsable du modèle. Consultez la boîte à outils d'IA générative responsable.
  • Transparence et responsabilité :
    • Cette fiche de modèle résume des informations sur l'architecture, les capacités, les limites et les processus d'évaluation des modèles.
    • Un modèle ouvert développé de manière responsable offre la possibilité de partager l'innovation en rendant la technologie LLM accessible aux développeurs et aux chercheurs de l'écosystème de l'IA.

Risques identifiés et stratégies d'atténuation :

  • Perpétuation des biais : il est recommandé d'effectuer une surveillance continue (à l'aide de métriques d'évaluation et d'une révision humaine) et d'explorer les techniques de suppression des biais lors de l'entraînement et du réglage précis des modèles, ainsi que dans d'autres cas d'utilisation.
  • Génération de contenu nuisible : les mécanismes et les consignes de sécurité du contenu sont essentiels. Nous encourageons les développeurs à faire preuve de prudence et à mettre en place des mesures de protection du contenu appropriées en fonction des règles spécifiques à leurs produits et des cas d'utilisation de leurs applications.
  • Utilisation abusive à des fins malveillantes : les limites techniques et la formation des développeurs et des utilisateurs finaux peuvent contribuer à atténuer les applications malveillantes des LLM. Des ressources pédagogiques et des mécanismes de signalement sont fournis aux utilisateurs pour leur permettre de signaler les utilisations abusives. Les utilisations interdites des modèles Gemma sont décrites dans le Règlement sur les utilisations interdites de Gemma.
  • Atteintes à la confidentialité : les modèles ont été entraînés sur des données filtrées pour supprimer les informations permettant d'identifier personnellement les utilisateurs. Nous encourageons les développeurs à respecter les réglementations sur la confidentialité à l'aide de techniques protégeant la confidentialité.

Avantages

Au moment de la publication, cette famille de modèles fournit des implémentations de grands modèles de langage ouverts et hautes performances, conçues dès le départ pour le développement d'une IA responsable par rapport aux modèles de taille similaire.