Pagina del modello: FunctionGemma
Risorse e documentazione tecnica:
Termini di utilizzo: Termini
Autori: Google DeepMind
Informazioni sul modello
Descrizione riassuntiva e breve definizione di input e output.
Descrizione
NOTA: FunctionGemma è progettato per essere ottimizzato per l'attività specifica di chiamata di funzioni, inclusi i casi d'uso multi-turno.
FunctionGemma è un modello open source leggero di Google, creato come base per la creazione di modelli di chiamata di funzioni specializzati. FunctionGemma non è pensato per essere utilizzato come modello di dialogo diretto ed è progettato per essere altamente performante dopo un ulteriore perfezionamento, come è tipico dei modelli di queste dimensioni. Basato sul modello Gemma 3 270M e con la stessa ricerca e tecnologia utilizzate per creare i modelli Gemini, FunctionGemma è stato addestrato appositamente per la chiamata di funzioni. Il modello ha la stessa architettura di Gemma 3, ma utilizza un formato di chat diverso. Il modello è adatto alle chiamate di funzione solo testuali. Le dimensioni ridotte uniche consentono il deployment in ambienti con risorse limitate, come laptop, computer o la tua infrastruttura cloud, democratizzando l'accesso a modelli di AI all'avanguardia e contribuendo a promuovere l'innovazione per tutti. Inoltre, come il modello di base Gemma 270M, è stato ottimizzato per essere estremamente versatile e performante su una varietà di hardware in scenari a singolo turno, ma deve essere ottimizzato su dati specifici per attività a singolo turno o multiturno per ottenere la massima precisione in domini specifici. Per dimostrare come la specializzazione del modello con 270 milioni di parametri possa ottenere prestazioni elevate in flussi di lavoro agentici specifici, abbiamo evidenziato due casi d'uso nell'app Google AI Edge Gallery.
Tiny Garden:un modello ottimizzato per alimentare un gioco interattivo controllato con la voce. Gestisce la logica di gioco per gestire un appezzamento di terreno virtuale, scomponendo comandi come "Pianta girasoli nella riga superiore" e "Innaffia i fiori negli appezzamenti 1 e 2" in funzioni specifiche dell'app (ad es. plant_seed, water_plots) e coordinate di destinazione. Ciò dimostra la capacità del modello di guidare meccaniche di app personalizzate senza connettività al server.
Azioni mobile:per consentire agli sviluppatori di creare i propri agenti esperti, abbiamo pubblicato un set di dati e una ricetta di perfezionamento per dimostrare il perfezionamento di FunctionGemma. Traduce gli input dell'utente (ad es. "Crea un evento nel calendario per pranzo", "Accendi la torcia") in chiamate di funzioni che attivano gli strumenti di sistema del sistema operativo Android. Questo notebook interattivo mostra come prendere il modello base FunctionGemma e creare un'ottimizzazione "Mobile Actions" da zero per l'utilizzo nell'app galleria Google AI Edge. Questo caso d'uso dimostra la capacità del modello di fungere da agente privato offline per le attività dei dispositivi personali.
Ingressi e uscite
- Input:
- Stringa di testo, ad esempio una domanda, un prompt o un documento da riassumere
- Contesto di input totale di 32.000 token
- Output:
- Testo generato in risposta all'input, ad esempio la risposta a una domanda o il riepilogo di un documento
- Contesto di output totale fino a 32.000 token per richiesta, sottraendo i token di input della richiesta
Dati modello
Dati utilizzati per l'addestramento del modello e modalità di elaborazione.
Set di dati di addestramento
Questi modelli sono stati addestrati su un set di dati di testo che include un'ampia varietà di fonti. Il modello è stato addestrato con 6 trilioni di token. La data del knowledge cutoff per i dati di addestramento era agosto 2024. Ecco i componenti chiave:
- Definizioni degli strumenti pubblici: API comuni trovate sul web
- Interazioni di utilizzo degli strumenti: si tratta di un mix di prompt, chiamate di funzioni, risposte di funzioni e risposte in linguaggio naturale del modello per riepilogare la risposta della chiamata di funzione o richiedere chiarimenti quando il prompt è ambiguo o incompleto.
Pre-elaborazione dei dati
Di seguito sono riportati i principali metodi di pulizia e filtraggio dei dati applicati ai dati di addestramento:
- Filtro del materiale pedopornografico: è stato applicato un rigoroso filtro del materiale pedopornografico in più fasi del processo di preparazione dei dati per garantire l'esclusione di contenuti dannosi e illegali.
- Filtro dei dati sensibili: nell'ambito della creazione di modelli preaddestrati Gemma sicuri e affidabili, sono state utilizzate tecniche automatizzate per filtrare determinati dati personali e altri dati sensibili dai set di addestramento.
- Metodi aggiuntivi: filtro basato sulla qualità e sulla sicurezza dei contenuti in linea con le nostre norme.
Informazioni sull'implementazione
Dettagli sugli elementi interni del modello.
Hardware
Gemma è stato addestrato utilizzando hardware Tensor Processing Unit (TPU) (TPUv4p, TPUv5p e TPUv5e). L'addestramento dei modelli vision-language (VLM) richiede una potenza di calcolo significativa. Le TPU, progettate specificamente per le operazioni matriciali comuni nel machine learning, offrono diversi vantaggi in questo dominio:
- Prestazioni: le TPU sono progettate specificamente per gestire i calcoli massicci coinvolti nell'addestramento dei VLM. Possono accelerare l'addestramento in modo significativo rispetto alle CPU.
- Memoria: le TPU spesso sono dotate di grandi quantità di memoria a larghezza di banda elevata, il che consente la gestione di modelli e dimensioni dei batch di grandi dimensioni durante l'addestramento. Ciò può portare a una migliore qualità del modello.
- Scalabilità: i pod TPU (grandi cluster di TPU) forniscono una soluzione scalabile per gestire la crescente complessità dei modelli di base di grandi dimensioni. Puoi distribuire l'addestramento su più dispositivi TPU per un'elaborazione più rapida ed efficiente.
- Convenienza: in molti scenari, le TPU possono fornire una soluzione più conveniente per l'addestramento di modelli di grandi dimensioni rispetto all'infrastruttura basata su CPU, soprattutto se si considerano il tempo e le risorse risparmiati grazie a un addestramento più rapido.
- Questi vantaggi sono in linea con gli impegni di Google per operare in modo sostenibile.
Software
L'addestramento è stato eseguito utilizzando JAX e
ML Pathways.
JAX consente ai ricercatori di sfruttare l'hardware di ultima generazione,
incluse le TPU, per un addestramento più rapido ed efficiente di modelli di grandi dimensioni. ML
Pathways è l'ultimo tentativo di Google di creare sistemi di intelligenza artificiale
in grado di generalizzare più attività. Ciò è particolarmente adatto ai modelli
di base, inclusi i modelli linguistici di grandi dimensioni come questi.
Insieme, JAX e ML Pathways vengono utilizzati come descritto nell'articolo sulla
famiglia di modelli Gemini; "il modello di programmazione "single
controller" di Jax e Pathways consente a un singolo processo Python
di orchestrare l'intera esecuzione dell'addestramento, semplificando notevolmente il flusso di lavoro di sviluppo".
Valutazione
Metriche e risultati della valutazione del modello.
Risultati benchmark
| Benchmark | n-shot | Funzione Gemma 270m |
|---|---|---|
| BFCL Simple | 0 tiri | 61,6 |
| BFCL Parallel | 0 tiri | 63,5 |
| BFCL Multiple | 0 tiri | 39 |
| BFCL Parallel Multiple | 0 tiri | 29,5 |
| BFCL Live Simple | 0 tiri | 36,2 |
| BFCL Live Parallel | 0 tiri | 25,7 |
| BFCL Live Multiple | 0 tiri | 22.9 |
| BFCL Live Parallel Multiple | 0 tiri | 20,8 |
| Pertinenza BFCL | 0 tiri | 61.1 |
| BFCL Irrelevance | 0 tiri | 70,6 |
Impatto sul rendimento dopo il perfezionamento sul set di dati Azioni mobile
Per dimostrare il valore della specializzazione per i modelli linguistici di piccole dimensioni, abbiamo
confrontato il modello FunctionGemma di base con il modello perfezionato utilizzando la
ricetta
"Azioni mobile".
Il fine-tuning ha migliorato significativamente la capacità del modello di base FunctionGemma di
identificare e formattare correttamente le chiamate di sistema mobile.
Modello |
Risultati della valutazione per le Azioni per il mobile |
|---|---|
Modello Base FunctionGemma |
58% |
Ottimizzazione delle Azioni mobile |
85% |
Prestazioni sul dispositivo dei casi d'uso ottimizzati di Gemma 270M
Abbiamo valutato i casi d'uso ottimizzati su un Samsung S25 Ultra per valutare la latenza e l'utilizzo della memoria sul dispositivo.
- Contesto:512 token di precompilazione e 32 token di decodifica.
- Hardware:CPU S25 Ultra che utilizza il delegato LiteRT XNNPACK con 4 thread.
Azioni mobile sul rendimento del dispositivo
Backend |
Schema di quantizzazione |
Lunghezza del contesto |
Prefill (token al secondo) |
Decodifica (token al secondo) |
Tempo al primo token (secondi) |
Dimensioni modello (MB) |
Picco di memoria RSS (MB) |
|---|---|---|---|---|---|---|---|
CPU |
dynamic_int8 |
1024 |
1718 |
125.9 |
0.3 |
288 |
551 |
Piccolo giardino sulle prestazioni del dispositivo
Backend |
Schema di quantizzazione |
Lunghezza del contesto |
Prefill (token al secondo) |
Decodifica (token al secondo) |
Tempo al primo token (secondi) |
Dimensioni modello (MB) |
Picco di memoria RSS (MB) |
|---|---|---|---|---|---|---|---|
CPU |
dynamic_int8 |
1024 |
1743 |
125.7 |
0.3 |
288 |
549 |
Etica e sicurezza
Approccio e risultati della valutazione etica e di sicurezza.
Approccio di valutazione
I nostri metodi di valutazione includono valutazioni strutturate e test di red teaming interni delle norme relative ai contenuti pertinenti. Il red teaming è stato condotto da diversi team, ognuno con obiettivi e metriche di valutazione umana diversi. Questi modelli sono stati valutati in base a una serie di categorie diverse pertinenti all'etica e alla sicurezza, tra cui:
- Sicurezza dei minori: valutazione dei prompt da testo a testo e da immagine a testo che riguardano le norme sulla sicurezza dei minori, inclusi abusi sessuali e sfruttamento minorile.
- Sicurezza dei contenuti:valutazione dei prompt da testo a testo e da immagine a testo che riguardano le norme di sicurezza, tra cui molestie, violenza e contenuti cruenti e incitamento all'odio.
- Danni rappresentativi: valutazione dei prompt da testo a testo e da immagine a testo che riguardano le norme di sicurezza, inclusi pregiudizi, stereotipi e associazioni o imprecisioni dannose.
Risultati della valutazione
Per tutte le aree dei test di sicurezza, abbiamo riscontrato miglioramenti significativi nelle categorie di sicurezza dei bambini, sicurezza dei contenuti e danni rappresentativi rispetto ai precedenti modelli Gemma. Tutti i test sono stati condotti senza filtri di sicurezza per valutare le funzionalità e i comportamenti del modello. Il modello ha prodotto violazioni minime delle norme e ha mostrato miglioramenti significativi rispetto alle prestazioni dei modelli Gemma precedenti per quanto riguarda le inferenze non fondate. Un limite delle nostre valutazioni era che includevano solo prompt in lingua inglese.
Utilizzo e limitazioni
Questi modelli presentano alcune limitazioni di cui gli utenti devono essere a conoscenza.
Utilizzo previsto
Questo modello non è destinato all'uso come modello di dialogo diretto.
I modelli linguistici di grandi dimensioni (LLM) aperti hanno un'ampia gamma di applicazioni in
vari settori e domini. Il seguente elenco di potenziali utilizzi non è
esaustivo. Lo scopo di questo elenco è fornire informazioni contestuali
sui possibili casi d'uso che i creatori del modello hanno preso in considerazione nell'ambito dell'addestramento
e dello sviluppo del modello.
- Creazione di contenuti e comunicazione
- Generazione di testo: questi modelli possono essere utilizzati per generare formati di testo creativi come poesie, script, codice, testi di marketing e bozze di email.
- Chatbot e AI conversazionale: potenziano le interfacce conversazionali per il servizio clienti, gli assistenti virtuali o le applicazioni interattive.
- Riepilogo del testo: genera riepiloghi concisi di un corpus di testo, articoli di ricerca o report.
- Ricerca e istruzione
- Ricerca sull'elaborazione del linguaggio naturale (NLP): questi modelli possono servire da base per i ricercatori per sperimentare tecniche di NLP, sviluppare algoritmi e contribuire al progresso del settore.
- Strumenti di apprendimento delle lingue: supportano esperienze di apprendimento delle lingue interattive, aiutando a correggere la grammatica o fornendo esercizi di scrittura.
- Esplorazione delle conoscenze: aiuta i ricercatori a esplorare grandi corpi di testo generando riepiloghi o rispondendo a domande su argomenti specifici.
Limitazioni
- Dati di addestramento
- La qualità e la diversità dei dati di addestramento influiscono in modo significativo sulle funzionalità del modello. Bias o lacune nei dati di addestramento possono portare a limitazioni nelle risposte del modello.
- L'ambito del set di dati di addestramento determina gli argomenti che il modello può gestire in modo efficace.
- Contesto e complessità dell'attività
- I modelli sono più efficaci per le attività che possono essere inquadrate con prompt e istruzioni chiare. Le attività aperte o molto complesse potrebbero essere difficili.
- Il rendimento di un modello può essere influenzato dalla quantità di contesto fornito (un contesto più lungo generalmente porta a risultati migliori, fino a un certo punto).
- Ambiguità e sfumature del linguaggio
- Il linguaggio naturale è intrinsecamente complesso. I modelli potrebbero avere difficoltà a cogliere sfumature sottili, sarcasmo o linguaggio figurato.
- Accuratezza fattuale
- I modelli generano risposte basate sulle informazioni apprese dai set di dati di addestramento, ma non sono knowledge base. Potrebbe generare affermazioni fattuali errate o obsolete.
- Common Sense
- I modelli si basano su pattern statistici nel linguaggio. Potrebbero non essere in grado di applicare il ragionamento di buon senso in determinate situazioni.
Considerazioni etiche e rischi
Lo sviluppo di modelli linguistici di grandi dimensioni (LLM) solleva diverse preoccupazioni etiche. Nella creazione di un modello aperto, abbiamo considerato attentamente quanto segue:
- Pregiudizi ed equità
- Gli LLM addestrati su dati di testo reali e su larga scala possono riflettere i bias socio-culturali incorporati nel materiale di addestramento. Questi modelli sono stati sottoposti a un attento esame, il pretrattamento dei dati di input è stato descritto e le valutazioni posteriori sono riportate in questa scheda.
- Disinformazione e uso improprio
- Gli LLM possono essere usati in modo improprio per generare testi falsi, fuorvianti o dannosi.
- Per l'utilizzo responsabile del modello, consulta il toolkit per l'AI generativa responsabile.
- Trasparenza e responsabilizzazione:
- Questa scheda del modello riassume i dettagli sull'architettura, sulle funzionalità, sui limiti e sui processi di valutazione dei modelli.
- Un modello aperto sviluppato in modo responsabile offre l'opportunità di condividere l'innovazione rendendo la tecnologia LLM accessibile a sviluppatori e ricercatori in tutto l'ecosistema dell'AI.
Rischi identificati e mitigazioni:
- Perpetuazione dei bias: è consigliabile eseguire un monitoraggio continuo (utilizzando metriche di valutazione, revisione umana) e l'esplorazione di tecniche di riduzione dei bias durante l'addestramento, l'ottimizzazione e altri casi d'uso del modello.
- Generazione di contenuti dannosi: sono essenziali meccanismi e linee guida per la sicurezza dei contenuti. Gli sviluppatori sono invitati a prestare attenzione e a implementare misure di salvaguardia della sicurezza dei contenuti appropriate in base alle loro norme specifiche sui prodotti e ai casi d'uso delle applicazioni.
- Uso improprio per scopi dannosi: limitazioni tecniche e formazione di sviluppatori e utenti finali possono contribuire a mitigare le applicazioni dannose dei LLM. Vengono forniti risorse didattiche e meccanismi di segnalazione per consentire agli utenti di segnalare l'uso improprio. Gli usi vietati dei modelli Gemma sono descritti nelle Norme relative all'uso vietato di Gemma.
- Violazioni della privacy: i modelli sono stati addestrati su dati filtrati per la rimozione di PII (informazioni che consentono l'identificazione personale). Gli sviluppatori sono invitati a rispettare le normative sulla privacy con tecniche incentrate sulla tutela della privacy.
Vantaggi
Al momento del rilascio, questa famiglia di modelli fornisce implementazioni di modelli linguistici di grandi dimensioni aperti e ad alte prestazioni, progettati da zero per lo sviluppo di AI responsabile rispetto a modelli di dimensioni simili.