FunctionGemma model kartı

Model Sayfası: FunctionGemma

Kaynaklar ve Teknik Belgeler:

Kullanım Şartları: Şartlar
Yazarlar: Google DeepMind

Model Bilgisi

Giriş ve çıkışların özet açıklaması ve kısa tanımı.

Açıklama

NOT: FunctionGemma, çok turlu kullanım alanları da dahil olmak üzere belirli işlev çağrısı göreviniz için ince ayar yapılması amacıyla tasarlanmıştır.

FunctionGemma, Google'ın kendi özel işlev çağrısı modellerinizi oluşturmak için temel olarak geliştirdiği hafif ve açık bir modeldir. FunctionGemma, doğrudan diyalog modeli olarak kullanılmak üzere tasarlanmamıştır ve bu boyuttaki modellerde olduğu gibi, daha fazla ince ayar yapıldıktan sonra yüksek performans gösterecek şekilde tasarlanmıştır. Gemma 3 270M modeli üzerine kurulu olan ve Gemini modellerini oluşturmak için kullanılan araştırma ve teknolojinin aynısıyla geliştirilen FunctionGemma, özellikle işlev çağrısı için eğitilmiştir. Model, Gemma 3 ile aynı mimariye sahiptir ancak farklı bir sohbet biçimi kullanır. Model, yalnızca metin içeren işlev çağrıları için uygundur. Benzersiz derecede küçük boyutu sayesinde dizüstü bilgisayarlar, masaüstü bilgisayarlar veya kendi bulut altyapınız gibi sınırlı kaynaklara sahip ortamlarda dağıtılabilir. Bu sayede, en gelişmiş yapay zeka modellerine erişim herkes için demokratikleştirilir ve inovasyon teşvik edilir. Ayrıca, temel Gemma 270M'ye benzer şekilde, model son derece çok yönlü olacak, tek dönüşlü senaryolarda çeşitli donanımlarda iyi performans gösterecek şekilde optimize edilmiştir ancak belirli alanlarda en iyi doğruluğu elde etmek için tek dönüşlü veya çok dönüşlü göreve özgü veriler üzerinde ince ayar yapılması gerekir. 270 milyon parametreli modelin uzmanlaşmasının belirli aracı iş akışlarında nasıl yüksek performans sağlayabileceğini göstermek için Google AI Edge Gallery uygulamasında iki kullanım alanını öne çıkardık.

  • Tiny Garden: Sesle kontrol edilen etkileşimli bir oyuna güç vermek için ince ayar yapılmış bir model. Sanal bir araziyi yönetmek için oyun mantığını işler, "Üst sıraya ayçiçeği ek" ve "1. ve 2. parsellerdeki çiçekleri sula" gibi komutları uygulamaya özel işlevlere (ör. plant_seed, water_plots) ayırır ve hedefleri koordine eder. Bu, modelin sunucu bağlantısı olmadan özel uygulama mekanikleri oluşturma kapasitesini gösterir.

  • Mobil İşlemler: Geliştiricilerin kendi uzman aracılarını oluşturmalarını sağlamak için FunctionGemma'nın ince ayarını göstermek üzere bir veri kümesi ve ince ayar tarifi yayınladık. Kullanıcı girişlerini (ör. "Öğle yemeği için takvim etkinliği oluştur", "Feneri aç") gibi komutları Android OS sistem araçlarını tetikleyen işlev çağrılarına dönüştürür. Bu etkileşimli not defteri, temel FunctionGemma modelini alıp Google AI Edge galeri uygulamasında kullanılmak üzere sıfırdan "Mobil İşlemler" ince ayarı oluşturmayı gösterir. Bu kullanım alanı, modelin kişisel cihaz görevleri için çevrimdışı ve özel bir aracı olarak hareket etme yeteneğini gösterir.

Girişler ve çıkışlar

  • Giriş:
    • Soru, istem veya özetlenecek doküman gibi bir metin dizesi
    • 32 bin parçalık toplam giriş bağlamı
  • Çıkış:
    • Girişe yanıt olarak oluşturulan metin (ör. bir soruya verilen yanıt veya bir dokümanın özeti)
    • İstek giriş jetonları çıkarıldığında istek başına 32 bin jetona kadar toplam çıkış bağlamı

Model Verileri

Model eğitimi için kullanılan veriler ve verilerin nasıl işlendiği.

Eğitim Veri Kümesi

Bu modeller, çok çeşitli kaynaklardan oluşan bir metin verileri kümesiyle eğitilmiştir. Model, 6T jetonla eğitildi. Eğitim verilerinin bilgi kesme tarihi Ağustos 2024'tür. Temel bileşenler şunlardır:

  • Herkese Açık Araç Tanımları - Web'de bulunan yaygın API'ler
  • Araç Kullanımı Etkileşimleri: Bunlar, işlev çağrısı yanıtını özetlemek veya istem belirsiz ya da eksik olduğunda açıklama istemek için istemler, işlev çağrıları, işlev yanıtları ve modelin doğal dil yanıtlarının bir karışımıdır.

Veri Ön İşleme

Eğitim verilerine uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır:

  • CSAM Filtreleme: Zararlı ve yasa dışı içeriklerin hariç tutulmasını sağlamak için veri hazırlama sürecinin birden fazla aşamasında titiz bir CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtreleme işlemi uygulandı.
  • Hassas Veri Filtreleme: Gemma önceden eğitilmiş modelleri güvenli ve güvenilir hale getirmek için eğitim kümelerinden belirli kişisel bilgileri ve diğer hassas verileri filtrelemek üzere otomatik teknikler kullanılmıştır.
  • Ek yöntemler: Politikalarımıza uygun olarak içerik kalitesine ve güvenliğine göre filtreleme.

Uygulama Bilgileri

Modelin iç işleyişiyle ilgili ayrıntılar.

Donanım

Gemma, Tensor İşleme Birimi (TPU) donanımı (TPUv4p, TPUv5p ve TPUv5e) kullanılarak eğitildi. Görüntü-dil modellerinin (VLM'ler) eğitimi önemli ölçüde işlem gücü gerektirir. TPU'lar, özellikle makine öğreniminde yaygın olan matris işlemleri için tasarlanmıştır ve bu alanda çeşitli avantajlar sunar:

  • Performans: TPU'lar, özellikle VLM'lerin eğitimiyle ilgili büyük ölçekli hesaplamaları işlemek için tasarlanmıştır. CPU'lara kıyasla eğitimi önemli ölçüde hızlandırabilirler.
  • Bellek: TPU'lar genellikle yüksek bant genişliğine sahip büyük miktarda bellek içerir. Bu sayede eğitim sırasında büyük modeller ve toplu boyutlar işlenebilir. Bu durum, model kalitesinin artmasına neden olabilir.
  • Ölçeklenebilirlik: TPU Kapsülleri (büyük TPU kümeleri), büyük temel modellerin artan karmaşıklığını yönetmek için ölçeklenebilir bir çözüm sunar. Daha hızlı ve verimli işleme için eğitimi birden fazla TPU cihazına dağıtabilirsiniz.
  • Maliyet etkinliği: TPU'lar, özellikle daha hızlı eğitim sayesinde tasarruf edilen zaman ve kaynaklar göz önünde bulundurulduğunda, birçok senaryoda büyük modellerin eğitimi için CPU tabanlı altyapıya kıyasla daha uygun maliyetli bir çözüm sunabilir.
  • Bu avantajlar, Google'ın sürdürülebilir şekilde faaliyet gösterme taahhütleriyle uyumludur.

Yazılım

Eğitim, JAX ve ML Pathways kullanılarak yapıldı. JAX, araştırmacıların büyük modellerin daha hızlı ve daha verimli eğitilmesi için TPU'lar da dahil olmak üzere en yeni nesil donanımdan yararlanmasına olanak tanır. ML Pathways, Google'ın birden fazla görevde genelleme yapabilen yapay zeka sistemleri oluşturma konusundaki en yeni çalışmasıdır. Bu, özellikle aşağıdakiler gibi büyük dil modelleri de dahil olmak üzere temel modeller için uygundur.
JAX ve ML Pathways, Gemini model ailesiyle ilgili makalede açıklandığı şekilde birlikte kullanılır. "Jax ve Pathways'in "tek denetleyici" programlama modeli, tek bir Python sürecinin tüm eğitim çalıştırmasını düzenlemesine olanak tanıyarak geliştirme iş akışını önemli ölçüde basitleştirir."

Değerlendirme

Model değerlendirme metrikleri ve sonuçları.

Karşılaştırma Sonuçları

Benchmark n-shot Function Gemma 270m
BFCL Simple 0 şut 61,6
BFCL Parallel 0 şut 63,5
BFCL Multiple 0 şut 39
BFCL Parallel Multiple 0 şut 29,5
BFCL Live Simple 0 şut 36,2
BFCL Live Parallel 0 şut 25,7
BFCL Live Multiple 0 şut 22,9
BFCL Live Parallel Multiple 0 şut 20,8
BFCL Alaka Düzeyi 0 şut 61,1
BFCL Alaka Düzeyinin Düşük Olması 0 şut 70,6

Mobil İşlemler Veri Kümesinde İnce Ayar Yapıldıktan Sonra Performans Üzerindeki Etki
Küçük dil modellerinde uzmanlaşmanın değerini göstermek için temel FunctionGemma modelini, "Mobil İşlemler" tarifi kullanılarak ince ayar yapılmış modelle karşılaştırdık. İnce ayar, temel FunctionGemma modelinin mobil sistem çağrılarını doğru şekilde tanımlama ve biçimlendirme becerisini önemli ölçüde geliştirdi.


Model

Mobil İşlemler için sonuçları değerlendirme

Base FunctionGemma modeli

%58

Mobil İşlemler İnce Ayarı

85%

Gemma 270m ile ince ayar yapılmış kullanım alanlarının cihaz üzerindeki performansı
Cihaz üzerindeki gecikmeyi ve bellek ayak izini değerlendirmek için ince ayar yapılmış kullanım alanlarını Samsung S25 Ultra'da test ettik.

  • Bağlam: 512 ön doldurma jetonu ve 32 kod çözme jetonu.
  • Donanım: 4 iş parçacığıyla LiteRT XNNPACK temsilcisini kullanan S25 Ultra CPU.

Cihaz Performansında Mobil İşlemler


Arka uç

Kuantizasyon şeması

Bağlam uzunluğu

Önceden doldurma (saniyedeki jeton sayısı)

Kod çözme (saniyede jeton sayısı)

İlk jetona kadar geçen süre (saniye)

Model Boyutu (MB)

En Yüksek RSS Belleği (MB)

CPU

dynamic_int8

1024

1718

125.9

0.3

288

551

Cihaz performansında küçük bahçe


Arka uç

Kuantizasyon şeması

Bağlam uzunluğu

Önceden doldurma (saniyedeki jeton sayısı)

Kod çözme (saniyede jeton sayısı)

İlk jetona kadar geçen süre (saniye)

Model Boyutu (MB)

En Yüksek RSS Belleği (MB)

CPU

dynamic_int8

1024

1743

125.7

0.3

288

549

Etik ve Güvenlik

Etik ve güvenlik değerlendirmesi yaklaşımı ve sonuçları.

Değerlendirme Yaklaşımı

Değerlendirme yöntemlerimiz arasında yapılandırılmış değerlendirmeler ve ilgili içerik politikalarının dahili kırmızı takım testleri yer alır. Kırmızı takım testi, her biri farklı hedeflere ve insan değerlendirme metriklerine sahip çeşitli ekipler tarafından yapıldı. Bu modeller, aşağıdakiler de dahil olmak üzere etik ve güvenlik ile ilgili çeşitli kategorilere göre değerlendirildi:

  • Çocukların güvenliği: Çocukların cinsel istismarı ve suistimali dahil olmak üzere çocukların güvenliği politikalarını kapsayan metinden metne ve resimden metne istemlerin değerlendirilmesi.
  • İçerik Güvenliği: Metinden metne ve resimden metne istemlerin değerlendirilmesi Taciz, şiddet, kan ve nefret söylemi gibi güvenlik politikalarını kapsar.
  • Temsili Zararlar: Metinden metne ve resimden metne istemlerin değerlendirilmesi. Bu değerlendirme, önyargı, stereotipleştirme ve zararlı ilişkiler veya yanlışlıklar gibi güvenlik politikalarını kapsar.

Değerlendirme Sonuçları

Güvenlik testinin tüm alanlarında, önceki Gemma modellerine kıyasla çocuk güvenliği, içerik güvenliği ve temsili zararlar kategorilerinde önemli iyileşmeler gördük. Tüm testler, modelin yeteneklerini ve davranışlarını değerlendirmek için güvenlik filtreleri olmadan yapıldı. Model, minimum düzeyde politika ihlali üretti ve temelsiz çıkarımlar açısından önceki Gemma modellerinin performansına kıyasla önemli iyileşmeler gösterdi. Değerlendirmelerimizdeki bir sınırlama, yalnızca İngilizce dil istemlerini içermesiydi.

Kullanım ve Sınırlamalar

Bu modellerin, kullanıcıların bilmesi gereken belirli sınırlamaları vardır.

Kullanım Amacı

Bu model, doğrudan diyalog modeli olarak kullanılmak üzere tasarlanmamıştır.
Açık Büyük Dil Modelleri (LLM'ler), çeşitli sektörlerde ve alanlarda geniş bir uygulama yelpazesine sahiptir. Aşağıdaki olası kullanım alanları listesi kapsamlı değildir. Bu listenin amacı, model oluşturucuların model eğitimi ve geliştirme sürecinde dikkate aldığı olası kullanım alanları hakkında bağlamsal bilgiler sağlamaktır.

  • İçerik Üretimi ve İletişim
    • Metin Oluşturma: Bu modeller, şiir, senaryo, kod, pazarlama metni ve e-posta taslağı gibi yaratıcı metin biçimleri oluşturmak için kullanılabilir.
    • Chatbot'lar ve Etkileşimli Yapay Zeka: Müşteri hizmetleri, sanal asistanlar veya etkileşimli uygulamalar için etkileşimli arayüzleri destekleyin.
    • Metin Özetleme: Metin derlemelerinin, araştırma makalelerinin veya raporların kısa özetlerini oluşturun.
  • Araştırma ve Eğitim
    • Doğal Dil İşleme (NLP) Araştırması: Bu modeller, araştırmacıların NLP teknikleriyle denemeler yapması, algoritmalar geliştirmesi ve alanın ilerlemesine katkıda bulunması için temel olarak kullanılabilir.
    • Dil öğrenme araçları: Dil öğrenme deneyimlerini destekleyerek dil bilgisi düzeltme veya yazma alıştırması yapma konusunda yardımcı olur.
    • Bilgi Keşfi: Özetler oluşturarak veya belirli konularla ilgili soruları yanıtlayarak araştırmacıların büyük metinleri incelemesine yardımcı olun.

Sınırlamalar

  • Eğitim Verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, modelin yeteneklerini önemli ölçüde etkiler. Eğitim verilerindeki önyargılar veya eksikler, modelin yanıtlarında sınırlamalara yol açabilir.
    • Eğitim veri kümesinin kapsamı, modelin etkili bir şekilde işleyebileceği konu alanlarını belirler.
  • Bağlam ve Görev Karmaşıklığı
    • Modeller, net istemler ve talimatlarla çerçevelenebilen görevlerde daha iyi performans gösterir. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Bir modelin performansı, sağlanan bağlam miktarıyla etkilenebilir (daha uzun bağlam genellikle belirli bir noktaya kadar daha iyi sonuçlar verir).
  • Dil Belirsizliği ve İnce Anlamlar
    • Doğal dil, doğası gereği karmaşıktır. Modeller, ince nüansları, alaycı ifadeleri veya mecazlı dili anlamakta zorlanabilir.
  • Bilgilerin Doğruluğu
    • Modeller, eğitim veri kümelerinden öğrendikleri bilgilere göre yanıtlar oluşturur ancak bilgi tabanı değildir. Yanlış veya eski olgusal ifadeler üretebilir.
  • Common Sense
    • Modeller, dildeki istatistiksel kalıplara dayanır. Belirli durumlarda sağduyulu akıl yürütme yeteneğine sahip olmayabilirler.

Etik Hususlar ve Riskler

Büyük dil modellerinin (LLM) geliştirilmesi, çeşitli etik sorunlara yol açmaktadır. Açık bir model oluştururken aşağıdakileri dikkatlice değerlendirdik:

  • Önyargı ve Adalet
    • Büyük ölçekli ve gerçek dünyadan metin verileriyle eğitilen LLM'ler, eğitim materyaline yerleştirilmiş sosyo-kültürel önyargıları yansıtabilir. Bu modeller dikkatli bir inceleme sürecinden geçirilmiş, giriş verilerinin ön işleme süreci açıklanmış ve bu kartta son değerlendirmeler raporlanmıştır.
  • Yanlış Bilgilendirme ve Kötüye Kullanım
    • LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelin sorumlu kullanımıyla ilgili yönergeler sağlanır. Sorumlu Üretken Yapay Zeka Araç Seti'ne göz atın.
  • Şeffaflık ve Sorumluluk:
    • Bu model kartında, modellerin mimarisi, özellikleri, sınırlamaları ve değerlendirme süreçleriyle ilgili ayrıntılar özetlenmektedir.
    • Sorumlu bir şekilde geliştirilmiş açık bir model, yapay zeka ekosistemindeki geliştiricilerin ve araştırmacıların LLM teknolojisine erişmesini sağlayarak yenilikleri paylaşma fırsatı sunar.

Belirlenen riskler ve azaltma yöntemleri:

  • Eğilimlerin devam etmesi: Model eğitimi, ince ayar ve diğer kullanım alanlarında sürekli izleme (değerlendirme metrikleri ve inceleme uzmanları tarafından inceleme kullanılarak) ve eğilimleri azaltma tekniklerinin keşfedilmesi önerilir.
  • Zararlı içerik oluşturma: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar çok önemlidir. Geliştiricilerin dikkatli olmaları ve belirli ürün politikalarına ve uygulama kullanım alanlarına göre uygun içerik güvenliği önlemleri uygulamaları önerilir.
  • Kötü amaçlı kullanımların önlenmesi: Teknik sınırlamalar ve geliştirici ile son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcılara, kötüye kullanımı işaretlemeleri için eğitim kaynakları ve bildirme mekanizmaları sağlanır. Gemma modellerinin yasaklanan kullanımları Gemma Yasaklanan Kullanım Politikası'nda açıklanmıştır.
  • Gizlilik ihlalleri: Modeller, kimliği tanımlayabilecek bilgilerin (PII) kaldırılması için filtrelenmiş verilerle eğitildi. Geliştiricilerin, gizliliği korumaya yönelik tekniklerle gizlilik yönetmeliklerine uymaları önerilir.

Avantajları

Bu model ailesi, yayınlandığı sırada benzer boyutlu modellere kıyasla Sorumlu Yapay Zeka geliştirme için baştan tasarlanmış yüksek performanslı açık büyük dil modeli uygulamaları sunmaktadır.