Gemma 2 model kartı

Model Sayfa: Gemma

Kaynaklar ve Teknik Belgeler:

Kullanım Şartları: Şartlar

Yazarlar: Google

Model Bilgisi

Giriş ve çıkışların özet açıklaması ve kısa tanımı.

Açıklama

Gemma; Google'ın basit, son teknoloji ürünü açık modelleri, Gemini modellerini oluşturmak için kullanılan araştırma ve teknolojiyle geliştirilmiştir. Metinden metne ve yalnızca kod çözücüye sahip büyük dil modelleridir. İngilizce, hem de önceden eğitilmiş varyantlar ve talimatlara göre ayarlanmış varyantlar için açık ağırlıklara sahip olmalıdır. Gemma modelleri, aşağıdakiler de dahil olmak üzere çeşitli metin oluşturma görevleri için uygundur: özetlemeyi ve akıl yürütmeyi öğreneceksiniz. Nispeten küçük boyutları Bu sayede, bulut depolama gibi sınırlı kaynaklarla ortamlarda ya da kendi bulut altyapınızı kullanarak herkesin erişebileceği herkes için inovasyonun teşvik edilmesine yardımcı oluyoruz.

Girişler ve çıkışlar

  • Giriş: Metin dizesi (ör. soru, istem veya doküman) özetlenir.
  • Çıkış: Girişe yanıt olarak oluşturulan İngilizce metin. bir yanıt olarak veya bir dokümanın özeti olarak kullanabilirsiniz.

Alıntı

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

Model Verileri

Model eğitimi için kullanılan veriler ve verilerin işlenme şekli.

Eğitim Veri Kümesi

Bu modeller, çok çeşitli metin verileri içeren bir veri kümesi kullanılarak eğitildi bir kaynaktır. 27B model 13 trilyon jetonla eğitildi, 9B model ise 8 trilyon jetonla eğitildi ve 2 milyar model 2 trilyon jetonla eğitildi. Temel bileşenler şunlardır:

  • Web Dokümanları: Çok çeşitli web metinleri, modelin görünür olmasını sağlar geniş bir yelpazededir. Ağırlıklı olarak İngilizce içerik.
  • Kod: Modeli koda sunmak, modelin söz dizimini ve kalıplarını öğrenmesine veya üçüncü taraf programlaması gibi kodlarla ilgili soruları anlamaya çalışın.
  • Matematik: Matematiksel metin eğitimi, modelin mantıksal öğrenmesine yardımcı olur akıl yürütme, sembolik temsil ve matematiksel sorguları ele alma.

Bu çeşitli veri kaynaklarının birlikte kullanılması, etkili bir çok çeşitli görevleri ve metinleri işleyebilen bir dil modeli biçimlerinden biridir.

Veri Ön İşleme

Eğitimde uygulanan temel veri temizleme ve filtreleme yöntemleri şunlardır: veri:

  • CSAM Filtreleme: Katı CSAM (Çocukların Cinsel İstismarı Nitelikli Materyal) filtresi (önceki değeri) veri hazırlama sürecinin birden çok aşamasında uygulanır. hariç tutmak isteyebilirsiniz.
  • Hassas Veri Filtreleme: Önceden eğitilmiş Gemma modellerini, belirli kişisel verileri filtreleyip hariç tutmak için güvenilir ve otomatik eğitim kümelerindeki tüm hassas verileri ve bilgileri içerir.
  • Ek yöntemler: İçerik kalitesi ve güvenliğine göre filtreleme, politikalarımıza bakın.

Uygulama Bilgileri

Model dahili öğeleriyle ilgili ayrıntılar.

Donanım

Gemma, Arkadaş Bitkiler projesinin Tensor İşleme Birimi (TPU) donanımı (TPUv5p).

Büyük dil modellerinin eğitilmesi, önemli işlem gücü gerektirir. TPU'lar makine öğreniminde yaygın olarak kullanılan matris işlemleri için özel olarak tasarlanmış bazı avantajları vardır:

  • Performans: TPU'lar, devasa hesaplamaları yönetmek için özel olarak tasarlanmıştır. LLM'lerin eğitiminde görev almıştım. Çevik’e kıyasla eğitimi önemli ölçüde hızlandırabilir CPU'lar.
  • Bellek: TPU'lar genellikle yüksek bant genişliğine sahip büyük miktarda bellekle gelir. büyük modellerin ve grup boyutlarının işlenmesine yönelik temel işlemleri yapıyoruz. Bu model kalitesini artırır.
  • Ölçeklenebilirlik: TPU Kapsülleri (büyük TPU kümeleri) şunlar için ölçeklenebilir bir çözüm sunar: ve büyük temel modellerinin giderek daha karmaşık hale gelmesine yardımcı oluyor. Bu bağlantıları, birden fazla TPU cihazı arasında eğitim ile daha hızlı ve verimli bir şekilde çalışın.
  • Uygun maliyet: Birçok senaryoda TPU'lar daha uygun maliyetlidir. büyük modelleri eğitmeye yönelik bir çözüm olan bu çözüm, özellikle de platformdaki tüm araçların yanı sıra bahsedeceğim.
  • Bu avantajlar projenin Google'ın sürdürülebilir çalışma taahhütleri.

Yazılım

Eğitim, JAX ve ML Pathways kullanılarak gerçekleştirildi.

JAX, araştırmacıların en yeni nesil donanım, daha hızlı ve daha verimli eğitim için TPU'ları kullanabilirsiniz.

ML Pathways, Google'ın yapay zeka destekli sistemler geliştirmeye yönelik en son çalışmasıdır birden fazla görevde genelleme yapabilir. Bu yöntem özellikle temel modelleri içerir. Bu modeller, bunları kullanabilirsiniz.

JAX ve ML Yolları birlikte aşağıda açıklandığı gibi kullanılır: Gemini model ailesi hakkında bir makale; "tek denetleyici' Jax ve Pathways'in programlama modeli, tek bir Python'un tüm eğitim çalışmalarının düzenlenmesini sağlar ve süreci büyük ölçüde basitleştirir. bahsedeceğim.

Değerlendirme

Model değerlendirme metrikleri ve sonuçları.

Karşılaştırma Sonuçları

Bu modeller, farklı veri kümelerinden oluşan geniş bir koleksiyonla karşılaştırılarak değerlendirildi metrikleri kullanarak metin oluşturmanın farklı yönlerini ele aldık:

Karşılaştırma Metrik Gemma 2 PT 2B Gemma 2 PT 9B Gemma 2 PT 27B
MMLU 5 çekim, ilk 1 51,3 71,3 75,2
HellaSwag 10 Çekim 73,0 81,9 86,4
PIQA 0 Çekim 77,8 81,7 83,2
SocialIQA 0 Çekim 51,9 53,4 53,7
BoolQ 0 Çekim 72,5 84,2 84,8
WinoGrande kısmi puan 70,9 80,6 83,7
ARC-e 0 Çekim 80,1 88,0 88,6
ARC-c 25 çekim 55,4 68,4 71,4
TriviaQA 5 Çekim 59,4 76,6 83,7
Doğal Sorular 5 Çekim 16,7 29,2 34,5
HumanEval kart@1 17,7 40,2 51,8
MBPP 3 Çekim 29,6 52,4 62,6
GSM8K 5 çekim, maj@1 23,9 68,6 74,0
MATH 4 Çekim 15,0 36,6 42,3
AGIEval 3-5 çekim 30,6 52,8 55,1
DROP 3 atış, F1 52,0 69,4 72,2
BIG Bank 3 Çekim, Karyola 41,9 68,2 74,9

Etik ve Güvenlik

Etik ve güvenlik değerlendirmesi yaklaşımı ve sonuçları.

Değerlendirme Yaklaşımı

Değerlendirme yöntemlerimiz arasında, yapılandırılmış değerlendirmeler ve kurum içi değerlendirmeler yer alır. test edilmesine yardımcı olur. Kırmızı takım çalışması, her biri farklı hedeflere ve insanlar tarafından yapılan değerlendirme metriklerine sahip farklı ekipler. Bu modellerle alakalı bir dizi farklı kategoriye göre değerlendirildi. etik ve güvenlik şunları kapsar:

  • Metin-Metin İçerik Güvenliği: İstemlerin güvenliği kapsayan gerçek kişiler tarafından değerlendirilmesi çocuğun cinsel istismarı ve çocuk istismarı, taciz ve şiddet dahil politikalar vahşet ve nefret söylemi.
  • Text-to-Text Resmî Zararlar: İlgili akademisyenlerle karşılaştırma yapın WinoBias ve Barbekü Veri Kümesi gibi veri kümeleriyle ilişkilendirilebilir.
  • Hatırlama: Aşağıdakiler dahil olmak üzere eğitim verilerinin ezberlenmesinin otomatik olarak değerlendirilmesi kimliği tanımlayabilecek bilgilerin açığa çıkma riski.
  • Büyük ölçekte zarar: "Tehlikeli olanaklar" için testler kimyasal maddeler, biyolojik, radyolojik ve nükleer (CBRN) riskleri.

Değerlendirme Sonuçları

Etik ve güvenlik değerlendirmelerinin sonuçları kabul edilebilir eşikler dahilindedir Alt yayıncı gibi kategorilerle ilgili dahili politikaları karşılamak için güvenlik, içerik güvenliği, temsili zararlar, ezberleme, büyük ölçekli zararlar. Sağlam dahili değerlendirmelerin yanı sıra, iyi bilinen güvenlik denetimlerinin sonuçları Barbekü, BOLD, Winogender, Winobias, RealToxicity ve TruthfulQA gibi karşılaştırmalar burada gösterilir.

Gemma 2.0

Karşılaştırma Metrik Gemma 2 BT 2B Gemma 2 BT 9B Gemma 2 BT 27B
RealToxicity ortalama 8,16 8,25 8,84
CrowS-Çiftleri top-1 37,67 37,47 36,67
Barbekü Ambig 1 çekim, ilk 1 83,20 88,58 85,99
Barbekü Belirsizliği top-1 69,31 82,67 86,94
Winogender top-1 52,91 79,17 77,22
TruthfulQA 43,72 50,27 51,60
Winobias 1_2 59,28 78,09 81,94
Winobias 2_2 88,57 95,32 97,22
Toxigen 48,32 39,30 38,42

Tehlikeli Yetenek Değerlendirmeleri

Değerlendirme Yaklaşımı

Bir dizi tehlikeli özelliği değerlendirdik:

  • Rahatsız edici siber güvenlik: Modelin kötüye kullanılma olasılığını değerlendirmek için bağlamlarını kullandığımız için herkese açık InterCode-CTF ve Hack the Box gibi ve şirket içinde geliştirilen CTF meydan okumalarıdır. Bu değerlendirmeler, potansiyel risklerin sistemin güvenlik açıklarından yararlanma ve yetkisiz erişim sağlama simüle edilmiş ortam yaratır.
  • Kendi kendini çoğaltma: Modelin kapasitesini şu yönde değerlendirdik: kaynak edinme, kod yazma ve kendini geliştirmeyi içeren görevler tasarlayarak ve uzak sistemlerle etkileşimde bulunur. Bu değerlendirmeler, bu modelin bağımsız olarak çoğaltılıp yayılması.
  • İkna etme: Modelin ikna etme ve ikna etme kapasitesini değerlendirmek daha önce de olsa insanlar için ikna çalışmaları yürüttük. Bu çalışmalarda modelin uyum, etki ve bağ kurma kabiliyetini ölçen senaryolar ve insanlardan belirli eylemlerde bulunmalarını sağlar.

Değerlendirme Sonuçları

Tüm değerlendirmeler şurada ayrıntılı olarak açıklanmıştır: Frontier Models'i Tehlikeli Özellikler Açısından Değerlendirme ve kısaca Gemma 2 teknik raporu.

Değerlendirme Kapasite Gemma 2 BT 27B
InterCode-CTF Rahatsız edici siber güvenlik 34/76 yarışma
Dahili CTF Rahatsız edici siber güvenlik 1/13 görev
Kutuyu Hack'leyin Rahatsız edici siber güvenlik 0/13 görev
Kendine zarar vermeyle ilgili erken uyarı Kendini çoğalma 1/10 görev
Tılsım rahatsız edici İkna Kabul eden katılımcıların yüzdesi: %81 ilgi çekici, %75’i tekrar konuşur, %80'i kişisel bağlantı kurdu
Bağlantıları Tıklayın İkna Katılımcıların% 34'ü
Bilgi Bul İkna Katılımcıların% 9'u
Kodu Çalıştır İkna Katılımcıların% 11'i
Parayla ilgili konuşmalar İkna Ortalama bağış tutarı 3,72 İngiliz sterlini
Yalanlar Ağı İkna %18 doğru inanç, %1 doğru inanç yanlış inanç

Kullanım ve Sınırlamalar

Bu modellerde kullanıcıların bilmesi gereken belirli sınırlamalar vardır.

Amaçlanan Kullanım

Açık, Büyük Dil Modelleri (LLM'ler), Google Etiket Yöneticisi'nde çok çeşitli farklı sektör ve alanlarda faaliyet gösterir. Aşağıdaki olası kullanımlar listesi size yönetmektir. Bu listenin amacı bağlamsal bilgiler sağlamaktır model oluşturanların modelin bir parçası olarak değerlendirdiği olası kullanım alanları hakkında ve geliştirmeyi öğreteceğim.

  • İçerik Üretme ve İletişim
    • Metin Oluşturma: Bu modeller, reklam öğesi metin biçimleri oluşturmak için kullanılabilir şiir, senaryo, kod, pazarlama metni ve e-posta taslakları gibi
    • Chatbot'lar ve etkileşimli yapay zeka: Müşteriler için sohbet arayüzlerini destekleyin sanal asistanlar ya da etkileşimli uygulamalar kullanılabilir.
    • Metin Özetleme: Bir metin topluluğunun, araştırmaların kısa ve öz özetlerini oluşturun veya raporlar.
  • Araştırma ve Eğitim
    • Doğal dil işleme (NLP) araştırması: Bu modeller araştırmacıların NLP tekniklerini deneyebileceği, geliştirebileceği ve ve alanın gelişimine katkıda bulunmaktır.
    • Dil Öğrenme Araçları: Etkileşimli dil öğrenme deneyimlerini destekler. dil bilgisi düzeltmeye yardımcı olma veya yazma alıştırması yapma.
    • Bilgi Keşfi: Araştırmacıların büyük metin yapılarını keşfetmelerine yardımcı olma özet oluşturarak veya belirli konularla ilgili soruları yanıtlayarak

Sınırlamalar

  • Eğitim Verileri
    • Eğitim verilerinin kalitesi ve çeşitliliği, en iyi uygulamaları paylaşacağız. Eğitim verilerindeki sapmalar veya boşluklar, modelin yanıtlarındaki sınırlamalar.
    • Eğitim veri kümesinin kapsamı, modelin gösterebileceği konu alanlarını belirler ele alacağız.
  • Bağlam ve Görevin Karmaşıklığı
    • LLM'ler, net istemler ve ifadelerle çerçevelenebilecek görevlerde daha başarılıdır. bakın. Açık uçlu veya son derece karmaşık görevler zorlayıcı olabilir.
    • Bir modelin performansı, sağlanan bağlam miktarından etkilenebilir (bağlamın uzun olması genellikle belirli bir noktaya kadar daha iyi sonuçlar elde edilmesini sağlar).
  • Dil Belirsizliği ve Nüansı
    • Doğal dil, yapısı gereği karmaşıktır. LLM'ler karmaşık konuları kavramada nüanslar, alay veya mecazi dil.
  • Gerçeklik
    • LLM'ler, geliştiricilerin deneyimlerinden öğrendikleri bilgilere dayalı olarak yanıtlar oluşturur. ancak bunlar bilgi tabanı değildir. Örneğin, ya da güncelliğini yitirmiş, gerçeğe dayalı ifadeler.
  • Sağduyu
    • LLM'ler, dildeki istatistiksel kalıplara dayanır. Yetenekleri olmayabilir sağduyulu akıl yürütmeyi öğreneceksiniz.

Etik Değerlendirmeler ve Riskler

Büyük dil modellerinin (LLM) geliştirilmesi bazı etik kaygıları da beraberinde getirmektedir. Açık bir model oluştururken aşağıdakileri dikkatlice inceledik:

  • Önyargı ve Adalet
    • Büyük ölçekli, gerçek metin verileriyle eğitilen LLM'ler sosyo-kültürel öğeleri yansıtabilir önyargıları pekiştirir. Bu modellerde inceleme, verilerin ön işleme tabi tutulması ve son değerlendirmelerin bu kartta bildirildi.
  • Yanlış Bilgilendirme ve Kötüye Kullanım
    • LLM'ler yanlış, yanıltıcı veya zararlı metinler oluşturmak için kötüye kullanılabilir.
    • Modelin sorumlu kullanımına ilişkin yönergeler verilmiştir. Daha fazla bilgi için Sorumlu Üretken Yapay Zeka Araç Seti.
  • Şeffaflık ve Sorumluluk:
    • Bu model kartında modellerle ilgili ayrıntıları mimari, üzerine konuşacağız.
    • Sorumlu bir şekilde geliştirilmiş açık bir model, dünyanın dört bir yanındaki LLM teknolojisini geliştiricilerin ve araştırmacıların erişebileceği hale getirerek yenilikler gözlemlediğimiz bir grup taktik bulunur.

Belirlenen riskler ve azaltmalar:

  • Yanlılıkların sürekliliği: Sürekli izleme yapılması önerilir (değerlendirme metrikleri, gerçek kişiler tarafından yapılan incelemeler) ve önyargısızlığın keşfi ince ayar yapma ve diğer kullanım alanlarında geliştirme yapmalarına yardımcı olur.
  • Zararlı içerik üretimi: İçerik güvenliğiyle ilgili mekanizmalar ve kurallar olmazsa olmazdır. Geliştiricilerin dikkatli olması ve Belirli ürün politikalarına dayanan uygun içerik güvenliği önlemleri kullanım alanlarından bahsedeceğiz.
  • Kötü amaçlarla kötüye kullanım: Teknik sınırlamalar ve geliştirici ve son kullanıcı eğitimi, LLM'lerin kötü amaçlı uygulamalarını azaltmaya yardımcı olabilir. Kullanıcıların kötüye kullanımı bildirmek için kullanabilecekleri eğitim kaynakları ve bildirim mekanizmaları sağlar. Gemma modellerinin yasaklanmış kullanımları Gemma Yasaklanan Kullanım Politikası.
  • Gizlilik ihlalleri: Modeller, kimliği tanımlayabilecek bilgilerin (PII) kaldırılması için filtrelenmiş veriler üzerine eğitilmiştir. (kimliği tanımlayabilecek bilgiler) Geliştiricilerin gizlilikle ilgili yönetmelikleri uygulamalısınız.

Avantajları

Bu model ailesi, piyasaya sürüldüğünde yüksek performans sunar. için sıfırdan tasarlanmış büyük dil modeli uygulamaları Benzer boyuttaki modellere kıyasla yapay zekayı geliştirme.

Bu modeller, bu belgede açıklanan karşılaştırma değerlendirme metriklerini kullanarak benzer boyutlardaki diğer açık modellerden daha iyi performans sağladığını göstermiştir. sağlayabilir.