การ์ดโมเดล Gemma

หน้าโมเดล: Gemma

แหล่งข้อมูลและเอกสารทางเทคนิค:

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

คำอธิบายสรุปและคำจำกัดความโดยย่อของอินพุตและเอาต์พุต

คำอธิบาย

Gemma เป็นกลุ่มโมเดลแบบเปิดที่ทันสมัยและมีน้ำหนักเบาจาก Google ซึ่งสร้างขึ้นจากการวิจัยและเทคโนโลยีเดียวกันกับที่ใช้สร้างโมเดล Gemini โมเดลเหล่านี้คือโมเดลภาษาขนาดใหญ่ที่แปลงข้อความเป็นข้อความ มีให้บริการในภาษาอังกฤษ ด้วยรูปแบบเปิดน้ำหนัก ตัวแปรก่อนการฝึก และตัวแปรที่ปรับตามคำสั่ง โมเดลของ Gemma เหมาะกับงานการสร้างข้อความที่หลากหลาย รวมถึงการตอบคำถาม การสรุป และการให้เหตุผล เนื่องจากมีขนาดที่ค่อนข้างเล็ก จึงทำให้ใช้งานได้ในสภาพแวดล้อมที่มีทรัพยากรจำกัด เช่น แล็ปท็อป เดสก์ท็อป หรือโครงสร้างพื้นฐานของระบบคลาวด์ของคุณเอง ทำให้เข้าถึงข้อมูลเกี่ยวกับโมเดล AI ด้านศิลปะ และช่วยส่งเสริมนวัตกรรมสำหรับทุกคน

อินพุตและเอาต์พุต

  • อินพุต: สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่ต้องการสรุป
  • เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่ออินพุต เช่น คําตอบสําหรับคําถามหรือสรุปเอกสาร

การอ้างอิง

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

ข้อมูลโมเดล

ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

โมเดลเหล่านี้ได้รับการฝึกจากชุดข้อมูลข้อความซึ่งมีแหล่งที่มาที่หลากหลาย รวมเป็นโทเค็น 6 ล้านล้านโทเค็น องค์ประกอบหลักมีดังนี้

  • เอกสารในเว็บ: ชุดข้อความบนเว็บที่หลากหลายช่วยให้โมเดลแสดงต่อ รูปแบบภาษา หัวข้อ และคำศัพท์ต่างๆ มากมาย เนื้อหาเป็นภาษาอังกฤษเป็นหลัก
  • Code: การแสดงโค้ดให้โมเดลช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบภาษาโปรแกรม ซึ่งช่วยให้โมเดลสร้างโค้ดหรือเข้าใจคำถามที่เกี่ยวข้องกับโค้ดได้ดีขึ้น
  • คณิตศาสตร์: การฝึกข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้เหตุผลเชิงตรรกะ การนำเสนอสัญลักษณ์ และการตอบคำถามทางคณิตศาสตร์

การใช้แหล่งข้อมูลที่หลากหลายเหล่านี้ร่วมกันมีความสำคัญต่อการฝึกโมเดลภาษาที่มีประสิทธิภาพซึ่งจัดการงานและรูปแบบข้อความที่หลากหลายได้

การประมวลผลข้อมูลล่วงหน้า

ต่อไปนี้คือวิธีการทำความสะอาดและกรองข้อมูลที่สำคัญที่ใช้กับข้อมูลการฝึก

  • การกรอง CSAM: การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) ที่เข้มงวดใช้ในหลายขั้นตอนในกระบวนการจัดเตรียมข้อมูล เพื่อให้มั่นใจว่ามีการยกเว้นเนื้อหาที่เป็นอันตรายและผิดกฎหมาย
  • การกรองข้อมูลที่ละเอียดอ่อน: ในการทำให้โมเดลที่ฝึกล่วงหน้าของ Gemma ปลอดภัยและเชื่อถือได้ มีการใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกจากชุดการฝึก
  • วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตามนโยบายของเรา

ข้อมูลการใช้งาน

รายละเอียดเกี่ยวกับภายในของโมเดล

ฮาร์ดแวร์

Gemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e)

การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้พลังในการประมวลผลข้อมูลสูงมาก TPU ที่ออกแบบมาเพื่อการดำเนินการเกี่ยวกับเมทริกซ์ทั่วไปในแมชชีนเลิร์นนิงโดยเฉพาะมีข้อได้เปรียบหลายประการในโดเมนนี้

  • ประสิทธิภาพ: TPU ออกแบบมาเพื่อรองรับการประมวลผลขนาดใหญ่ที่เกี่ยวข้องกับการฝึก LLM โดยเฉพาะ พวกเขาเพิ่มความเร็วในการฝึกได้มากเมื่อเทียบกับ CPU
  • หน่วยความจำ: TPU มักมีหน่วยความจำที่ใช้แบนด์วิดท์สูงจำนวนมาก ซึ่งช่วยให้จัดการโมเดลขนาดใหญ่และขนาดแบบกลุ่มได้ระหว่างการฝึก ซึ่งจะทำให้โมเดลมีคุณภาพสูงขึ้น
  • ความสามารถในการปรับขนาด: พ็อด TPU (กลุ่ม TPU ขนาดใหญ่) เป็นโซลูชันที่รองรับการปรับขนาดเพื่อจัดการกับความซับซ้อนที่เพิ่มขึ้นของโมเดลพื้นฐานขนาดใหญ่ คุณกระจายการฝึกไปยังอุปกรณ์ TPU หลายเครื่องได้ เพื่อการประมวลผลที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น
  • ความคุ้มค่า: ในหลายๆ สถานการณ์ TPU จะเป็นโซลูชันที่คุ้มค่ากว่าสำหรับการฝึกโมเดลขนาดใหญ่เมื่อเทียบกับโครงสร้างพื้นฐานที่ใช้ CPU โดยเฉพาะอย่างยิ่งเมื่อพิจารณาเวลาและทรัพยากรที่ประหยัดไปเนื่องจากการฝึกที่รวดเร็วขึ้น
  • ข้อดีเหล่านี้สอดคล้องกับความมุ่งมั่นของ Google ที่จะดำเนินงานอย่างยั่งยืน

ซอฟต์แวร์

ฝึกอบรมโดยใช้ JAX และ ML Pathways

JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU ในการฝึกโมเดลขนาดใหญ่ได้อย่างรวดเร็วและมีประสิทธิภาพยิ่งขึ้น

เส้นทาง ML คือความพยายามล่าสุดของ Google ในการสร้างระบบปัญญาประดิษฐ์ (AI) ที่สามารถรองรับการทำงานหลายๆ อย่างได้ ซึ่งเหมาะสมเป็นพิเศษสำหรับโมเดลพื้นฐาน รวมถึงโมเดลภาษาขนาดใหญ่เช่นนี้

การใช้ JAX และ ML Pathways เข้าด้วยกันได้ถูกนำไปใช้ตามที่อธิบายไว้ในบทความเกี่ยวกับโมเดลในตระกูล Gemini "โมเดลการเขียนโปรแกรมแบบ "ผู้ควบคุมเดียว" ของ Jax และ Pathways ช่วยให้กระบวนการ Python เดียวจัดการการฝึกวิ่งทั้งหมดได้อย่างราบรื่น ซึ่งทำให้เวิร์กโฟลว์การพัฒนาง่ายขึ้นมาก"

การประเมิน

เมตริกและผลลัพธ์ของการประเมินโมเดล

ผลลัพธ์การเปรียบเทียบ

โมเดลเหล่านี้ได้รับการประเมินโดยใช้ชุดข้อมูลและเมตริกต่างๆ ขนาดใหญ่เพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้

การเปรียบเทียบ เมตริก Gemma PT 2B Gemma PT 7B
MMLU ยิง 5 ลูก, ติดอันดับ 1 42.3 64.3
HellaSwag ยิงลูก 0 71.4 81.2
PIQA ยิงลูก 0 77.3 81.2
SocialIQA ยิงลูก 0 49.7 51.8
BoolQ ยิงลูก 0 69.4 83.2
WinoGrande คะแนนบางส่วน 65.4 72.3
CommonsenseQA ยิง 7 ช็อต 65.3 71.3
OpenBookQA 47.8 52.8
ARC-E 73.2 81.5
ARC-C 42.1 53.2
TriviaQA ยิง 5 ลูก 53.2 63.4
คำถามตามธรรมชาติ ยิง 5 ลูก 12.5 23.0
HumanEval บัตร@1 22.0 32.3
MBPP ยิง 3 ช็อต 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4 ช็อต 11.8 24.3
AGIEval 24.2 41.7
Bench ขนาดใหญ่ 35.2 55.1
ปานกลาง 44.9 56.4

จริยธรรมและความปลอดภัย

แนวทางและผลลัพธ์ในการประเมินจริยธรรมและความปลอดภัย

แนวทางการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินแบบมีโครงสร้างและการทดสอบภายในเกี่ยวกับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงดำเนินการโดยทีมต่างๆ มากมายที่มีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่ที่แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย เช่น

  • ความปลอดภัยของเนื้อหาเป็นข้อความ: การประเมินพรอมต์ที่พูดถึงนโยบายความปลอดภัยจากมนุษย์ เช่น การล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การล่วงละเมิด ความรุนแรง การนองเลือด และวาจาสร้างความเกลียดชัง
  • อันตรายจากการนำเสนอข้อความเป็นข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และชุดข้อมูลบาร์บีคิว
  • การจดจํา: การประเมินอัตโนมัติจากการจดจำข้อมูลการฝึกอบรม รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
  • อันตรายร้ายแรง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงทางเคมี ชีวภาพ รังสีวิทยา และนิวเคลียร์ (CBRN)

ผลการประเมิน

ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา อันตรายในการนำเสนอ การท่องจำ อันตรายในวงกว้าง นอกเหนือจากการประเมินภายในที่มีประสิทธิภาพแล้ว ผลการเปรียบเทียบความปลอดภัยซึ่งเป็นที่รู้จักกันดี เช่นบาร์บีคิว, BOLD, วิโนเพศ, Winobias, RealToxicity และ TruthfulQA จะแสดงที่นี่

Gemma 1.0

การเปรียบเทียบ เมตริก Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity เฉลี่ย 6.86 7.90
ตัวหนา 45.57 49.08
คู่กา top-1 45.82 51.33
BBQ Ambig ยิงลูกเดียว 1-1 62.58 92.54
การขจัดความกำกวมสำหรับบาร์บีคิว top-1 54.62 719.90 THB
ไวโนเจนเดอร์ top-1 51.25 54.17
TruthfulQA 44.84 31.81
ไวโนเบีย 1_2 56.12 59.09
ไวโนเบียส 2_2 91.10 92.23
ท็อกซิเกน 29.77 395.90

Gemma 1.1

การเปรียบเทียบ เมตริก Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity เฉลี่ย 7.03 8.04
ตัวหนา 47.76
คู่กา top-1 450.89 49.67
BBQ Ambig ยิงลูกเดียว 1-1 58.97 86.06
การขจัดความกำกวมสำหรับบาร์บีคิว top-1 539.00 THB 85.08
ไวโนเจนเดอร์ top-1 50.14 57.64
TruthfulQA 44.24 45.34
ไวโนเบีย 1_2 55.93 59:22
ไวโนเบียส 2_2 89.46 89.2
ท็อกซิเกน 29.64 38.75

การใช้งานและข้อจำกัด

รูปแบบเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

วัตถุประสงค์การใช้งาน

โมเดลภาษาขนาดใหญ่ (LLM) มีแอปพลิเคชันมากมายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ครอบคลุม รายการนี้มีจุดประสงค์เพื่อให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล

  • การสร้างเนื้อหาและการสื่อสาร
    • การสร้างข้อความ: รูปแบบเหล่านี้สามารถใช้ในการสร้างรูปแบบข้อความสร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด และอีเมลฉบับร่าง
    • แชทบ็อตและ AI แบบสนทนา: เพิ่มประสิทธิภาพอินเทอร์เฟซการสนทนาสำหรับ การบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปคลังข้อความ รายงานการวิจัย หรือรายงานอย่างกระชับ
  • การวิจัยและการศึกษา
    • การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้สามารถเป็นรากฐานให้นักวิจัยทดลองเทคนิค NLP, พัฒนาอัลกอริทึม และมีส่วนสนับสนุนความก้าวหน้าของวงการ
    • เครื่องมือเรียนรู้ภาษา: สนับสนุนประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยในการแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความเนื้อหาขนาดใหญ่ ด้วยการสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึกอาจทำให้เกิดข้อจำกัดในการตอบสนองของโมเดล
    • ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตวิชาที่โมเดลสามารถจัดการได้อย่างมีประสิทธิภาพ
  • ความซับซ้อนของบริบทและของงาน
    • LLM จะดีกว่าในงานที่สามารถจัดกรอบด้วยพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรือมีความซับซ้อนมากอาจทำได้ยาก
    • ประสิทธิภาพของโมเดลอาจขึ้นอยู่กับปริมาณของบริบทที่ให้ไว้ (บริบทที่ยาวกว่าโดยทั่วไปจะนำไปสู่เอาต์พุตที่ดีขึ้นจนถึงเวลาหนึ่ง)
  • ภาษาคลุมเครือและแตกต่างกัน
    • ภาษาที่เป็นธรรมชาติมีความซับซ้อนโดยธรรมชาติ LLM อาจพบปัญหาในการทำความเข้าใจความแตกต่างเล็กๆ น้อยๆ การเสียดสี หรือถ้อยคำที่หยาบคาย
  • ความถูกต้องของข้อเท็จจริง
    • LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ จึงอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • สามัญสำนึก
    • LLM จะใช้รูปแบบทางสถิติในภาษา พวกเขาอาจไม่สามารถใช้เหตุผลทั่วไป ได้ในบางสถานการณ์

ข้อควรพิจารณาและความเสี่ยงทางจริยธรรม

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความยุติธรรม
    • LLM ที่ได้รับการฝึกผ่านข้อมูลข้อความขนาดใหญ่จากการใช้งานจริงจะสะท้อนอคติทางสังคมและวัฒนธรรมที่ฝังไว้ในเนื้อหาการฝึกอบรมได้ โมเดลเหล่านี้ผ่านการพิจารณาอย่างละเอียดรอบคอบ อธิบายการป้อนข้อมูลก่อนประมวลผลข้อมูล และการประเมินภายหลังที่รายงานในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่ได้รับการพัฒนาอย่างมีความรับผิดชอบจะมอบโอกาสในการแชร์นวัตกรรมโดยทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยในระบบนิเวศ AI เข้าถึงเทคโนโลยี LLM ได้

ความเสี่ยงที่ระบุและการลดความเสี่ยง:

  • การเลิกใช้อคติ: เราแนะนำให้ตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และศึกษาเทคนิคในการกำจัดอคติระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหาเป็นสิ่งที่สำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานของแอปพลิเคชันโดยเฉพาะ
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้ของนักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยลดแอปพลิเคชันที่เป็นอันตรายของ LLM ได้ เราได้จัดเตรียมแหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้ทราบว่ามีการใช้ในทางที่ผิด การใช้งานโมเดลของ Gemma ที่ไม่อนุญาตแสดงอยู่ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกเกี่ยวกับข้อมูลที่กรองเพื่อนํา PII ออก (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) เราแนะนำให้นักพัฒนาแอปปฏิบัติตาม กฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

ข้อดี

ในช่วงเปิดตัว โมเดลในกลุ่มนี้มีการติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นสำหรับการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน

เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ โมเดลเหล่านี้จะให้ประสิทธิภาพที่เหนือกว่าโมเดลอื่นแบบเปิดที่มีขนาดใกล้เคียงกัน