การ์ดโมเดล Gemma

หน้าโมเดล: Gemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

คำอธิบายสรุปและคำจำกัดความโดยสรุปของอินพุตและเอาต์พุต

คำอธิบาย

Gemma คือตระกูลโมเดลแบบเปิดที่ทันสมัย น้ำหนักเบาจาก Google สร้างขึ้นจากการวิจัยและเทคโนโลยีเดียวกันกับที่ใช้ในการสร้างโมเดล Gemini ได้แก่ โมเดลภาษาขนาดใหญ่สำหรับแปลงข้อความเป็นข้อความ เครื่องมือถอดรหัสเท่านั้น ซึ่งมีเป็นภาษาอังกฤษ โดยใช้น้ำหนักแบบเปิด ตัวแปรที่ฝึกล่วงหน้า และตัวแปรที่ปรับแต่งตามคำสั่ง Gemma โมเดลเหมาะสมอย่างยิ่งกับงานการสร้างข้อความที่หลากหลาย ได้แก่ การตอบคำถาม การสรุป และการให้เหตุผล ขนาดค่อนข้างเล็ก ทำให้ติดตั้งใช้งานในสภาพแวดล้อมที่มีทรัพยากรจำกัดได้ เช่น แล็ปท็อป เดสก์ท็อป หรือโครงสร้างพื้นฐาน ของระบบคลาวด์ของคุณเอง การทำให้ทุกคนเข้าถึง ของโมเดล AI ที่ทันสมัยและช่วยส่งเสริมนวัตกรรมสำหรับทุกคน

อินพุตและเอาต์พุต

  • อินพุต: สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะ แบบสรุป
  • เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อข้อมูลที่ป้อน เช่น เป็นคำตอบของคำถาม หรือสรุปของเอกสาร

การอ้างอิง

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team, Thomas Mesnard and Cassidy Hardin and Robert Dadashi and Surya Bhupatiraju and Laurent Sifre and Morgane Rivière and Mihir Sanjay Kale and Juliette Love and Pouya Tafti and Léonard Hussenot and et al.},
    year={2024}
}

ข้อมูลโมเดล

ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีการประมวลผลข้อมูล

ชุดข้อมูลการฝึก

โมเดลเหล่านี้ได้รับการฝึกจากชุดข้อมูลของข้อความที่มีข้อมูลที่หลากหลาย รวมทั้งหมดเป็น 6 ล้านล้านโทเค็น องค์ประกอบหลักมีดังนี้

  • เอกสารบนเว็บ: คอลเลกชันข้อความบนเว็บที่หลากหลายช่วยให้มั่นใจได้ว่าโมเดลจะปรากฏ ไปจนถึงรูปแบบภาษา หัวข้อ และคำศัพท์ที่หลากหลาย เป็นหลัก เนื้อหาภาษาอังกฤษ
  • โค้ด: การแสดงโมเดลให้กับโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของ ภาษาโปรแกรม ซึ่งช่วยปรับปรุงความสามารถในการสร้างโค้ดหรือ ทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
  • คณิตศาสตร์: การฝึกอบรมเรื่องข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้เชิงตรรกะ การให้เหตุผล การนำเสนอด้วยสัญลักษณ์ และเพื่อตอบคำถามทางคณิตศาสตร์

แหล่งข้อมูลที่หลากหลายเหล่านี้รวมกันเป็นสิ่งที่สำคัญอย่างยิ่งต่อการฝึก โมเดลภาษาที่สามารถจัดการงานและข้อความที่หลากหลาย

การประมวลผลข้อมูลล่วงหน้า

วิธีการทำความสะอาดและกรองข้อมูลที่สำคัญที่ใช้กับการฝึกมีดังนี้ ข้อมูล:

  • การกรอง CSAM: การกรอง CSAM อย่างเข้มงวด (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) เดิมคือ นำไปใช้ในหลายขั้นตอนในกระบวนการเตรียมข้อมูล เพื่อให้มั่นใจว่า การยกเว้นเนื้อหาที่เป็นอันตรายและผิดกฎหมาย
  • การกรองข้อมูลที่ละเอียดอ่อน: ในฐานะที่เป็นส่วนหนึ่งของการทำให้โมเดลก่อนการฝึกของ Gemma ปลอดภัย และมีการใช้เทคนิคอัตโนมัติที่น่าเชื่อถือเพื่อกรอง และข้อมูลที่ละเอียดอ่อนอื่นๆ จากชุดการฝึก
  • วิธีการเพิ่มเติม: การกรองตามคุณภาพเนื้อหาและความปลอดภัยที่สอดคล้องกับ นโยบายของเรา

ข้อมูลการใช้งาน

รายละเอียดเกี่ยวกับโครงสร้างภายในของโมเดล

ฮาร์ดแวร์

Gemma ได้รับการฝึกโดยใช้ ฮาร์ดแวร์ Tensor Processing Unit (TPU) (TPUv5e)

การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้กำลังในการประมวลผลอย่างมาก TPU ที่ออกแบบมาเพื่อการดำเนินการเมทริกซ์ ที่พบได้ทั่วไปในแมชชีนเลิร์นนิง ข้อดีหลายอย่างในโดเมนนี้:

  • ประสิทธิภาพ: TPU ออกแบบมาเพื่อรองรับการประมวลผลขนาดใหญ่โดยเฉพาะ ในการฝึก LLM เพิ่มความเร็วในการฝึกได้มากเมื่อเทียบกับ CPU
  • หน่วยความจำ: TPU มักจะมาพร้อมกับหน่วยความจำแบบแบนด์วิดท์สูง ทำให้ สำหรับการจัดการโมเดลขนาดใหญ่และขนาดกลุ่มในระหว่างการฝึก วิธีนี้ ทำให้โมเดลมีคุณภาพดีขึ้น
  • ความสามารถในการปรับขนาด: พ็อด TPU (คลัสเตอร์ TPU ขนาดใหญ่) มอบโซลูชันที่รองรับการปรับขนาดสำหรับ ต้องรับมือกับความซับซ้อนที่เพิ่มขึ้นของโมเดลพื้นฐานขนาดใหญ่ คุณสามารถเผยแพร่ ในการฝึกอุปกรณ์ TPU หลายชิ้นเพื่อการประมวลผลที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น
  • ความคุ้มค่า: ในหลายๆ สถานการณ์ TPU อาจคุ้มค่ากว่า สำหรับการฝึกโมเดลขนาดใหญ่ เทียบกับโครงสร้างพื้นฐานที่ใช้ CPU โดยเฉพาะเมื่อคํานึงถึงเวลาและทรัพยากรที่ประหยัดได้ เนื่องจาก การฝึกอบรม
  • ข้อดีเหล่านี้จะสอดคล้องกับ ความมุ่งมั่นของ Google ในการดำเนินงานอย่างยั่งยืน

ซอฟต์แวร์

การฝึกทำโดยใช้ JAX และ เส้นทาง ML

JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อการฝึกโมเดลขนาดใหญ่ที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น

ML Pathways คือความพยายามล่าสุดของ Google ในการสร้างระบบอัจฉริยะที่ประดิษฐ์ขึ้น สามารถทำให้ครอบคลุมงานหลายๆ อย่างได้ วิธีนี้เหมาะอย่างยิ่งสำหรับ รูปแบบพื้นฐาน รวมถึงโมเดลภาษาขนาดใหญ่อย่าง รูปพวกนี้

เส้นทาง JAX และ ML ร่วมกันจะถูกใช้ตามที่อธิบายไว้ใน บทความเกี่ยวกับกลุ่มโมเดล Gemini "รายการเดียว ผู้ควบคุมข้อมูล โมเดลการเขียนโปรแกรมของ Jax และ Pathways อนุญาต Python เพื่อบริหารจัดการการฝึกอบรมทั้งหมดเป็นกลุ่ม ทำให้ เวิร์กโฟลว์การพัฒนา"

การประเมิน

เมตริกและผลลัพธ์การประเมินโมเดล

ผลลัพธ์การเปรียบเทียบ

โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลขนาดใหญ่และ ให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้

เปรียบเทียบ เมตริก Gemma PT 2B Gemma PT 7B
MMLU 5 - ช็อต, สูงสุด 1 42.3 64.3
HellaSwag 0-ช็อต 71.4 81.2
PIQA 0-ช็อต 77.3 81.2
SocialIQA 0-ช็อต 49.7 51.8
BoolQ 0-ช็อต 69.4 83.2
WinoGrande คะแนนบางส่วน 65.4 72.3
CommonsenseQA 7 ช็อต 65.3 71.3
OpenBookQA 47.8 52.8
ARC-e 73.2 81.5
ARC-c 42.1 53.2
TriviaQA 5 นัด 53.2 63.4
คำถามเกี่ยวกับธรรมชาติ 5 นัด 12.5 23.0
HumanEval บัตร@1 22.0 32.3
MBPP 3 ช็อต 29.2 44.4
GSM8K maj@1 17.7 46.4
MATH 4 ช็อต 11.8 24.3
AGIEval 24.2 41.7
BIG-Bench 35.2 55.1
เฉลี่ย 44.9 56.4

จริยธรรมและความปลอดภัย

แนวทางและผลลัพธ์ด้านจริยธรรมและความปลอดภัย

แนวทางการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและทีมสีแดงภายใน นโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงได้ดำเนินการโดย ทีมต่างๆ แต่ละคนมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน เหล่านี้ โมเดลได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากที่เกี่ยวข้องกับ จริยธรรมและความปลอดภัย ซึ่งรวมถึง

  • ความปลอดภัยของเนื้อหาที่แปลงจากข้อความเป็นข้อความ: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมเรื่องความปลอดภัย นโยบายซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรง และการนองเลือด ตลอดจนวาจาสร้างความเกลียดชัง
  • อันตรายจากการนำเสนอแบบข้อความ: การเปรียบเทียบกับงานด้านวิชาการที่เกี่ยวข้อง เช่น WinoBias และชุดข้อมูล BBQ
  • การบันทึก: การประเมินการจำข้อมูลการฝึกโดยอัตโนมัติ รวมถึง ความเสี่ยงจากการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
  • อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น สารเคมี ความเสี่ยงทางชีววิทยา รังสี และนิวเคลียร์ (CBRN)

ผลการประเมิน

ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้ สำหรับการประชุมนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ผู้เผยแพร่โฆษณาย่อย ความปลอดภัย ความปลอดภัยของเนื้อหา การทำร้ายตัวแทน การจดจำ อันตรายในวงกว้าง นอกเหนือจากการประเมินภายในที่เข้มงวดแล้ว ผลลัพธ์ของความปลอดภัยที่ทราบกันดี เช่นบาร์บีคิว, BOLD, Winogender, Winobias, RealToxicity และ TruthfulQA จะแสดงที่นี่

Gemma 1.0

เปรียบเทียบ เมตริก Gemma 1.0 IT 2B Gemma 1.0 IT 7B
RealToxicity เฉลี่ย 6.86 7.90
BOLD 45.57 49.08
คู่อีกา top-1 45.82 51.33
ภาพบาร์บีคิวขนาดใหญ่ 1 ช็อต, 1 นัด 62.58 92.54
การชี้แจงสำหรับบาร์บีคิว top-1 54.62 719.90 THB
วิโนเจนเดอร์ top-1 51.25 54.17
TruthfulQA 44.84 31.81
วิโนเบียส 1_2 56.12 59.09
วิโนเบียส 2_2 91.10 92.23
Toxigen 29.77 395.9

Gemma 1.1

เปรียบเทียบ เมตริก Gemma 1.1 IT 2B Gemma 1.1 IT 7B
RealToxicity เฉลี่ย 7.03 8.04
BOLD 47.76
คู่อีกา top-1 45.89 49.67
ภาพบาร์บีคิวขนาดใหญ่ 1 ช็อต, 1 นัด 58.97 บาท 86.06
การชี้แจงสำหรับบาร์บีคิว top-1 53.90 85.08
วิโนเจนเดอร์ top-1 50.14 57.64
TruthfulQA 44.24 45.34
วิโนเบียส 1_2 55.93 59.22
วิโนเบียส 2_2 89.46 89.2
Toxigen 29.64 38.75

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

วัตถุประสงค์การใช้งาน

Open Large Language Models (LLM) มีแอปพลิเคชันที่หลากหลายใน อุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ใช่ ครอบคลุม จุดประสงค์ของรายการนี้คือการให้ข้อมูลตามบริบท เกี่ยวกับกรณีการใช้งานที่เป็นไปได้ที่ผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของโมเดล การฝึกอบรมและการพัฒนา

  • การสร้างเนื้อหาและการสื่อสาร
    • การสร้างข้อความ: รูปแบบเหล่านี้สามารถใช้ในการสร้างรูปแบบข้อความสร้างสรรค์ได้ เช่น บทกวี สคริปต์ โค้ด สำเนาทางการตลาด และร่างอีเมล
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับลูกค้า บริการ ผู้ช่วยเสมือนจริง หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปที่กระชับของข้อมูลคลังข้อความ การวิจัย บทความหรือรายงาน
  • การวิจัยและการศึกษา
    • การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้สามารถใช้เป็น พื้นฐานสำหรับนักวิจัยในการทดลองกับเทคนิค NLP อัลกอริทึม และส่งเสริมความก้าวหน้าในวงการนี้
    • เครื่องมือการเรียนภาษา: สนับสนุนประสบการณ์การเรียนภาษาแบบอินเทอร์แอกทีฟ การช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความขนาดใหญ่ โดยสร้างข้อมูลสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลการฝึกมีอิทธิพลต่อ ความสามารถของโมเดล การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึกอาจนำไปสู่ ในคำตอบของโมเดล
    • ขอบเขตของชุดข้อมูลการฝึกจะกำหนดด้านวิชาที่โมเดลเข้าถึงได้ จัดการได้อย่างมีประสิทธิภาพ
  • บริบทและความซับซ้อนของงาน
    • LLM จะทำงานได้ดียิ่งขึ้นหากจัดเฟรมด้วยพรอมต์ที่ชัดเจน วิธีทำ งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
    • ประสิทธิภาพของโมเดลอาจขึ้นอยู่กับปริมาณบริบทที่มีให้ (บริบทที่ยาวนานกว่าปกติจะนำไปสู่ผลลัพธ์ที่ดีขึ้นจนถึงจุดหนึ่ง)
  • ความอยากรู้และความแตกต่างของภาษา
    • ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง LLM อาจไม่ค่อยเข้าใจข้อมูล ความแตกต่าง การเสียดสี หรือภาษาเชิงเปรียบเทียบ
  • ความถูกต้องของข้อเท็จจริง
    • LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จาก ชุดข้อมูลการฝึกอบรมนี้ แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้าง ข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • สามัญสำนึก
    • LLM ใช้รูปแบบทางสถิติในภาษา พวกเขาอาจขาดความสามารถ ในการให้เหตุผลโดยใช้สามัญสำนึกในบางสถานการณ์

การพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดความกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ

  • อคติและความยุติธรรม
    • LLM ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เป็นข้อความขนาดใหญ่ในโลกแห่งความเป็นจริงสามารถสะท้อนถึงสังคมและวัฒนธรรม อคติที่ฝังในเนื้อหาการฝึกอบรม โมเดลเหล่านี้ได้รับการดูแลอย่างดี การตรวจสอบอย่างละเอียด การประมวลผลข้อมูลอินพุตก่อนการประมวลผลที่อธิบายไว้ และการประเมินหลัง ในรายงานในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
  • ความโปร่งใสและความรับผิดชอบ:
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับโมเดล สถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินผล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แบ่งปัน โดยการทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยเข้าถึงเทคโนโลยี LLM ได้ ในระบบนิเวศ AI

การระบุและการลดความเสี่ยง:

  • การทำให้อคติเกิดขึ้นตลอดไป: ขอแนะนำให้ดำเนินการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจการลดการให้น้ำหนัก เทคนิคในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหา ถือเป็นสิ่งสำคัญ ขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและติดตั้งใช้งาน มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์เฉพาะของแต่ละประเทศ และกรณีการใช้งานแอปพลิเคชัน
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและนักพัฒนา และ การให้ความรู้แก่ผู้ใช้ปลายทางช่วยลดการใช้ LLM ที่เป็นอันตรายได้ แหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด ที่มีให้ การใช้งานโมเดล Gemma โดยต้องห้ามมีระบุไว้ใน นโยบายการใช้งานที่ไม่อนุญาตของ Gemma
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกโดยใช้ข้อมูลที่กรองเพื่อนำ PII ออก (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) นักพัฒนาแอปควรปฏิบัติตาม กฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

ประโยชน์

ในช่วงเปิดตัว กลุ่มโมเดลนี้จะให้ประสิทธิภาพการทำงานแบบเปิดที่มีประสิทธิภาพสูง การติดตั้งใช้งานโมเดลภาษาขนาดใหญ่ที่ออกแบบใหม่ทั้งหมดสำหรับ การพัฒนา AI เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน

โมเดลเหล่านี้ใช้เมตริกการประเมินเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ มอบประสิทธิภาพที่เหนือกว่าโมเดลเปิดอื่นๆ ที่มีขนาดเท่าๆ กัน ทางเลือก