การ์ดโมเดล Gemma 2

หน้าโมเดล: Gemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

คำอธิบายสรุปและคำจำกัดความโดยสรุปของอินพุตและเอาต์พุต

คำอธิบาย

Gemma เป็นชุดโมเดลเปิดที่ทันสมัยและน้ำหนักเบาจาก Google ซึ่งสร้างขึ้นจากการวิจัยและเทคโนโลยีเดียวกันกับที่ใช้สร้างโมเดล Gemini โมเดลเหล่านี้คือโมเดลภาษาขนาดใหญ่สำหรับการแปลงข้อความเป็นเครื่องถอดรหัสเท่านั้น มีให้บริการเป็นภาษาอังกฤษ โดยมีน้ำหนักแบบเปิดสำหรับทั้งตัวแปรก่อนการฝึกและตัวแปรที่ปรับแต่งตามคำสั่ง โมเดล Gemma เหมาะกับงานสร้างข้อความที่หลากหลาย เช่น การตอบคำถาม การสรุป และการให้เหตุผล ขนาดที่ค่อนข้างเล็กทำให้ติดตั้งใช้งานในสภาพแวดล้อมที่มีทรัพยากรจำกัดได้ เช่น แล็ปท็อป เดสก์ท็อป หรือโครงสร้างพื้นฐานของระบบคลาวด์ของคุณเอง ทำให้ทุกคนเข้าถึงสถานะของโมเดล AI ศิลปะได้ และช่วยส่งเสริมนวัตกรรมสำหรับทุกคน

อินพุตและเอาต์พุต

  • อินพุต: สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป
  • เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อข้อมูลที่ป้อน เช่น การตอบคำถามหรือข้อมูลสรุปของเอกสาร

การอ้างอิง

@article{gemma_2024,
    title={Gemma},
    url={https://www.kaggle.com/m/3301},
    DOI={10.34740/KAGGLE/M/3301},
    publisher={Kaggle},
    author={Gemma Team},
    year={2024}
}

ข้อมูลโมเดล

ข้อมูลที่ใช้สำหรับการฝึกโมเดลและวิธีการประมวลผลข้อมูล

ชุดข้อมูลการฝึก

โมเดลเหล่านี้ได้รับการฝึกจากชุดข้อมูลของข้อมูลข้อความที่มีแหล่งที่มาหลากหลาย โมเดล 27B ได้รับการฝึกด้วยโทเค็น 13 ล้านล้านโทเค็น และโมเดล 9B ได้รับการฝึกด้วยโทเค็น 8 ล้านล้านโทเค็น องค์ประกอบหลักมีดังนี้

  • เอกสารในเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้โมเดลมองเห็นรูปแบบ หัวข้อ และคำศัพท์ที่หลากหลายทางภาษา ส่วนใหญ่เป็นเนื้อหาภาษาอังกฤษ
  • โค้ด: การเปิดเผยโมเดลให้กับโค้ดช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งช่วยปรับปรุงความสามารถในการสร้างโค้ดหรือทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
  • คณิตศาสตร์: การฝึกอบรมเรื่องข้อความทางคณิตศาสตร์ช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การนำเสนอด้วยสัญลักษณ์ และจัดการคำค้นหาทางคณิตศาสตร์

การผสานแหล่งข้อมูลที่หลากหลายเหล่านี้เข้าด้วยกันเป็นสิ่งที่สำคัญมากสำหรับการฝึกโมเดลภาษาที่มีประสิทธิภาพ ซึ่งรองรับงานและรูปแบบข้อความที่หลากหลายได้

การประมวลผลข้อมูลล่วงหน้า

วิธีการทำความสะอาดและกรองข้อมูลที่สำคัญที่ใช้กับข้อมูลการฝึกมีดังนี้

  • การกรอง CSAM: การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดถูกนำมาใช้ในหลายขั้นตอนในกระบวนการเตรียมข้อมูล เพื่อให้แน่ใจว่าจะกรองเนื้อหาที่เป็นอันตรายและผิดกฎหมายออก
  • การกรองข้อมูลที่ละเอียดอ่อน: เทคนิคอัตโนมัติบางอย่างใช้เพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกจากชุดการฝึก ซึ่งเป็นส่วนหนึ่งของการทำให้โมเดลก่อนการฝึกของ Gemma ปลอดภัยและเชื่อถือได้
  • วิธีการเพิ่มเติม: การกรองตามคุณภาพเนื้อหาและความปลอดภัยตามนโยบายของเรา

ข้อมูลการใช้งาน

รายละเอียดเกี่ยวกับโครงสร้างภายในของโมเดล

ฮาร์ดแวร์

Gemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์ Tensor Processing Unit (TPU) (TPUv5p) รุ่นล่าสุด

การฝึกโมเดลภาษาขนาดใหญ่ต้องใช้กำลังในการประมวลผลอย่างมาก TPU ซึ่งออกแบบมาโดยเฉพาะสำหรับการดำเนินการเมทริกซ์ที่พบได้ทั่วไปในแมชชีนเลิร์นนิง มีข้อดีหลายอย่างในโดเมนนี้

  • ประสิทธิภาพ: TPU ออกแบบมาเพื่อจัดการกับการคำนวณขนาดใหญ่ที่เกี่ยวข้องในการฝึก LLM โดยเฉพาะ ทีมจะเพิ่มความเร็วในการฝึกอบรมได้มากเมื่อเทียบกับ CPU
  • หน่วยความจำ: TPU มักมาพร้อมกับหน่วยความจำแบนด์วิดท์สูงจำนวนมาก ทำให้สามารถจัดการโมเดลขนาดใหญ่และขนาดแบบกลุ่มในระหว่างการฝึกได้ ซึ่งจะทำให้โมเดลมีคุณภาพดีขึ้น
  • ความสามารถในการปรับขนาด: พ็อด TPU (คลัสเตอร์ TPU ขนาดใหญ่) เป็นโซลูชันที่รองรับการปรับขนาดสำหรับการจัดการความซับซ้อนที่เพิ่มขึ้นของโมเดลพื้นฐานขนาดใหญ่ คุณสามารถกระจายการฝึกทำงานในอุปกรณ์ TPU หลายเครื่องเพื่อการประมวลผลที่รวดเร็วและมีประสิทธิภาพยิ่งขึ้น
  • ความคุ้มค่า: ในหลายๆ สถานการณ์ TPU เป็นโซลูชันที่คุ้มค่าสำหรับการฝึกโมเดลขนาดใหญ่มากกว่าเมื่อเทียบกับโครงสร้างพื้นฐานที่อิงตาม CPU โดยเฉพาะอย่างยิ่งเมื่อพิจารณาเวลาและทรัพยากรที่ประหยัดได้เนื่องจากมีการฝึกที่เร็วกว่า
  • ข้อได้เปรียบเหล่านี้สอดคล้องกับความมุ่งมั่นของ Google ในการดำเนินงานอย่างยั่งยืน

ซอฟต์แวร์

การฝึกทำโดยใช้ JAX และ เส้นทาง ML

JAX ช่วยให้นักวิจัยใช้ประโยชน์จากฮาร์ดแวร์รุ่นล่าสุด ซึ่งรวมถึง TPU เพื่อการฝึกโมเดลขนาดใหญ่ได้รวดเร็วและมีประสิทธิภาพมากยิ่งขึ้น

ML Pathways คือความพยายามล่าสุดของ Google ที่จะสร้างระบบอัจฉริยะที่ประดิษฐ์ขึ้นมา ซึ่งรองรับการทำงานหลายๆ อย่างได้ ซึ่งเหมาะเป็นอย่างยิ่งสำหรับโมเดลพื้นฐาน รวมถึงโมเดลภาษาขนาดใหญ่อย่างเช่นโมเดลเหล่านี้

เส้นทางทั้ง JAX และ ML มีการนำมาใช้ตามที่อธิบายไว้ในรายงานเกี่ยวกับกลุ่มโมเดลของ Gemini "โมเดลการเขียนโปรแกรม "คอนโทรลเลอร์เดี่ยว" ของ Jax และ Pathways ช่วยให้กระบวนการ Python เดี่ยวสามารถจัดการขั้นตอนการฝึกทั้งหมด ทำให้เวิร์กโฟลว์การพัฒนาง่ายขึ้นอย่างมาก"

การประเมิน

เมตริกและผลลัพธ์การประเมินโมเดล

ผลลัพธ์การเปรียบเทียบ

โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกจำนวนมากเพื่อให้ครอบคลุมการสร้างข้อความในด้านต่างๆ ดังนี้

การเปรียบเทียบ เมตริก Gemma PT 9B Gemma PT 27B
MMLU 5 - ช็อต, สูงสุด 1 71.3 75.2
HellaSwag 10 นัด 81.9 86.4
PIQA 0-ช็อต 81.7 83.2
SocialIQA 0-ช็อต 53.4 53.7
BoolQ 0-ช็อต 84.2 84.8
WinoGrande คะแนนบางส่วน 80.6 83.7
ARC-e 0-ช็อต 88.0 88.6
ARC-C 25 ช็อต 68.4 71.4
TriviaQA 5 นัด 76.6 83.7
คำถามเกี่ยวกับธรรมชาติ 5 นัด 29.2 34.5
HumanEval บัตร@1 40.2 51.8
MBPP 3 ช็อต 52.4 62.6
GSM8K 5-ช็อต, maj@1 68.6 74.0
MATH 4 ช็อต 36.6 42.3
AGIEval 3-5 ช็อต 52.8 55.1
BIG-Bench 3 ช็อต, CoT 68.2 74.9

จริยธรรมและความปลอดภัย

แนวทางและผลลัพธ์ด้านจริยธรรมและความปลอดภัย

แนวทางการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบภายในทีมสีแดงสำหรับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงจะดำเนินการโดยทีมต่างๆ หลายทีม ซึ่งมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน แบบจำลองเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากซึ่งเกี่ยวข้องกับจริยธรรมและความปลอดภัย ได้แก่

  • ความปลอดภัยของเนื้อหาที่ส่งข้อความเป็นข้อความ: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมนโยบายความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรง และการนองเลือด และวาจาสร้างความเกลียดชัง
  • อันตรายจากข้อความที่เป็นตัวแทนข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และชุดข้อมูล BBQ
  • การจำ: การประเมินการจำข้อมูลฝึกฝนโดยอัตโนมัติ รวมถึงความเสี่ยงที่จะมีการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
  • อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงทางเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN)

ผลการประเมิน

ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา การทำร้ายในการนำเสนอ การท่องจำ และภัยในวงกว้าง นอกเหนือจากการประเมินภายในที่เข้มงวดแล้ว ผลของเกณฑ์มาตรฐานด้านความปลอดภัยที่รู้จักกันดี เช่น Barb, BOLD, Winogender, Winobias, RealToxicity และ TruthfulQA จะแสดงที่นี่

Gemma 2.0

การเปรียบเทียบ เมตริก Gemma 2 IT 9B Gemma 2 IT 27B
RealToxicity เฉลี่ย 8.25 8.84
คู่อีกา top-1 37.47 36.67
ภาพบาร์บีคิวขนาดใหญ่ 1 ช็อต, 1 นัด 88.58 859.90 THB
การชี้แจงสำหรับบาร์บีคิว top-1 82.67 86.94
วิโนเจนเดอร์ top-1 79.17 77.22
TruthfulQA 50.27 51.60
วิโนเบียส 1_2 78.09 81.94
วิโนเบียส 2_2 95.32 97.22
ท็อกซิเจน 39.30 38.42

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

วัตถุประสงค์การใช้งาน

Open Large Language Models (LLM) มีแอปพลิเคชันมากมายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ยังไม่ครอบคลุม วัตถุประสงค์ของรายการนี้คือการให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล

  • การสร้างเนื้อหาและการสื่อสาร
    • การสร้างข้อความ: รูปแบบเหล่านี้สามารถใช้ในการสร้างรูปแบบข้อความสร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด สำเนาทางการตลาด และร่างจดหมายอีเมล
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปที่สั้นกระชับของข้อความคลังข้อความ รายงานการวิจัย หรือรายงาน
  • การวิจัยและการศึกษา
    • การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้อาจใช้เป็นรากฐานสำหรับนักวิจัยในการทดลองเทคนิค NLP พัฒนาอัลกอริทึม และมีส่วนช่วยพัฒนาสาขานี้
    • เครื่องมือการเรียนภาษา: สนับสนุนประสบการณ์การเรียนภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

  • ข้อมูลการฝึกอบรม
    • คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึกอาจนำไปสู่ข้อจำกัดในคำตอบของโมเดล
    • ขอบเขตของชุดข้อมูลการฝึกจะกำหนดขอบเขตเรื่องที่โมเดลสามารถจัดการได้อย่างมีประสิทธิภาพ
  • บริบทและความซับซ้อนของงาน
    • LLM จะทำงานที่ใส่พรอมต์และวิธีการที่ชัดเจนได้ดีกว่า งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
    • ประสิทธิภาพของโมเดลอาจขึ้นอยู่กับจำนวนบริบทที่ให้ไว้ (บริบทที่ยาวนานกว่าปกติจะนำไปสู่เอาต์พุตที่ดีขึ้นจนถึงจุดหนึ่ง)
  • ความอยากรู้และความแตกต่างของภาษา
    • ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง LLM อาจพบปัญหาในการเข้าใจความแตกต่างที่เล็กน้อย การเสียดสี หรือภาษาเชิงเปรียบเทียบ
  • ความถูกต้องของข้อเท็จจริง
    • LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้างข้อความ ข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • สามัญสำนึก
    • LLM ใช้รูปแบบทางสถิติในภาษา พวกเขาอาจขาดความสามารถในการใช้ การให้เหตุผลโดยใช้สามัญสำนึกในบางสถานการณ์

การพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดความกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ

  • การให้อคติและความยุติธรรม
    • LLM ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เป็นข้อความขนาดใหญ่ในโลกแห่งความเป็นจริงสามารถสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการเรียนการสอนของชั้นเรียนได้ โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด ผ่านการประมวลผลข้อมูลอินพุตก่อนการประมวลผลตามที่อธิบายไว้ และการประเมินหลังรายงานในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และขั้นตอนการประเมินของโมเดล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบมอบโอกาสในการแชร์นวัตกรรมด้วยการทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยสามารถเข้าถึงเทคโนโลยี LLM ในระบบนิเวศ AI ได้

การระบุและการลดความเสี่ยง:

  • การทำให้อคติเกิดขึ้นตลอด: ขอแนะนำให้ดำเนินการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจเทคนิคการลดการให้น้ำหนักระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้การป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค ตลอดจนการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางสามารถช่วยลดปริมาณการใช้งาน LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด การใช้งานโมเดล Gemma ที่ไม่อนุญาตจะมีระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตของ Gemma
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกโดยใช้ข้อมูลที่กรองเพื่อนำ PII ออก (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวโดยใช้เทคนิคการรักษาความเป็นส่วนตัว

ประโยชน์

ในช่วงเปิดตัว กลุ่มโมเดลนี้จะมีการติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดประสิทธิภาพสูง ซึ่งได้รับการออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI ที่มีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน

จากเมตริกการประเมินเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ แสดงให้เห็นว่าโมเดลเหล่านี้ให้ประสิทธิภาพที่เหนือกว่าตัวเลือกอื่นๆ ของโมเดลเปิดที่มีขนาดใกล้เคียงกัน