การ์ดโมเดล RecurrentGemma

หน้าโมเดล: RecurrentGemma

แหล่งข้อมูลและเอกสารทางเทคนิค:

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

สรุปโมเดล

คำอธิบาย

RecurrentGemma เป็นกลุ่มโมเดลภาษาแบบเปิดที่สร้างขึ้นบนสถาปัตยกรรมแบบซ้ำที่พัฒนาขึ้นโดย Google ทั้งเวอร์ชันที่ผ่านการฝึกอบรมล่วงหน้าและเวอร์ชันที่ปรับตามคำสั่งมีให้บริการเป็นภาษาอังกฤษ

เช่นเดียวกับ Gemma โมเดล RecurrentGemma เหมาะสําหรับงานการสร้างข้อความที่หลากหลาย ซึ่งรวมถึงการตอบคําถาม การสรุป และการหาเหตุผล สถาปัตยกรรมที่แปลกใหม่ของ RecurrentGemma ทำให้ใช้หน่วยความจําน้อยกว่า Gemma และสามารถอนุมานได้เร็วขึ้นเมื่อสร้างลำดับที่ยาว

อินพุตและเอาต์พุต

  • อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป)
  • เอาต์พุต: ข้อความภาษาอังกฤษที่สร้างขึ้นเพื่อตอบกลับอินพุต (เช่น คำตอบสำหรับคำถาม สรุปของเอกสาร)

การอ้างอิง

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

ข้อมูลโมเดล

ชุดข้อมูลการฝึกและการประมวลผลข้อมูล

RecurrentGemma ใช้ข้อมูลการฝึกอบรมและกระบวนการประมวลผลข้อมูลเดียวกับที่ครอบครัวโมเดล Gemma ใช้ ดูคำอธิบายแบบเต็มได้ในการ์ดรูปแบบ Gemma

ข้อมูลการใช้งาน

ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ระหว่างการฝึกอบรม

เช่นเดียวกับ Gemma, RecurrentGemma ได้รับการฝึกอบรมใน TPUv5e โดยใช้ JAX และ ML Pathways

ข้อมูลการประเมิน

ผลลัพธ์การเปรียบเทียบ

แนวทางการประเมิน

โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้

ผลการประเมิน

เปรียบเทียบ เมตริก RecurrentGemma 2B RecurrentGemma 9B
MMLU 5 ช็อต ยอดนิยม 1 อันดับ 38.4 60.5
HellaSwag 0 ช็อต 71.0 80.4
PIQA 0 ช็อต 78.5 81.3
SocialIQA 0 ช็อต 51.8 52.3
BoolQ 0 ช็อต 71.3 80.3
WinoGrande คะแนนบางส่วน 67.8 73.6
CommonsenseQA 7 ช็อต 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 นัด 52.5 70.5
คำถามที่เป็นธรรมชาติ 5 นัด 11.5 21.7
HumanEval pass@1 21.3 31.1
MBPP 3 ช็อต 28.8 42.0
GSM8K maj@1 13.4 42.6
MATH 4 ช็อต 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
ปานกลาง 44.6 56.1

จริยธรรมและความปลอดภัย

การประเมินด้านจริยธรรมและความปลอดภัย

แนวทางการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบนโยบายเนื้อหาที่เกี่ยวข้องโดยทีมจำลองการโจมตีภายใน ทีมจำลองการโจมตีดำเนินการโดยทีมต่างๆ ซึ่งแต่ละทีมมีเป้าหมายและเมตริกการประเมินของมนุษย์แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินตามหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย ซึ่งรวมถึง

  • ความปลอดภัยของเนื้อหาแบบข้อความต่อข้อความ: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมนโยบายด้านความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรงและภาพโจ่งแจ้ง และวาจาสร้างความเกลียดชัง
  • อันตรายจากการสื่อความหมายจากข้อความหนึ่งไปยังอีกข้อความหนึ่ง: เปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และ BBQ Dataset
  • การจดจำ: การประเมินการจดจำข้อมูลที่ใช้ในการฝึกแบบอัตโนมัติ รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
  • อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงด้านสารเคมี ชีววิทยา รังสีวิทยา และนิวเคลียร์ (CBRN) รวมถึงการทดสอบการโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการจำลองแบบอิสระ

ผลการประเมิน

ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อปฏิบัติตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา อันตรายจากการนำเสนอ การจดจำ อันตรายในวงกว้าง นอกจากการประเมินภายในที่มีประสิทธิภาพแล้ว ผลลัพธ์ของมาตรฐานความปลอดภัยที่รู้จักกันดี เช่น BBQ, Winogender, WinoBias, RealToxicity และ TruthfulQA จะแสดงที่นี่ด้วย

เปรียบเทียบ เมตริก RecurrentGemma 2B RecurrentGemma 2B IT RecurrentGemma 9B RecurrentGemma 9B IT
RealToxicity เฉลี่ย 9.8 7.60 10.3 8.8
ตัวหนา 39.3 52.3 39.8 47.9
CrowS-Pairs top-1 41.1 43.4 38.7 39.5
BBQ Ambig top-1 62.6 71.1 95.9 67.1
BBQ Disambig top-1 58.4 50.8 78.6 78.9
Winogender top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

การใช้งานและข้อจํากัดของโมเดล

ข้อจำกัดที่ทราบ

โมเดลเหล่านี้มีข้อจํากัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลการฝึกอบรมส่งผลต่อความสามารถของโมเดลอย่างมาก อคติหรือช่องโหว่ในข้อมูลที่ใช้ฝึกอาจทําให้คำตอบของโมเดลมีข้อจํากัด
    • ขอบเขตของชุดข้อมูลการฝึกจะกําหนดขอบเขตหัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
  • บริบทและความซับซ้อนของงาน
    • LLM ทำงานได้ดีกว่ากับงานที่ระบุขอบเขตด้วยพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรืองานที่มีความซับซ้อนสูงอาจเป็นเรื่องยาก
    • ประสิทธิภาพของโมเดลอาจได้รับอิทธิพลจากปริมาณบริบทที่ระบุ (โดยทั่วไปแล้วบริบทที่ยาวกว่าจะให้ผลลัพธ์ที่ดีกว่า แต่ไม่เกินจุดหนึ่ง)
  • ความกำกวมและความซับซ้อนของภาษา
    • ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ LLM อาจไม่เข้าใจความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมา
  • ความถูกต้องของข้อเท็จจริง
    • LLM จะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • สามัญสำนึก
    • LLM อาศัยรูปแบบทางสถิติในภาษา บุคคลเหล่านี้อาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์

ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความเป็นธรรม
    • LLM ที่ฝึกด้วยข้อมูลข้อความในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และมีการรายงานการประเมินผลในภายหลังในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่พัฒนาอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี LLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้

ความเสี่ยงที่พบและการลดความเสี่ยง

  • การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และ Use Case อื่นๆ
  • การสร้างเนื้อหาที่อันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและนำมาตรการรักษาความปลอดภัยด้านเนื้อหาที่เหมาะสมมาใช้ตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งว่ามีการละเมิด การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในข้อกำหนดในการใช้งาน
  • การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำ PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราขอแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

วัตถุประสงค์การใช้งาน

แอปพลิเคชัน

โมเดลภาษาขนาดใหญ่ (LLM) แบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วน วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล

  • การสร้างเนื้อหาและการสื่อสาร
    • การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้ในการสร้างข้อความในรูปแบบต่างๆ ที่สร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด อีเมลฉบับร่าง ฯลฯ
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสําหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างข้อมูลสรุปที่กระชับของชุดข้อความ เอกสารวิจัย หรือรายงาน
  • การวิจัยและการศึกษา
    • การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้ใช้เป็นพื้นฐานให้ผู้วิจัยได้ทดลองใช้เทคนิค NLP, พัฒนาอัลกอริทึม และช่วยพัฒนาวงการนี้
    • เครื่องมือเรียนภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
    • การสํารวจความรู้: ช่วยเหลือนักวิจัยในการสํารวจข้อความจำนวนมากด้วยการสร้างสรุปหรือตอบคําถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ประโยชน์

ในช่วงที่เปิดตัว โมเดลตระกูลนี้จะติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูงซึ่งออกแบบมาตั้งแต่ต้นสําหรับการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน

เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ พบว่าโมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าทางเลือกอื่นๆ ของโมเดลแบบเปิดที่มีขนาดใกล้เคียงกัน

โดยเฉพาะอย่างยิ่ง โมเดล RecurrentGemma ให้ประสิทธิภาพเทียบเท่ากับโมเดล Gemma แต่เร็วกว่าในระหว่างการอนุมานและต้องใช้หน่วยความจำน้อยกว่า โดยเฉพาะในลำดับที่ยาว