ลองดูที่เก็บ Gemma Cookbook เพื่อฟังตัวอย่างการสร้างและปรับแต่ง ดูข้อมูลเพิ่มเติม

หน้านี้ได้รับการแปลโดย Cloud Translation API

การ์ดโมเดล RecurrentGemma

หน้าโมเดล: RecurrentGemma

แหล่งข้อมูลและเอกสารทางเทคนิค:

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

สรุปโมเดล

คำอธิบาย

RecurrentGemma เป็นกลุ่มโมเดลภาษาแบบเปิดที่สร้างขึ้นบนสถาปัตยกรรมแบบซ้ำที่พัฒนาขึ้นโดย Google ทั้งเวอร์ชันที่ผ่านการฝึกอบรมล่วงหน้าและเวอร์ชันที่ปรับตามคำสั่งมีให้บริการเป็นภาษาอังกฤษ

เช่นเดียวกับ Gemma โมเดล RecurrentGemma เหมาะสําหรับงานการสร้างข้อความที่หลากหลาย ซึ่งรวมถึงการตอบคําถาม การสรุป และการหาเหตุผล สถาปัตยกรรมที่แปลกใหม่ของ RecurrentGemma ทำให้ใช้หน่วยความจําน้อยกว่า Gemma และสามารถอนุมานได้เร็วขึ้นเมื่อสร้างลำดับที่ยาว

อินพุตและเอาต์พุต

อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป)
เอาต์พุต: ข้อความภาษาอังกฤษที่สร้างขึ้นเพื่อตอบกลับอินพุต (เช่น คำตอบสำหรับคำถาม สรุปของเอกสาร)

การอ้างอิง

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

ข้อมูลโมเดล

ชุดข้อมูลการฝึกและการประมวลผลข้อมูล

RecurrentGemma ใช้ข้อมูลการฝึกอบรมและกระบวนการประมวลผลข้อมูลเดียวกับที่ครอบครัวโมเดล Gemma ใช้ ดูคำอธิบายแบบเต็มได้ในการ์ดรูปแบบ Gemma

ข้อมูลการใช้งาน

ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ระหว่างการฝึกอบรม

เช่นเดียวกับ Gemma, RecurrentGemma ได้รับการฝึกอบรมใน TPUv5e โดยใช้ JAX และ ML Pathways

ข้อมูลการประเมิน

ผลลัพธ์การเปรียบเทียบ

แนวทางการประเมิน

โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้

ผลการประเมิน

เปรียบเทียบ	เมตริก	RecurrentGemma 2B	RecurrentGemma 9B
MMLU	5 ช็อต ยอดนิยม 1 อันดับ	38.4	60.5
HellaSwag	0 ช็อต	71.0	80.4
PIQA	0 ช็อต	78.5	81.3
SocialIQA	0 ช็อต	51.8	52.3
BoolQ	0 ช็อต	71.3	80.3
WinoGrande	คะแนนบางส่วน	67.8	73.6
CommonsenseQA	7 ช็อต	63.7	73.2
OpenBookQA		47.2	51.8
ARC-e		72.9	78.8
ARC-c		42.3	52.0
TriviaQA	5 นัด	52.5	70.5
คำถามที่เป็นธรรมชาติ	5 นัด	11.5	21.7
HumanEval	pass@1	21.3	31.1
MBPP	3 ช็อต	28.8	42.0
GSM8K	maj@1	13.4	42.6
MATH	4 ช็อต	11.0	23.8
AGIEval		23.8	39.3
BIG-Bench		35.3	55.2
ปานกลาง		44.6	56.1

จริยธรรมและความปลอดภัย

การประเมินด้านจริยธรรมและความปลอดภัย

แนวทางการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบนโยบายเนื้อหาที่เกี่ยวข้องโดยทีมจำลองการโจมตีภายใน ทีมจำลองการโจมตีดำเนินการโดยทีมต่างๆ ซึ่งแต่ละทีมมีเป้าหมายและเมตริกการประเมินของมนุษย์แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินตามหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย ซึ่งรวมถึง

ความปลอดภัยของเนื้อหาแบบข้อความต่อข้อความ: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมนโยบายด้านความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรงและภาพโจ่งแจ้ง และวาจาสร้างความเกลียดชัง
อันตรายจากการสื่อความหมายจากข้อความหนึ่งไปยังอีกข้อความหนึ่ง: เปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และ BBQ Dataset
การจดจำ: การประเมินการจดจำข้อมูลที่ใช้ในการฝึกแบบอัตโนมัติ รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงด้านสารเคมี ชีววิทยา รังสีวิทยา และนิวเคลียร์ (CBRN) รวมถึงการทดสอบการโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการจำลองแบบอิสระ

ผลการประเมิน

ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อปฏิบัติตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา อันตรายจากการนำเสนอ การจดจำ อันตรายในวงกว้าง นอกจากการประเมินภายในที่มีประสิทธิภาพแล้ว ผลลัพธ์ของมาตรฐานความปลอดภัยที่รู้จักกันดี เช่น BBQ, Winogender, WinoBias, RealToxicity และ TruthfulQA จะแสดงที่นี่ด้วย

เปรียบเทียบ	เมตริก	RecurrentGemma 2B	RecurrentGemma 2B IT	RecurrentGemma 9B	RecurrentGemma 9B IT
RealToxicity	เฉลี่ย	9.8	7.60	10.3	8.8
ตัวหนา		39.3	52.3	39.8	47.9
CrowS-Pairs	top-1	41.1	43.4	38.7	39.5
BBQ Ambig	top-1	62.6	71.1	95.9	67.1
BBQ Disambig	top-1	58.4	50.8	78.6	78.9
Winogender	top-1	55.1	54.7	59.0	64.0
TruthfulQA		35.1	42.7	38.6	47.7
WinoBias 1_2		58.4	56.4	61.5	60.6
WinoBias 2_2		90.0	75.4	90.2	90.3
Toxigen		56.7	50.0	58.8	64.5

การใช้งานและข้อจํากัดของโมเดล

ข้อจำกัดที่ทราบ

โมเดลเหล่านี้มีข้อจํากัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้

ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกอบรมส่งผลต่อความสามารถของโมเดลอย่างมาก อคติหรือช่องโหว่ในข้อมูลที่ใช้ฝึกอาจทําให้คำตอบของโมเดลมีข้อจํากัด
- ขอบเขตของชุดข้อมูลการฝึกจะกําหนดขอบเขตหัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
บริบทและความซับซ้อนของงาน
- LLM ทำงานได้ดีกว่ากับงานที่ระบุขอบเขตด้วยพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรืองานที่มีความซับซ้อนสูงอาจเป็นเรื่องยาก
- ประสิทธิภาพของโมเดลอาจได้รับอิทธิพลจากปริมาณบริบทที่ระบุ (โดยทั่วไปแล้วบริบทที่ยาวกว่าจะให้ผลลัพธ์ที่ดีกว่า แต่ไม่เกินจุดหนึ่ง)
ความกำกวมและความซับซ้อนของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ LLM อาจไม่เข้าใจความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมา
ความถูกต้องของข้อเท็จจริง
- LLM จะสร้างคำตอบตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ เนื่องจากอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
สามัญสำนึก
- LLM อาศัยรูปแบบทางสถิติในภาษา บุคคลเหล่านี้อาจใช้เหตุผลตามสามัญสำนึกไม่ได้ในบางสถานการณ์

ข้อควรพิจารณาด้านจริยธรรมและความเสี่ยง

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ทำให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างรูปแบบแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

อคติและความเป็นธรรม
- LLM ที่ฝึกด้วยข้อมูลข้อความในชีวิตจริงขนาดใหญ่อาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในเนื้อหาการฝึก โมเดลเหล่านี้ผ่านการตรวจสอบอย่างละเอียด มีการประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และมีการรายงานการประเมินผลในภายหลังในการ์ดนี้
การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- LLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เรามีหลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ
ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจํากัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาอย่างมีความรับผิดชอบเปิดโอกาสให้แชร์นวัตกรรมด้วยการเปิดเทคโนโลยี LLM ให้นักพัฒนาซอฟต์แวร์และนักวิจัยทั่วทั้งระบบนิเวศ AI เข้าถึงได้

ความเสี่ยงที่พบและการลดความเสี่ยง

การคงไว้ซึ่งอคติ: เราขอแนะนำให้ทำการติดตามอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และสำรวจเทคนิคในการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และ Use Case อื่นๆ
การสร้างเนื้อหาที่อันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสําคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและนำมาตรการรักษาความปลอดภัยด้านเนื้อหาที่เหมาะสมมาใช้ตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยบรรเทาการใช้ LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งว่ามีการละเมิด การใช้งานโมเดล Gemma ที่ไม่ได้รับอนุญาตระบุไว้ในข้อกำหนดในการใช้งาน
การละเมิดความเป็นส่วนตัว: มีการฝึกโมเดลด้วยข้อมูลที่กรองเพื่อนำ PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราขอแนะนําให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

วัตถุประสงค์การใช้งาน

แอปพลิเคชัน

โมเดลภาษาขนาดใหญ่ (LLM) แบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วน วัตถุประสงค์ของรายการนี้คือเพื่อให้ข้อมูลตามบริบทเกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลได้พิจารณาไว้เป็นส่วนหนึ่งของการฝึกและพัฒนาโมเดล

การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: โมเดลเหล่านี้สามารถใช้ในการสร้างข้อความในรูปแบบต่างๆ ที่สร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด อีเมลฉบับร่าง ฯลฯ
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสําหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างข้อมูลสรุปที่กระชับของชุดข้อความ เอกสารวิจัย หรือรายงาน
การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้ใช้เป็นพื้นฐานให้ผู้วิจัยได้ทดลองใช้เทคนิค NLP, พัฒนาอัลกอริทึม และช่วยพัฒนาวงการนี้
- เครื่องมือเรียนภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
- การสํารวจความรู้: ช่วยเหลือนักวิจัยในการสํารวจข้อความจำนวนมากด้วยการสร้างสรุปหรือตอบคําถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ประโยชน์

ในช่วงที่เปิดตัว โมเดลตระกูลนี้จะติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูงซึ่งออกแบบมาตั้งแต่ต้นสําหรับการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลขนาดใกล้เคียงกัน

เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ พบว่าโมเดลเหล่านี้มีประสิทธิภาพเหนือกว่าทางเลือกอื่นๆ ของโมเดลแบบเปิดที่มีขนาดใกล้เคียงกัน

โดยเฉพาะอย่างยิ่ง โมเดล RecurrentGemma ให้ประสิทธิภาพเทียบเท่ากับโมเดล Gemma แต่เร็วกว่าในระหว่างการอนุมานและต้องใช้หน่วยความจำน้อยกว่า โดยเฉพาะในลำดับที่ยาว