หน้าโมเดล: RecurrentGemma
แหล่งข้อมูลและเอกสารทางเทคนิค
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google
ข้อมูลรุ่น
สรุปโมเดล
คำอธิบาย
RecurrentGemma คือตระกูลของโมเดลภาษาเปิดที่สร้างขึ้นจากสถาปัตยกรรมแบบทำซ้ำใหม่ซึ่งพัฒนาที่ Google ทั้งเวอร์ชันก่อนการฝึกและเวอร์ชันที่ปรับแต่งตามการสอนจะมีให้บริการเป็นภาษาอังกฤษ
โมเดล RecurrentGemma เหมาะกับงานการสร้างข้อความที่หลากหลาย เช่น การตอบคำถาม การสรุป และการให้เหตุผล เช่นเดียวกับ Gemma RecurrentGemma ใช้หน่วยความจำน้อยกว่า Gemma และได้รับการอนุมานที่เร็วขึ้นเมื่อสร้างลำดับที่ยาวนานเนื่องจากสถาปัตยกรรมที่แปลกใหม่
อินพุตและเอาต์พุต
- อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป)
- เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อข้อมูลที่ป้อน (เช่น คําตอบของคําถาม ข้อมูลสรุปของเอกสาร)
การอ้างอิง
@article{recurrentgemma_2024,
title={RecurrentGemma},
url={},
DOI={},
publisher={Kaggle},
author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
year={2024}
}
ข้อมูลโมเดล
ชุดข้อมูลการฝึกและการประมวลผลข้อมูล
RecurrentGemma ใช้ข้อมูลการฝึกและการประมวลผลข้อมูลเดียวกับที่กลุ่มโมเดล Gemma ใช้ ดูคำอธิบายแบบเต็มได้ในการ์ดโมเดล Gemma
ข้อมูลการใช้งาน
ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ในระหว่างการฝึก
RecurrentGemma ได้รับการฝึกใน TPUv5e โดยใช้ JAX และ ML Pathways เช่นเดียวกับ Gemma
ข้อมูลการประเมิน
ผลการเปรียบเทียบ
วิธีการประเมิน
โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกจำนวนมากเพื่อให้ครอบคลุมการสร้างข้อความในด้านต่างๆ ดังนี้
ผลการประเมิน
การเปรียบเทียบ | เมตริก | Gemma 2B ซ้ำ | Gemma 9B ซ้ำ |
---|---|---|---|
MMLU | 5 - ช็อต, สูงสุด 1 | 38.4 | 60.5 |
HellaSwag | 0-ช็อต | 71.0 | 80.4 |
PIQA | 0-ช็อต | 78.5 | 81.3 |
SocialIQA | 0-ช็อต | 51.8 | 52.3 |
BoolQ | 0-ช็อต | 71.3 | 80.3 |
WinoGrande | คะแนนบางส่วน | 67.8 | 73.6 |
CommonsenseQA | 7 ช็อต | 63.7 | 73.2 |
OpenBookQA | 47.2 | 51.8 | |
ARC-e | 72.9 | 78.8 | |
ARC-C | 42.3 | 52.0 | |
TriviaQA | 5 นัด | 52.5 | 70.5 |
คำถามเกี่ยวกับธรรมชาติ | 5 นัด | 11.5 | 21.7 |
HumanEval | บัตร@1 | 21.3 | 31.1 |
MBPP | 3 ช็อต | 28.8 | 42 วินาที |
GSM8K | maj@1 | 13.4 | 42.6 |
MATH | 4 ช็อต | 11.0 | 23.8 |
AGIEval | 23.8 | 39.3 | |
BIG-Bench | 35.3 | 55.2 | |
เฉลี่ย | 44.6 | 56.1 |
จริยธรรมและความปลอดภัย
การประเมินจริยธรรมและความปลอดภัย
วิธีการประเมิน
วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบภายในทีมสีแดงสำหรับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงจะดำเนินการโดยทีมต่างๆ หลายทีม ซึ่งมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน แบบจำลองเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากซึ่งเกี่ยวข้องกับจริยธรรมและความปลอดภัย ได้แก่
- ความปลอดภัยของเนื้อหาที่แปลงข้อความเป็นข้อความ: การประเมินโดยเจ้าหน้าที่สำหรับพรอมต์ที่ครอบคลุมนโยบายความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรง และการนองเลือด และวาจาสร้างความเกลียดชัง
- อันตรายจากการแปลงข้อความเป็นข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และชุดข้อมูลบาร์บีคิว
- การจำ: การประเมินการจำข้อมูลฝึกฝนโดยอัตโนมัติ รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
- อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงทางเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) รวมถึงการทดสอบการโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการจำลองแบบอิสระ
ผลการประเมิน
ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา การทำร้ายในการนำเสนอ การท่องจำ และภัยในวงกว้าง นอกเหนือจากการประเมินภายในที่เข้มงวดแล้ว ยังมีผลของเกณฑ์มาตรฐานด้านความปลอดภัยที่รู้จักกันดี เช่นบาร์บีคิว, Winogender, WinoBias, RealToxicity และ TruthfulQA ไว้ที่นี่
การเปรียบเทียบ | เมตริก | Gemma 2B ซ้ำ | RecurrentGemma 2B IT | Gemma 9B ซ้ำ | RecurrentGemma 9B IT |
---|---|---|---|---|---|
RealToxicity | เฉลี่ย | 9.8 | 7.60 | 10.3 | 8.8 |
ตัวหนา | 39.3 | 52.3 | 39.8 | 47.9 | |
คู่อีกา | top-1 | 41.1 | 43.4 | 38.7 | 39.5 |
ภาพบาร์บีคิวขนาดใหญ่ | top-1 | 62.6 | 71.1 | 95.9 | 67.1 |
การชี้แจงสำหรับบาร์บีคิว | top-1 | 58.4 | 50.8 | 78.6 | 78.9 |
วิโนเจนเดอร์ | top-1 | 55.1 | 54.7 | 59.0 | 64.0 |
TruthfulQA | 35.1 | 42.7 | 38.6 | 47.7 | |
WinoBias 1_2 | 58.4 | 56.4 | 61.5 | 60.6 | |
WinoBias 2_2 | 90.0 | 75.4 | 90.2 | 90.3 | |
ท็อกซิเจน | 56.7 | 50.0 | 58.8 | 64.5 |
การใช้งานโมเดลและข้อจำกัด
ข้อจำกัดที่ทราบ
รูปแบบเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึก อาจนำไปสู่ข้อจำกัดในคำตอบของโมเดล
- ขอบเขตของชุดข้อมูลการฝึกจะกำหนดหัวเรื่องที่โมเดลสามารถจัดการได้อย่างมีประสิทธิภาพ
- ความซับซ้อนของบริบทและงาน
- LLM จะทำงานที่ใส่พรอมต์และวิธีการที่ชัดเจนได้ดีกว่า งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
- ประสิทธิภาพของโมเดลอาจได้รับผลจากจำนวนบริบทที่ให้ไว้ (บริบทที่ยาวนานกว่าโดยทั่วไปแล้วจะนำไปสู่เอาต์พุตที่ดีขึ้นจนถึงจุดหนึ่ง)
- ความกำกวมและความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง LLM อาจพบปัญหาในการทำความเข้าใจ ความแตกต่างเล็กน้อย การเสียดสี หรือภาษาเชิงเปรียบเทียบ
- ความถูกต้องของข้อเท็จจริง
- LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้างข้อความ ข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
- สามัญสำนึก
- LLM ใช้รูปแบบทางสถิติในภาษา นักเรียนอาจขาดความสามารถในการใช้เหตุผล สามัญสำนึกในบางสถานการณ์
การพิจารณาและความเสี่ยงด้านจริยธรรม
การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดความกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ
- อคติและความยุติธรรม
- LLM ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เป็นข้อความขนาดใหญ่ในโลกแห่งความเป็นจริงสามารถสะท้อนให้เห็นถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการเรียนการสอนของชั้นเรียนได้ โมเดลเหล่านี้ผ่านการกลั่นกรองอย่างละเอียดอย่างละเอียดก่อนการประมวลผลข้อมูลอินพุตที่อธิบายไว้ และการประเมินหลังการรายงานในการ์ดนี้
- การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
- อาจมีการใช้ LLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- หลักเกณฑ์ที่ให้ไว้สำหรับการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และขั้นตอนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบมอบโอกาสในการแชร์นวัตกรรมด้วยการทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยในระบบนิเวศ AI เข้าถึงเทคโนโลยี LLM ได้
การระบุและการลดความเสี่ยง:
- การคงอยู่ของอคติ: แนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจเทคนิคการลดน้ำหนักระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานของแอปพลิเคชันนั้นๆ
- การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค ตลอดจนการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางสามารถช่วยลดปริมาณการใช้งาน LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด การใช้งานโมเดล Gemma โดยต้องห้ามมีระบุไว้ในข้อกำหนดในการให้บริการของเรา
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกโดยใช้ข้อมูลที่กรองเพื่อนำ PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
วัตถุประสงค์การใช้งาน
แอปพลิเคชัน
Open Large Language Models (LLM) มีแอปพลิเคชันมากมายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ยังไม่ครอบคลุม วัตถุประสงค์ของรายการนี้คือการให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล
- การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: รูปแบบเหล่านี้สามารถใช้สร้างรูปแบบข้อความสร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด สำเนาทางการตลาด อีเมลฉบับร่าง ฯลฯ
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปเนื้อหาข้อความ เอกสารวิจัย หรือรายงานแบบกระชับ
- การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (Natural Language Testing หรือ NLP): โมเดลเหล่านี้ใช้เป็นรากฐานให้นักวิจัยได้ทดลองเทคนิค NLP พัฒนาอัลกอริทึม และสนับสนุนความก้าวหน้าในสาขาดังกล่าว
- เครื่องมือการเรียนภาษา: รองรับประสบการณ์การเรียนภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
- การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง
ประโยชน์
ในช่วงเปิดตัว กลุ่มโมเดลนี้จะมีการติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดประสิทธิภาพสูง ซึ่งได้รับการออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI ที่มีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน
จากเมตริกการประเมินเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ แสดงให้เห็นว่าโมเดลเหล่านี้ให้ประสิทธิภาพที่เหนือกว่าตัวเลือกอื่นๆ ของโมเดลเปิดที่มีขนาดใกล้เคียงกัน
กล่าวอย่างเจาะจงคือ โมเดล RecurrentGemma มีประสิทธิภาพเทียบเท่ากับโมเดล Gemma แต่จะทำงานเร็วกว่าระหว่างการอนุมานและใช้หน่วยความจำน้อยกว่า โดยเฉพาะในลำดับยาว