การ์ดโมเดล RecurrentGemma

หน้าโมเดล: RecurrentGemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

สรุปโมเดล

คำอธิบาย

RecurrentGemma คือตระกูลของโมเดลภาษาแบบเปิดที่สร้างขึ้นจากนวนิยายซ้ำ สถาปัตยกรรมที่ Google พัฒนาขึ้น ทั้ง 2 อย่าง เวอร์ชันก่อนการฝึกและการปรับแต่งคำแนะนำจะมีให้บริการเป็นภาษาอังกฤษ

โมเดล RecurrentGemma เหมาะกับข้อความที่หลากหลาย เช่นเดียวกับ Gemma งานที่สร้างขึ้น ซึ่งรวมถึงการตอบคำถาม การสรุป และการให้เหตุผล เนื่องจากสถาปัตยกรรมที่ล้ำสมัย RecurrentGemma ใช้หน่วยความจำน้อยกว่า Gemma และได้อนุมานที่เร็วขึ้นเมื่อสร้างลำดับยาวๆ

อินพุตและเอาต์พุต

  • อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่จะ โดยสรุป)
  • เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อข้อมูลที่ป้อน (เช่น คำตอบสำหรับคำถาม ข้อมูลสรุปของเอกสาร)

การอ้างอิง

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

ข้อมูลโมเดล

ชุดข้อมูลการฝึกและการประมวลผลข้อมูล

RecurrentGemma ใช้ข้อมูลการฝึกและการประมวลผลข้อมูลเดียวกับที่ กลุ่มโมเดล Gemma ดูรายละเอียดทั้งหมดได้ใน โมเดล Gemma

ข้อมูลการใช้งาน

ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ในระหว่างการฝึก

ชอบ Gemma RecurrentGemma ได้รับการฝึกเมื่อ TPUv5e โดยใช้ JAX และ ML เส้นทาง

ข้อมูลการประเมิน

ผลการเปรียบเทียบ

วิธีการประเมิน

โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลขนาดใหญ่และ ให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้

ผลการประเมิน

เปรียบเทียบ เมตริก Gemma 2B ซ้ำ Gemma 9B ซ้ำ
MMLU 5 - ช็อต, สูงสุด 1 38.4 60.5
HellaSwag 0-ช็อต 71.0 80.4
PIQA 0-ช็อต 78.5 81.3
SocialIQA 0-ช็อต 51.8 52.3
BoolQ 0-ช็อต 71.3 80.3
WinoGrande คะแนนบางส่วน 67.8 73.6
CommonsenseQA 7 ช็อต 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-c 42.3 52.0
TriviaQA 5 นัด 52.5 70.5
คำถามเกี่ยวกับธรรมชาติ 5 นัด 11.5 21.7
HumanEval บัตร@1 21.3 31.1
MBPP 3 ช็อต 28.8 42 วินาที
GSM8K maj@1 13.4 42.6
MATH 4 ช็อต 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
เฉลี่ย 44.6 56.1

จริยธรรมและความปลอดภัย

การประเมินจริยธรรมและความปลอดภัย

วิธีการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและทีมสีแดงภายใน นโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงได้ดำเนินการโดย ทีมต่างๆ แต่ละคนมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน เหล่านี้ โมเดลได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากที่เกี่ยวข้องกับ จริยธรรมและความปลอดภัย ซึ่งรวมถึง

  • ความปลอดภัยของเนื้อหาที่แปลงข้อความเป็นข้อความ: การประเมินโดยเจ้าหน้าที่เกี่ยวกับพรอมต์ที่ครอบคลุมเรื่องความปลอดภัย นโยบายซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรง และการนองเลือด ตลอดจนวาจาสร้างความเกลียดชัง
  • อันตรายจากการนำเสนอแบบข้อความ: การเปรียบเทียบกับเอกสารวิชาการที่เกี่ยวข้อง ชุดข้อมูล เช่น WinoBias และชุดข้อมูลบาร์บีคิว
  • การบันทึก: การประเมินโดยอัตโนมัติสำหรับการท่องจำข้อมูลการฝึก ซึ่งรวมถึงความเสี่ยงต่อการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
  • อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น สารเคมี ความเสี่ยงทางชีววิทยา รังสี และนิวเคลียร์ (CBRN) รวมถึงการทดสอบสำหรับ การโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการจำลองแบบอัตโนมัติ

ผลการประเมิน

ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้ สำหรับการประชุมภายใน นโยบาย สำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา การทำร้ายตัวแทน การท่องจำและอันตรายในวงกว้าง นอกเหนือจากการประเมินภายในที่เชื่อถือได้ ของมาตรฐานความปลอดภัยที่เป็นที่รู้จัก เช่น บาร์บีคิว, Winogender, WinoBias RealToxicity และ TruthfulQA จะแสดงที่นี่

เปรียบเทียบ เมตริก Gemma 2B ซ้ำ RecurrentGemma 2B IT Gemma 9B ซ้ำ RecurrentGemma 9B IT
RealToxicity เฉลี่ย 9.8 7.60 10.3 8.8
BOLD 39.3 52.3 39.8 47.9
คู่อีกา top-1 41.1 43.4 38.7 39.5
ภาพบาร์บีคิวขนาดใหญ่ top-1 62.6 71.1 95.9 67.1
การชี้แจงสำหรับบาร์บีคิว top-1 58.4 50.8 78.6 78.9
วิโนเจนเดอร์ top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
Toxigen 56.7 50.0 58.8 64.5

การใช้งานโมเดลและข้อจำกัด

ข้อจำกัดที่ทราบ

รูปแบบเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลการฝึกมีอิทธิพลอย่างมาก ความสามารถของโมเดล การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึกอาจทำให้เกิด ข้อจำกัดในคำตอบของโมเดล
    • ขอบเขตของชุดข้อมูลการฝึกจะกำหนดขอบเขตเรื่องของโมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
  • ความซับซ้อนของบริบทและงาน
    • LLM จะทำงานได้ดียิ่งขึ้นหากจัดเฟรมด้วยพรอมต์ที่ชัดเจน วิธีทำ งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
    • ประสิทธิภาพของโมเดลอาจขึ้นอยู่กับปริมาณบริบท ให้ (บริบทที่ยาวนานกว่าปกติจะนำไปสู่เอาต์พุตที่ดีขึ้น เฉพาะบางจุด)
  • ความกำกวมและความแตกต่างของภาษา
    • ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง LLM อาจทำความเข้าใจได้ยาก ถ้อยคำที่เล็กน้อยมาก การเสียดสี หรือภาษาเชิงเปรียบเทียบ
  • ความถูกต้องของข้อเท็จจริง
    • LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จาก ชุดข้อมูลการฝึกอบรมนี้ แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้าง ข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • สามัญสำนึก
    • LLM ใช้รูปแบบทางสถิติในภาษา พวกเขาอาจขาด สามารถใช้การให้เหตุผลสามัญสำนึกในบางสถานการณ์

การพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดความกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ

  • อคติและความยุติธรรม
    • LLM ที่ได้รับการฝึกโดยใช้ข้อมูลข้อความจำนวนมากที่เกิดขึ้นจริงสามารถสะท้อน อคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการเรียนการสอน โมเดลเหล่านี้ ได้ผ่านการตรวจสอบอย่างรอบคอบและประมวลผลข้อมูลอินพุตล่วงหน้าตามที่อธิบายไว้ และ การประเมินส่วนหลังที่รายงานในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับโมเดล สถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินผล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบเปิดโอกาสให้แบ่งปัน โดยทำให้นักพัฒนาซอฟต์แวร์สามารถเข้าถึงเทคโนโลยี LLM และ นักวิจัยในระบบนิเวศ AI

การระบุและการลดความเสี่ยง:

  • การคงอยู่ของอคติ: ขอแนะนำให้คุณทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจการลดการให้น้ำหนัก เทคนิคในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์สำหรับเนื้อหา ความปลอดภัยเป็นสิ่งสำคัญ ขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและ ใช้มาตรการป้องกันความปลอดภัยเนื้อหาที่เหมาะสมโดยอิงตาม นโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชัน
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและนักพัฒนา และ การให้ความรู้แก่ผู้ใช้ปลายทางช่วยลดการใช้ LLM ที่เป็นอันตรายได้ แหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด ที่มีให้ การใช้งานโมเดล Gemma โดยต้องห้ามมีระบุไว้ในข้อกำหนดในการให้บริการ การใช้งาน
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกกับข้อมูลที่กรองเพื่อนำออกจากผลการค้นหา PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ขอแนะนำให้นักพัฒนาซอฟต์แวร์ ปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวที่มีเทคนิคการรักษาความเป็นส่วนตัว

วัตถุประสงค์การใช้งาน

แอปพลิเคชัน

Open Large Language Models (LLM) มีแอปพลิเคชันที่หลากหลายใน อุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ใช่ ครอบคลุม จุดประสงค์ของรายการนี้คือการให้ข้อมูลตามบริบท เกี่ยวกับกรณีการใช้งานที่เป็นไปได้ที่ผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของโมเดล การฝึกอบรมและการพัฒนา

  • การสร้างเนื้อหาและการสื่อสาร
    • การสร้างข้อความ: รูปแบบเหล่านี้ใช้เพื่อสร้างข้อความครีเอทีฟโฆษณาได้ รูปแบบต่างๆ เช่น บทกวี สคริปต์ โค้ด สำเนาทางการตลาด อีเมลฉบับร่าง ฯลฯ
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับ การบริการลูกค้า ผู้ช่วยเสมือนจริง หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปที่กระชับของข้อมูลคลังข้อความ เอกสารงานวิจัย หรือรายงานต่างๆ
  • การวิจัยและการศึกษา
    • การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้ เป็นรากฐานสำหรับนักวิจัยในการทดลองใช้เทคนิค NLP พัฒนาอัลกอริทึมและส่งเสริมให้เกิดความก้าวหน้าในวงการนี้
    • เครื่องมือการเรียนภาษา: รองรับการเรียนภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจพื้นที่ขนาดใหญ่ โดยการสร้างสรุปหรือตอบคำถามเกี่ยวกับ หัวข้อ

ประโยชน์

ในช่วงเปิดตัว กลุ่มโมเดลนี้จะให้ประสิทธิภาพการทำงานแบบเปิดที่มีประสิทธิภาพสูง การติดตั้งใช้งานโมเดลภาษาขนาดใหญ่ที่ออกแบบใหม่ทั้งหมดสำหรับ การพัฒนา AI เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน

โมเดลเหล่านี้ใช้เมตริกการประเมินเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ มอบประสิทธิภาพที่เหนือกว่าโมเดลเปิดอื่นๆ ที่มีขนาดเท่าๆ กัน ทางเลือก

ยิ่งไปกว่านั้น โมเดล RecurrentGemma มีประสิทธิภาพที่เทียบเคียงได้กับ Gemma แต่จะทำงานได้เร็วขึ้นในระหว่างการอนุมานและใช้หน่วยความจำน้อยลง โดยเฉพาะเมื่อ เป็นลำดับยาวๆ