การ์ดโมเดล RecurrentGemma

หน้ารูปแบบ: RecurrentGemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการให้บริการ: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

สรุปโมเดล

คำอธิบาย

RecurrentGemma คือตระกูลของโมเดลภาษาแบบเปิดที่สร้างขึ้นจากสถาปัตยกรรมแบบเกิดซ้ำใหม่ซึ่งพัฒนาขึ้นที่ Google ทั้งเวอร์ชันก่อนการฝึกและเวอร์ชันที่ปรับตามการสอนจะมีให้บริการเป็นภาษาอังกฤษ

โมเดล RecurrentGemma เหมาะกับงานการสร้างข้อความที่หลากหลาย ซึ่งรวมถึงการตอบคำถาม การสรุป และการให้เหตุผล เช่นเดียวกับ Gemma ด้วยสถาปัตยกรรมที่ล้ำสมัย RecurrentGemma ต้องใช้หน่วยความจำน้อยกว่า Gemma และใช้การอนุมานได้เร็วกว่าเมื่อสร้างลำดับแบบยาว

อินพุตและเอาต์พุต

  • อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่ต้องการสรุป)
  • เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อการป้อนข้อมูล (เช่น คำตอบสำหรับคำถาม ข้อมูลสรุปของเอกสาร)

การอ้างอิง

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

ข้อมูลโมเดล

ชุดข้อมูลการฝึกอบรมและการประมวลผลข้อมูล

RecurrentGemma ใช้ข้อมูลการฝึกและการประมวลผลข้อมูลแบบเดียวกับที่กลุ่มโมเดลของ Gemma ใช้ ดูคำอธิบายแบบเต็มได้ในการ์ดโมเดลของ Gemma

ข้อมูลการใช้งาน

ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ระหว่างการฝึกอบรม

RecurrentGemma ได้รับการฝึกบน TPUv5e โดยใช้ JAX และ ML Pathways เช่นเดียวกับ Gemma

ข้อมูลการประเมิน

ผลลัพธ์การเปรียบเทียบ

วิธีการประเมิน

โมเดลเหล่านี้ได้รับการประเมินโดยใช้ชุดข้อมูลและเมตริกต่างๆ ขนาดใหญ่เพื่อให้ครอบคลุมแง่มุมต่างๆ ของการสร้างข้อความ ดังนี้

ผลการประเมิน

การเปรียบเทียบ เมตริก RecurrentGemma 2B
MMLU ยิง 5 ลูก, ติดอันดับ 1 38.4
HellaSwag ยิงลูก 0 71.0
PIQA ยิงลูก 0 78.5
SocialIQA ยิงลูก 0 51.8
BoolQ ยิงลูก 0 71.3
WinoGrande คะแนนบางส่วน 67.8
CommonsenseQA ยิง 7 ช็อต 63.7
OpenBookQA 47.2
ARC-E 72.9
ARC-C 42.3
TriviaQA ยิง 5 ลูก 52.5
คำถามตามธรรมชาติ ยิง 5 ลูก 11.5
HumanEval บัตร@1 21.3
MBPP ยิง 3 ช็อต 28.8
GSM8K maj@1 13.4
MATH 4 ช็อต 11.0
AGIEval 23.8
Bench ขนาดใหญ่ 35.3
ปานกลาง 44.6

จริยธรรมและความปลอดภัย

การประเมินจริยธรรมและความปลอดภัย

วิธีการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินแบบมีโครงสร้างและการทดสอบภายในเกี่ยวกับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงดำเนินการโดยทีมต่างๆ มากมายที่มีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่ที่แตกต่างกัน โมเดลเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ ที่เกี่ยวข้องกับจริยธรรมและความปลอดภัย เช่น

  • ความปลอดภัยของเนื้อหาการแปลงจากข้อความ: การประเมินจากมนุษย์เกี่ยวกับพรอมต์ที่ครอบคลุมนโยบายความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การล่วงละเมิด ความรุนแรง และการนองเลือด และวาจาสร้างความเกลียดชัง
  • อันตรายในการนำเสนอข้อความเป็นข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น ชุดข้อมูล WinoBias และบาร์บีคิว
  • การจดจำ: การประเมินอัตโนมัติจากการจดจำข้อมูลการฝึกอบรม รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
  • อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงทางเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) รวมถึงการทดสอบการโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการทำซ้ำโดยอัตโนมัติ

ผลการประเมิน

ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้ว่าเป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา อันตรายในการนำเสนอ การจำ อันตรายในวงกว้าง นอกเหนือจากการประเมินภายในที่มีประสิทธิภาพแล้ว ผลลัพธ์ของการเปรียบเทียบความปลอดภัยซึ่งเป็นที่รู้จักกันดี เช่นบาร์บีคิว, Winogender, Winobias, RealToxicity และ TruthfulQA จะแสดงที่นี่

การเปรียบเทียบ เมตริก RecurrentGemma 2B RecurrentGemma 2 พันล้านไอที
RealToxicity เฉลี่ย 9.8 7.6
ตัวหนา 39.3 52.4
คู่กา top-1 41.1 43.4
BBQ Ambig top-1 62.6 71.1
การขจัดความกำกวมสำหรับบาร์บีคิว top-1 58.4 50.8
ไวโนเจนเดอร์ top-1 55.1 54.7
TruthfulQA 35.1 42.7
ไวโนเบีย 1_2 58.4 56.4
ไวโนเบียส 2_2 90.0 75.4
ท็อกซิเกน 56.7 50.0

การใช้งานและข้อจํากัดของโมเดล

ข้อจำกัดที่ทราบ

รูปแบบเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึกอาจทำให้เกิดข้อจำกัดในการตอบสนองของโมเดล
    • ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตวิชาที่โมเดลสามารถจัดการได้อย่างมีประสิทธิภาพ
  • บริบทและความซับซ้อนของงาน
    • LLM จะดีกว่าในงานที่สามารถจัดกรอบด้วยพรอมต์และวิธีการที่ชัดเจน งานปลายเปิดหรือมีความซับซ้อนมากอาจทำได้ยาก
    • ประสิทธิภาพของโมเดลอาจได้รับผลจากจำนวนบริบทที่ให้ไว้ (บริบทที่ยาวกว่าโดยทั่วไปจะนำไปสู่ผลลัพธ์ที่ดีขึ้นจนถึงจุดใดจุดหนึ่ง)
  • ความกำกวมและความแตกต่างทางภาษา
    • ภาษาที่เป็นธรรมชาติมีความซับซ้อนโดยธรรมชาติ LLM อาจพบปัญหาในการทำความเข้าใจ ความแตกต่างเล็กน้อย การเสียดสี หรือถ้อยคำที่หยาบคาย
  • ความถูกต้องของข้อเท็จจริง
    • LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึกอบรม แต่ไม่ใช่ฐานความรู้ จึงอาจสร้างข้อความที่เป็นข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • สามัญสำนึก
    • LLM จะใช้รูปแบบทางสถิติในภาษา พวกเขาอาจไม่สามารถใช้เหตุผลทั่วไปในบางสถานการณ์

ความเสี่ยงและข้อควรพิจารณาด้านจริยธรรม

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดข้อกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความยุติธรรม
    • LLM ที่ได้รับการฝึกกับข้อมูลแบบข้อความขนาดใหญ่จากสถานการณ์จริงจะแสดงให้เห็นถึงอคติด้านวัฒนธรรมและสังคมที่ฝังไว้ในเนื้อหาการฝึกอบรมได้ โมเดลเหล่านี้ผ่านการพิจารณาอย่างละเอียดรอบคอบ อธิบายการป้อนข้อมูลก่อนประมวลผลข้อมูล และการประเมินภายหลังที่รายงานในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
    • ระบบอาจใช้ LLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
    • เราจัดทำหลักเกณฑ์ไว้เพื่อการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่ได้รับการพัฒนาอย่างมีความรับผิดชอบจะมอบโอกาสในการแชร์นวัตกรรมโดยทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยในระบบนิเวศ AI เข้าถึงเทคโนโลยี LLM ได้

การระบุและลดความเสี่ยง

  • การไม่มีอคติ: ขอแนะนำให้ดำเนินการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจเทคนิคการลดความลำเอียงในระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานของแอปพลิเคชันโดยเฉพาะ
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางจะช่วยลดการใช้งาน LLM ที่เป็นอันตราย เราได้จัดเตรียมแหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้ทราบว่ามีการใช้ในทางที่ผิด การใช้งานโมเดลของ Gemma ที่ไม่อนุญาตจะแสดงอยู่ในข้อกำหนดในการใช้งานของเรา
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกเกี่ยวกับข้อมูลที่กรองเพื่อนํา PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราแนะนำให้นักพัฒนาแอปปฏิบัติตาม กฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

วัตถุประสงค์การใช้งาน

แอปพลิเคชัน

โมเดลภาษาขนาดใหญ่ (LLM) มีแอปพลิเคชันมากมายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ครอบคลุม รายการนี้มีจุดประสงค์เพื่อให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลถือว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล

  • การสร้างคอนเทนต์และการสื่อสาร
    • การสร้างข้อความ: รูปแบบเหล่านี้สามารถใช้สร้างรูปแบบข้อความครีเอทีฟโฆษณา เช่น บทกวี สคริปต์ โค้ด ข้อความการตลาด อีเมลฉบับร่าง ฯลฯ
    • แชทบ็อตและ AI แบบสนทนา: เพิ่มประสิทธิภาพอินเทอร์เฟซการสนทนาสำหรับ ฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปคลังข้อความ เอกสารงานวิจัย หรือรายงานอย่างกระชับ
  • การวิจัยและการศึกษา
    • การวิจัยการประมวลผลภาษาธรรมชาติ (NLP): โมเดลเหล่านี้สามารถใช้เป็นรากฐานให้นักวิจัยทดลองเทคนิค NLP พัฒนาอัลกอริทึม และมีส่วนสนับสนุนความก้าวหน้าของวงการ
    • เครื่องมือเรียนรู้ภาษา: สนับสนุนประสบการณ์การเรียนภาษาแบบอินเทอร์แอกทีฟ ช่วยเรื่องการแก้ไขไวยากรณ์ หรือให้การฝึกเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความเนื้อหาขนาดใหญ่ด้วยการสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เจาะจง

ข้อดี

ในช่วงเปิดตัว โมเดลในกลุ่มนี้มีการติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นสำหรับการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน

เมื่อใช้เมตริกการประเมินการเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ โมเดลเหล่านี้จะให้ประสิทธิภาพที่เหนือกว่าโมเดลอื่นแบบเปิดที่มีขนาดใกล้เคียงกัน

โดยเฉพาะอย่างยิ่งโมเดล RecurrentGemma จะให้ประสิทธิภาพเทียบเท่ากับโมเดล Gemma แต่จะทำงานเร็วกว่าในระหว่างการอนุมานและใช้หน่วยความจำน้อยกว่า โดยเฉพาะในลำดับแบบยาว