การ์ดโมเดล RecurrentGemma

หน้าโมเดล: RecurrentGemma

แหล่งข้อมูลและเอกสารทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google

ข้อมูลรุ่น

สรุปโมเดล

คำอธิบาย

RecurrentGemma คือตระกูลของโมเดลภาษาเปิดที่สร้างขึ้นจากสถาปัตยกรรมแบบทำซ้ำใหม่ซึ่งพัฒนาที่ Google ทั้งเวอร์ชันก่อนการฝึกและเวอร์ชันที่ปรับแต่งตามการสอนจะมีให้บริการเป็นภาษาอังกฤษ

โมเดล RecurrentGemma เหมาะกับงานการสร้างข้อความที่หลากหลาย เช่น การตอบคำถาม การสรุป และการให้เหตุผล เช่นเดียวกับ Gemma RecurrentGemma ใช้หน่วยความจำน้อยกว่า Gemma และได้รับการอนุมานที่เร็วขึ้นเมื่อสร้างลำดับที่ยาวนานเนื่องจากสถาปัตยกรรมที่แปลกใหม่

อินพุตและเอาต์พุต

  • อินพุต: สตริงข้อความ (เช่น คำถาม พรอมต์ หรือเอกสารที่จะสรุป)
  • เอาต์พุต: สร้างข้อความภาษาอังกฤษเพื่อตอบสนองต่อข้อมูลที่ป้อน (เช่น คําตอบของคําถาม ข้อมูลสรุปของเอกสาร)

การอ้างอิง

@article{recurrentgemma_2024,
    title={RecurrentGemma},
    url={},
    DOI={},
    publisher={Kaggle},
    author={Griffin Team, Alexsandar Botev and Soham De and Samuel L Smith and Anushan Fernando and George-Christian Muraru and Ruba Haroun and Leonard Berrada et al.},
    year={2024}
}

ข้อมูลโมเดล

ชุดข้อมูลการฝึกและการประมวลผลข้อมูล

RecurrentGemma ใช้ข้อมูลการฝึกและการประมวลผลข้อมูลเดียวกับที่กลุ่มโมเดล Gemma ใช้ ดูคำอธิบายแบบเต็มได้ในการ์ดโมเดล Gemma

ข้อมูลการใช้งาน

ฮาร์ดแวร์และเฟรมเวิร์กที่ใช้ในระหว่างการฝึก

RecurrentGemma ได้รับการฝึกใน TPUv5e โดยใช้ JAX และ ML Pathways เช่นเดียวกับ Gemma

ข้อมูลการประเมิน

ผลการเปรียบเทียบ

วิธีการประเมิน

โมเดลเหล่านี้ได้รับการประเมินเทียบกับคอลเล็กชันชุดข้อมูลและเมตริกจำนวนมากเพื่อให้ครอบคลุมการสร้างข้อความในด้านต่างๆ ดังนี้

ผลการประเมิน

การเปรียบเทียบ เมตริก Gemma 2B ซ้ำ Gemma 9B ซ้ำ
MMLU 5 - ช็อต, สูงสุด 1 38.4 60.5
HellaSwag 0-ช็อต 71.0 80.4
PIQA 0-ช็อต 78.5 81.3
SocialIQA 0-ช็อต 51.8 52.3
BoolQ 0-ช็อต 71.3 80.3
WinoGrande คะแนนบางส่วน 67.8 73.6
CommonsenseQA 7 ช็อต 63.7 73.2
OpenBookQA 47.2 51.8
ARC-e 72.9 78.8
ARC-C 42.3 52.0
TriviaQA 5 นัด 52.5 70.5
คำถามเกี่ยวกับธรรมชาติ 5 นัด 11.5 21.7
HumanEval บัตร@1 21.3 31.1
MBPP 3 ช็อต 28.8 42 วินาที
GSM8K maj@1 13.4 42.6
MATH 4 ช็อต 11.0 23.8
AGIEval 23.8 39.3
BIG-Bench 35.3 55.2
เฉลี่ย 44.6 56.1

จริยธรรมและความปลอดภัย

การประเมินจริยธรรมและความปลอดภัย

วิธีการประเมิน

วิธีการประเมินของเราประกอบด้วยการประเมินที่มีโครงสร้างและการทดสอบภายในทีมสีแดงสำหรับนโยบายเนื้อหาที่เกี่ยวข้อง ทีมสีแดงจะดำเนินการโดยทีมต่างๆ หลายทีม ซึ่งมีเป้าหมายและเมตริกการประเมินโดยเจ้าหน้าที่แตกต่างกัน แบบจำลองเหล่านี้ได้รับการประเมินเทียบกับหมวดหมู่ต่างๆ จำนวนมากซึ่งเกี่ยวข้องกับจริยธรรมและความปลอดภัย ได้แก่

  • ความปลอดภัยของเนื้อหาที่แปลงข้อความเป็นข้อความ: การประเมินโดยเจ้าหน้าที่สำหรับพรอมต์ที่ครอบคลุมนโยบายความปลอดภัย ซึ่งรวมถึงการล่วงละเมิดทางเพศและการแสวงหาประโยชน์จากเด็ก การคุกคาม ความรุนแรง และการนองเลือด และวาจาสร้างความเกลียดชัง
  • อันตรายจากการแปลงข้อความเป็นข้อความ: การเปรียบเทียบกับชุดข้อมูลทางวิชาการที่เกี่ยวข้อง เช่น WinoBias และชุดข้อมูลบาร์บีคิว
  • การจำ: การประเมินการจำข้อมูลฝึกฝนโดยอัตโนมัติ รวมถึงความเสี่ยงในการเปิดเผยข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้
  • อันตรายในวงกว้าง: การทดสอบ "ความสามารถที่เป็นอันตราย" เช่น ความเสี่ยงทางเคมี ชีวภาพ รังสี และนิวเคลียร์ (CBRN) รวมถึงการทดสอบการโน้มน้าวและการหลอกลวง การรักษาความมั่นคงปลอดภัยไซเบอร์ และการจำลองแบบอิสระ

ผลการประเมิน

ผลการประเมินด้านจริยธรรมและความปลอดภัยอยู่ในเกณฑ์ที่ยอมรับได้เพื่อให้เป็นไปตามนโยบายภายในสำหรับหมวดหมู่ต่างๆ เช่น ความปลอดภัยของเด็ก ความปลอดภัยของเนื้อหา การทำร้ายในการนำเสนอ การท่องจำ และภัยในวงกว้าง นอกเหนือจากการประเมินภายในที่เข้มงวดแล้ว ยังมีผลของเกณฑ์มาตรฐานด้านความปลอดภัยที่รู้จักกันดี เช่นบาร์บีคิว, Winogender, WinoBias, RealToxicity และ TruthfulQA ไว้ที่นี่

การเปรียบเทียบ เมตริก Gemma 2B ซ้ำ RecurrentGemma 2B IT Gemma 9B ซ้ำ RecurrentGemma 9B IT
RealToxicity เฉลี่ย 9.8 7.60 10.3 8.8
ตัวหนา 39.3 52.3 39.8 47.9
คู่อีกา top-1 41.1 43.4 38.7 39.5
ภาพบาร์บีคิวขนาดใหญ่ top-1 62.6 71.1 95.9 67.1
การชี้แจงสำหรับบาร์บีคิว top-1 58.4 50.8 78.6 78.9
วิโนเจนเดอร์ top-1 55.1 54.7 59.0 64.0
TruthfulQA 35.1 42.7 38.6 47.7
WinoBias 1_2 58.4 56.4 61.5 60.6
WinoBias 2_2 90.0 75.4 90.2 90.3
ท็อกซิเจน 56.7 50.0 58.8 64.5

การใช้งานโมเดลและข้อจำกัด

ข้อจำกัดที่ทราบ

รูปแบบเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ ดังนี้

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลการฝึกส่งผลต่อความสามารถของโมเดลอย่างมาก การให้น้ำหนักพิเศษหรือช่องว่างในข้อมูลการฝึก อาจนำไปสู่ข้อจำกัดในคำตอบของโมเดล
    • ขอบเขตของชุดข้อมูลการฝึกจะกำหนดหัวเรื่องที่โมเดลสามารถจัดการได้อย่างมีประสิทธิภาพ
  • ความซับซ้อนของบริบทและงาน
    • LLM จะทำงานที่ใส่พรอมต์และวิธีการที่ชัดเจนได้ดีกว่า งานปลายเปิดหรืองานที่มีความซับซ้อนมากอาจมีความท้าทาย
    • ประสิทธิภาพของโมเดลอาจได้รับผลจากจำนวนบริบทที่ให้ไว้ (บริบทที่ยาวนานกว่าโดยทั่วไปแล้วจะนำไปสู่เอาต์พุตที่ดีขึ้นจนถึงจุดหนึ่ง)
  • ความกำกวมและความแตกต่างของภาษา
    • ภาษาธรรมชาติมีความซับซ้อนอยู่ในตัวเอง LLM อาจพบปัญหาในการทำความเข้าใจ ความแตกต่างเล็กน้อย การเสียดสี หรือภาษาเชิงเปรียบเทียบ
  • ความถูกต้องของข้อเท็จจริง
    • LLM สร้างคำตอบโดยอิงตามข้อมูลที่ได้เรียนรู้จากชุดข้อมูลการฝึก แต่ไม่ใช่ฐานความรู้ พวกเขาอาจสร้างข้อความ ข้อเท็จจริงที่ไม่ถูกต้องหรือล้าสมัย
  • สามัญสำนึก
    • LLM ใช้รูปแบบทางสถิติในภาษา นักเรียนอาจขาดความสามารถในการใช้เหตุผล สามัญสำนึกในบางสถานการณ์

การพิจารณาและความเสี่ยงด้านจริยธรรม

การพัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ก่อให้เกิดความกังวลด้านจริยธรรมหลายประการ ในการสร้างโมเดลแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างละเอียดรอบคอบ

  • อคติและความยุติธรรม
    • LLM ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่เป็นข้อความขนาดใหญ่ในโลกแห่งความเป็นจริงสามารถสะท้อนให้เห็นถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการเรียนการสอนของชั้นเรียนได้ โมเดลเหล่านี้ผ่านการกลั่นกรองอย่างละเอียดอย่างละเอียดก่อนการประมวลผลข้อมูลอินพุตที่อธิบายไว้ และการประเมินหลังการรายงานในการ์ดนี้
  • การให้ข้อมูลที่ไม่ถูกต้องและการใช้ในทางที่ผิด
    • อาจมีการใช้ LLM ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
    • หลักเกณฑ์ที่ให้ไว้สำหรับการใช้งานกับโมเดลอย่างมีความรับผิดชอบ โปรดดูชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้จะสรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และขั้นตอนการประเมินของโมเดล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบมอบโอกาสในการแชร์นวัตกรรมด้วยการทำให้นักพัฒนาซอฟต์แวร์และนักวิจัยในระบบนิเวศ AI เข้าถึงเทคโนโลยี LLM ได้

การระบุและการลดความเสี่ยง:

  • การคงอยู่ของอคติ: แนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และการสำรวจเทคนิคการลดน้ำหนักระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์เกี่ยวกับความปลอดภัยของเนื้อหาเป็นสิ่งสำคัญ เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานของแอปพลิเคชันนั้นๆ
  • การใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค ตลอดจนการให้ความรู้แก่นักพัฒนาซอฟต์แวร์และผู้ใช้ปลายทางสามารถช่วยลดปริมาณการใช้งาน LLM ที่เป็นอันตรายได้ เรามีแหล่งข้อมูลทางการศึกษาและกลไกการรายงานให้ผู้ใช้แจ้งเรื่องการใช้ในทางที่ผิด การใช้งานโมเดล Gemma โดยต้องห้ามมีระบุไว้ในข้อกำหนดในการให้บริการของเรา
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกโดยใช้ข้อมูลที่กรองเพื่อนำ PII (ข้อมูลส่วนบุคคลที่ระบุตัวบุคคลนั้นได้) ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

วัตถุประสงค์การใช้งาน

แอปพลิเคชัน

Open Large Language Models (LLM) มีแอปพลิเคชันมากมายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ยังไม่ครอบคลุม วัตถุประสงค์ของรายการนี้คือการให้ข้อมูลเชิงบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาว่าเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล

  • การสร้างเนื้อหาและการสื่อสาร
    • การสร้างข้อความ: รูปแบบเหล่านี้สามารถใช้สร้างรูปแบบข้อความสร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด สำเนาทางการตลาด อีเมลฉบับร่าง ฯลฯ
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับฝ่ายบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปเนื้อหาข้อความ เอกสารวิจัย หรือรายงานแบบกระชับ
  • การวิจัยและการศึกษา
    • การวิจัยการประมวลผลภาษาธรรมชาติ (Natural Language Testing หรือ NLP): โมเดลเหล่านี้ใช้เป็นรากฐานให้นักวิจัยได้ทดลองเทคนิค NLP พัฒนาอัลกอริทึม และสนับสนุนความก้าวหน้าในสาขาดังกล่าว
    • เครื่องมือการเรียนภาษา: รองรับประสบการณ์การเรียนภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือฝึกการเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ประโยชน์

ในช่วงเปิดตัว กลุ่มโมเดลนี้จะมีการติดตั้งใช้งานโมเดลภาษาขนาดใหญ่แบบเปิดประสิทธิภาพสูง ซึ่งได้รับการออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI ที่มีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน

จากเมตริกการประเมินเปรียบเทียบที่อธิบายไว้ในเอกสารนี้ แสดงให้เห็นว่าโมเดลเหล่านี้ให้ประสิทธิภาพที่เหนือกว่าตัวเลือกอื่นๆ ของโมเดลเปิดที่มีขนาดใกล้เคียงกัน

กล่าวอย่างเจาะจงคือ โมเดล RecurrentGemma มีประสิทธิภาพเทียบเท่ากับโมเดล Gemma แต่จะทำงานเร็วกว่าระหว่างการอนุมานและใช้หน่วยความจำน้อยกว่า โดยเฉพาะในลำดับยาว