RecurrentGemma

RecurrentGemma คือโมเดลเปิดที่อิงจาก Griffin สถาปัตยกรรมโมเดลแบบผสมที่ ผสมผสานการเกิดซ้ำเชิงเส้นแบบมีรั้วกับความสนใจของหน้าต่างเลื่อนในเครื่อง

RecurrentGemma เหมาะกับ Gemma มาก งานสร้างข้อความที่หลากหลาย ซึ่งรวมถึงการตอบคำถาม การสรุป และ การให้เหตุผล อย่างไรก็ตาม สถาปัตยกรรมที่เป็นเอกลักษณ์ของ RecurrentGemma มาพร้อมองค์ประกอบเพิ่มเติมต่อไปนี้ ข้อดี:

  • ข้อกำหนดด้านหน่วยความจำที่ต่ำลงทำให้สามารถสร้างตัวอย่างที่ยาวขึ้นบนอุปกรณ์ที่มีหน่วยความจำที่จำกัด เช่น GPU หรือ CPU เดี่ยว
  • RecurrentGemma สามารถอนุมานได้ในกลุ่มขนาดที่สูงขึ้นอย่างมีนัยสำคัญ ซึ่งหมายความว่าจะสามารถสร้างโทเค็นต่อวินาทีได้มากขึ้นมาก โดยเฉพาะอย่างยิ่งเมื่อสร้างลำดับแบบยาว
  • RecurrentGemma จับคู่กับประสิทธิภาพของ Gemma โดยใช้หน่วยความจำน้อยลงและใช้การอนุมานได้เร็วขึ้น

แหล่งข้อมูลเพิ่มเติม

การ์ดโมเดลของ RecurrentGemma ประกอบด้วยข้อมูลโดยละเอียดเกี่ยวกับโมเดล ข้อมูลการใช้งาน ข้อมูลการประเมิน การใช้โมเดลและข้อจำกัด และอื่นๆ
ดูโค้ดเพิ่มเติม, สมุดบันทึก Colab, ข้อมูล และการสนทนาเกี่ยวกับ RecurrentGemma ใน Kaggle
เรียกใช้ตัวอย่างสมุดบันทึก Colab สำหรับ JAX และ PyTorch ใน GitHub