RecurrentGemma

RecurrentGemma คือโมเดลแบบเปิดที่อิงตาม Griffin ซึ่งเป็นสถาปัตยกรรมโมเดลแบบผสมที่ผสมผสานการเกิดซ้ำแบบเชิงเส้นที่มีรั้วล้อมรอบกับความสนใจของหน้าต่างเลื่อนในพื้นที่

RecurrentGemma เหมาะกับงานสร้างข้อความที่หลากหลาย เช่น การตอบคำถาม การสรุป และการให้เหตุผล เช่นเดียวกับ Gemma อย่างไรก็ตาม สถาปัตยกรรมที่เป็นเอกลักษณ์ของ RecurrentGemma มีข้อดีเพิ่มเติมดังต่อไปนี้

  • ข้อกำหนดด้านหน่วยความจำที่ต่ำลงทำให้สามารถสร้างตัวอย่างที่ยาวขึ้นบนอุปกรณ์ที่มีหน่วยความจำที่จำกัด เช่น GPU หรือ CPU เดี่ยว
  • RecurrentGemma สามารถอนุมานได้ในกลุ่มขนาดที่สูงขึ้นอย่างมีนัยสำคัญ ซึ่งหมายความว่าจะสามารถสร้างโทเค็นต่อวินาทีได้มากขึ้นมาก โดยเฉพาะอย่างยิ่งเมื่อสร้างลำดับแบบยาว
  • RecurrentGemma จับคู่กับประสิทธิภาพของ Gemma โดยใช้หน่วยความจำน้อยลงและใช้การอนุมานได้เร็วขึ้น

แหล่งข้อมูลเพิ่มเติม

การ์ดโมเดลของ RecurrentGemma ประกอบด้วยข้อมูลโดยละเอียดเกี่ยวกับโมเดล ข้อมูลการใช้งาน ข้อมูลการประเมิน การใช้โมเดลและข้อจำกัด และอื่นๆ
ดูโค้ดเพิ่มเติม, สมุดบันทึก Colab, ข้อมูล และการสนทนาเกี่ยวกับ RecurrentGemma ใน Kaggle
เรียกใช้ตัวอย่างสมุดบันทึก Colab สำหรับ JAX และ PyTorch ใน GitHub