เร่งความเร็ว Gemma 4 ด้วยการคาดการณ์หลายโทเค็น

ใน Gemma 4 การคาดการณ์หลายโทเค็น (MTP) เป็นสถาปัตยกรรมเฉพาะ ที่ใช้เพื่อเปิดใช้การถอดรหัสแบบคาดเดาที่มีประสิทธิภาพสูง การถอดรหัสแบบคาดการณ์ เป็นเทคนิคในการเพิ่มความเร็วการอนุมานในโมเดลภาษาขนาดใหญ่ แทนที่จะพึ่งพาโมเดลเป้าหมายขนาดใหญ่เพียงอย่างเดียวเพื่อสร้างโทเค็นแบบ ถดถอยอัตโนมัติ (สร้างโทเค็นทีละรายการ โดยที่โทเค็นใหม่แต่ละรายการ ขึ้นอยู่กับโทเค็นก่อนหน้า) "โมเดลร่าง" ที่มีขนาดเล็กกว่าและเร็วกว่าจะคาดการณ์ โทเค็นหลายรายการล่วงหน้า จากนั้นโมเดลเป้าหมายจะยืนยันโทเค็นที่ร่างไว้เหล่านี้ แบบคู่ขนาน หากโมเดลเป้าหมายปฏิเสธโทเค็นที่ร่างไว้ โมเดลจะ ยังคงสร้างโทเค็นที่ถูกต้องสำหรับตำแหน่งนั้น (เพื่อให้มั่นใจว่าขั้นตอน จะไม่สูญเปล่า) และโมเดลร่างจะกลับมาคาดการณ์จากโทเค็นที่ถูกต้อง ใหม่นั้น

Gemma 4 ใช้ MTP โดยการขยายโมเดลพื้นฐานด้วย โมเดลร่างที่เล็กลงและเร็วขึ้นนี้ โมเดลฉบับร่างนี้ไม่ได้เป็นอิสระเนื่องจาก ใช้ตารางการฝังอินพุตร่วมกับโมเดลเป้าหมายและสร้าง โดยตรงจากการเปิดใช้งานเลเยอร์สุดท้าย ซึ่งส่งผลให้ การถอดรหัสเร็วขึ้นอย่างมาก ในขณะที่รับประกัน คุณภาพที่เหมือนกันทุกประการกับการสร้างแบบถดถอยมาตรฐาน ทำให้ จุดตรวจสอบเหล่านี้เหมาะอย่างยิ่งสำหรับแอปพลิเคชันที่มีเวลาในการตอบสนองต่ำและแอปพลิเคชันในอุปกรณ์

การถอดรหัสแบบคาดการณ์จะทำงานโดยร่างโทเค็นหลายรายการและยืนยัน โทเค็นเหล่านั้นในการส่งต่อครั้งเดียว สำหรับโมเดลแบบหนาแน่น ระบบจะใช้เวทเดียวกันกับทุกโทเค็น ดังนั้นการยืนยันโทเค็นที่ร่างไว้หลายรายการจึงเพิ่มค่าใช้จ่ายเพียงเล็กน้อย โมเดล Mixture of Experts (MoE) เช่น Gemma 4 26B A4B ทำงาน แตกต่างกัน โทเค็นแต่ละรายการอาจเปิดใช้งานผู้เชี่ยวชาญที่แตกต่างกัน ดังนั้นการยืนยันโทเค็นที่ร่างไว้จึงอาจต้องโหลดน้ำหนักของผู้เชี่ยวชาญเพิ่มเติมจากหน่วยความจำ ซึ่งจะหักล้างผลกำไรจากการร่าง เมื่อขนาดกลุ่มสูงขึ้น โดยปกติแล้วผู้เชี่ยวชาญที่เปิดใช้งานจะทับซ้อนกันมากขึ้นในลําดับต่างๆ ซึ่งช่วยปรับปรุงการนํากลับมาใช้ซ้ำของน้ำหนักที่โหลด ที่ขนาดกลุ่ม 1 การทับซ้อนนี้จะ จำกัด ซึ่งเป็นสาเหตุที่ดราฟต์เตอร์ 26B A4B อาจไม่ให้ความเร็วที่เพิ่มขึ้นใน แพลตฟอร์มฮาร์ดแวร์ที่ไม่มีการทำงานแบบขนานที่ดี

การเพิ่มประสิทธิภาพ MTP

Gemma 4 มีการปรับปรุงหลายอย่างในไปป์ไลน์การถอดรหัสแบบคาดคะเนมาตรฐาน เพื่อปรับปรุงคุณภาพของโทเค็นที่ร่างไว้และประสิทธิภาพ ดังนี้

  • การฝังอินพุตที่ใช้ร่วมกัน: โมเดลฉบับร่างจะแชร์ตารางการฝังอินพุต กับโมเดลเป้าหมาย
  • การเปิดใช้งานเป้าหมาย: โมเดลฉบับร่างใช้การเปิดใช้งานจากเลเยอร์สุดท้ายของโมเดลเป้าหมาย ต่อท้ายด้วยการฝังโทเค็น และลดขนาดลงไปเป็นมิติข้อมูลของโมเดลร่าง
  • Efficient Embedder: โมเดลจะจัดกลุ่มโทเค็นที่คล้ายกันเป็นคลัสเตอร์เพื่อหลีกเลี่ยงการดำเนินการที่ซับซ้อนในการคาดการณ์ คำศัพท์ทั้งหมด โดยจะระบุคลัสเตอร์ที่มีแนวโน้มมากที่สุดก่อน จากนั้นจึง จำกัดการคำนวณขั้นสุดท้ายให้เฉพาะโทเค็นภายในคลัสเตอร์ที่เลือกเหล่านั้น (E2B และ E4B เท่านั้น)