ภาพรวมโมเดล DiffusionGemma

DiffusionGemma เป็นโมเดลแบบเปิดที่อยู่ในช่วงทดลอง ซึ่งสำรวจการแพร่ข้อความ ซึ่งเป็นแนวทางที่รวดเร็วเป็นพิเศษในการสร้างข้อความ DiffusionGemma สร้างโทเค็นโดยใช้การแพร่แบบไม่ต่อเนื่อง โดยอิงตามสถาปัตยกรรม Gemma 4 แบบ Mixture-of-Experts (MoE) 26B (4B ที่ใช้งานอยู่) โมเดลแบบเปิดนี้เป็นแบบหลายรูปแบบ ซึ่งจัดการอินพุตข้อความ รูปภาพ และวิดีโอเพื่อสร้างเอาต์พุตข้อความ

DiffusionGemma สร้างขึ้นบนพื้นฐาน MoE โดยได้รับการออกแบบมาเพื่อปรับปรุงความเร็วในการสร้าง (โทเค็นต่อวินาที) ในขณะที่ยังคงใช้งานได้ในสภาพแวดล้อมฮาร์ดแวร์ต่างๆ DiffusionGemma สร้างขึ้นจากความก้าวหน้าด้านสถาปัตยกรรมและความสามารถของ Gemma 4 โดยมีฟีเจอร์หลักหลายอย่างดังนี้

  • การแพร่ข้อความแบบไม่ต่อเนื่อง: เปลี่ยนจากการสร้างโทเค็นแบบเป็นเหตุเป็นผลแบบดั้งเดิมเป็นการสุ่มตัวอย่างแบบหลายผืนผ้าใบแบบบล็อกอัตโนมัติ โมเดลจะสร้างข้อความโดยการลดสัญญาณรบกวนของบล็อกโทเค็น (ผืนผ้าใบ) แบบซ้ำๆ ขนานกันเพื่อเพิ่มความเร็วในการถอดรหัสอย่างมาก
  • การประมวลผลแบบหลายรูปแบบ: ยอมรับอินพุตข้อความ รูปภาพ (พร้อมการรองรับอัตราส่วนกว้างยาวและความละเอียดที่หลากหลาย) และวิดีโอโดยกำเนิด (หมายเหตุ: ไม่รองรับอินพุตเสียง)
  • สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัส: ใช้ตัวเข้ารหัสแบบอัตโนมัติเพื่อประมวลผลและแคชบริบทของพรอมต์ ควบคู่ไปกับการลดสัญญาณรบกวนที่ใช้ความสนใจแบบสองทิศทางเหนือผืนผ้าใบการสร้าง
  • ประสิทธิภาพแบบ Mixture-of-Experts (MoE): ใช้ประโยชน์จากการออกแบบ MoE แบบเบาบางซึ่งอิงตามตัวแปร MoE 26B (4B ที่ใช้งานอยู่) ซึ่งมีความสามารถในการใช้เหตุผลเชิงลึกโดยมีค่าใช้จ่ายน้อยที่สุด เมื่อมีการหาปริมาณ โมเดลจะพอดีกับขีดจำกัด VRAM 18 GB ของ GPU สำหรับผู้บริโภค ซึ่งเหมาะสำหรับการดำเนินการในเครื่อง
  • โหมดการคิด: ช่องทางการใช้เหตุผลที่กำหนดค่าได้ในตัวช่วยให้โมเดลคิดทีละขั้นตอนก่อนที่จะแสดงคำตอบสุดท้าย

ข้อเสียเมื่อเทียบกับโมเดลแบบเดิม

แม้ว่าโมเดลภาษาแบบเดิมจะมีประสิทธิภาพสูงสำหรับการใช้งานระบบคลาวด์ขนาดใหญ่เนื่องจากสามารถประมวลผลคำขอหลายพันรายการพร้อมกันได้ แต่การเรียกใช้โมเดลเหล่านี้ในเครื่องสำหรับผู้ใช้รายเดียวจะทำให้ฮาร์ดแวร์ทำงานไม่เต็มประสิทธิภาพ DiffusionGemma แก้ปัญหานี้ด้วยการสร้างบล็อกโทเค็นทั้งหมด 256 รายการพร้อมกันแทนที่จะสร้างโทเค็นทีละรายการ ซึ่งจะช่วยเพิ่มประสิทธิภาพฮาร์ดแวร์ในเครื่องให้สูงสุด

อย่างไรก็ตาม แนวทางนี้มุ่งเน้นไปที่การใช้งานในเครื่องที่มีการเกิดขึ้นพร้อมกันต่ำสำหรับผู้บริโภคอย่างเคร่งครัด เนื่องจากประสิทธิภาพการถอดรหัสแบบขนานจะลดลงภายใต้ปริมาณงานระบบคลาวด์ QPS สูง ข้อได้เปรียบด้านอัตราการส่งข้อมูลจึงมีประสิทธิภาพสูงสุดที่ขนาดกลุ่มต่ำถึงปานกลางบนตัวเร่งความเร็วเดียว

เราขอแนะนำให้ใช้พารามิเตอร์เริ่มต้นต่อไปนี้สำหรับการตั้งค่าการสุ่มตัวอย่างแบบแพร่เพื่อความหน่วงแฝงและคุณภาพที่ดีที่สุด

พารามิเตอร์ ค่าที่แนะนำ ฟังก์ชัน เหตุผล
จำนวนขั้นตอนการลดสัญญาณรบกวนสูงสุด 48 ขอบเขตบนของจำนวนขั้นตอนการลดสัญญาณรบกวนต่อผืนผ้าใบ ขีดจำกัดที่ปลอดภัยสำหรับจำนวนขั้นตอนการลดสัญญาณรบกวน การลดสัญญาณรบกวนจะหยุดในขั้นตอนที่น้อยลงเมื่อเปิดใช้การหยุดแบบปรับเปลี่ยนได้ ซึ่งโดยปกติจะอยู่ที่ 12-16 ขั้นตอน ทั้งนี้ขึ้นอยู่กับงาน
กำหนดเวลาปรับอุณหภูมิ เชิงเส้น 0.8 -> 0.4 กำหนดเวลาการปรับขนาดอุณหภูมิที่เริ่มต้นสูงและลดลงตามจำนวนขั้นตอนการลดสัญญาณรบกวน อุณหภูมิสูง (0.8) กระตุ้นให้เกิดการสำรวจในช่วงแรก ส่วนอุณหภูมิต่ำ (0.4) จะล็อกโทเค็นสุดท้าย
การหยุดก่อนกำหนดแบบปรับเปลี่ยนได้ เกณฑ์เอนโทรปี: 0.005 หยุดการดำเนินการก่อนกำหนดในกรณีต่อไปนี้
ก) เอนโทรปีเฉลี่ยของโมเดลเหนือผืนผ้าใบต่ำกว่าเกณฑ์ และ
ข) การคาดการณ์ของตัวลดสัญญาณรบกวน 2 รายการติดต่อกันยังคงเหมือนเดิม
พรอมต์ที่ง่ายกว่าและงานที่มีโครงสร้าง เช่น โค้ด ต้องใช้ขั้นตอนการลดสัญญาณรบกวนน้อยลง ซึ่งช่วยให้ความเร็วโทเค็นต่อวินาทีเปลี่ยนแปลงได้ตามความซับซ้อนของงาน
การเลือกโทเค็น ขอบเขตเอนโทรปี: 0.1 ในแต่ละขั้นตอน ตัวอย่างจะเลือกโทเค็นที่มีเอนโทรปีต่ำที่สุดเพื่อให้ขอบเขตข้อมูลร่วมกันยังคงต่ำกว่าขอบเขตเอนโทรปี ตัวอย่างจะลดสัญญาณรบกวนโทเค็นที่ไม่ได้เลือกอย่างเต็มที่ ช่วยให้เลือกเฉพาะโทเค็นที่โมเดลค่อนข้างมั่นใจเพื่อปรับผืนผ้าใบ โดยปล่อยให้โทเค็นอื่นๆ ได้รับการปรับแต่งในขั้นตอนการลดสัญญาณรบกวนในภายหลัง

รับใน Hugging Face รับใน Kaggle เข้าถึงใน Vertex

เข้าถึงน้ำหนักของโมเดลทดลอง (เผยแพร่ภายใต้ใบอนุญาต Apache 2.0) ซึ่งช่วยให้คุณใช้งานโมเดลนี้ในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้

ดูข้อมูลเพิ่มเติมเกี่ยวกับสถาปัตยกรรม DiffusionGemma ลองใช้ DiffusionGemma

ปรับแต่ง DiffusionGemma ใช้งาน DiffusionGemma