DiffusionGemma เป็นโมเดลแบบเปิดที่อยู่ในช่วงทดลอง ซึ่งสำรวจการแพร่ข้อความ ซึ่งเป็นแนวทางที่รวดเร็วเป็นพิเศษในการสร้างข้อความ DiffusionGemma สร้างโทเค็นโดยใช้การแพร่แบบไม่ต่อเนื่อง โดยอิงตามสถาปัตยกรรม Gemma 4 แบบ Mixture-of-Experts (MoE) 26B (4B ที่ใช้งานอยู่) โมเดลแบบเปิดนี้เป็นแบบหลายรูปแบบ ซึ่งจัดการอินพุตข้อความ รูปภาพ และวิดีโอเพื่อสร้างเอาต์พุตข้อความ
DiffusionGemma สร้างขึ้นบนพื้นฐาน MoE โดยได้รับการออกแบบมาเพื่อปรับปรุงความเร็วในการสร้าง (โทเค็นต่อวินาที) ในขณะที่ยังคงใช้งานได้ในสภาพแวดล้อมฮาร์ดแวร์ต่างๆ DiffusionGemma สร้างขึ้นจากความก้าวหน้าด้านสถาปัตยกรรมและความสามารถของ Gemma 4 โดยมีฟีเจอร์หลักหลายอย่างดังนี้
- การแพร่ข้อความแบบไม่ต่อเนื่อง: เปลี่ยนจากการสร้างโทเค็นแบบเป็นเหตุเป็นผลแบบดั้งเดิมเป็นการสุ่มตัวอย่างแบบหลายผืนผ้าใบแบบบล็อกอัตโนมัติ โมเดลจะสร้างข้อความโดยการลดสัญญาณรบกวนของบล็อกโทเค็น (ผืนผ้าใบ) แบบซ้ำๆ ขนานกันเพื่อเพิ่มความเร็วในการถอดรหัสอย่างมาก
- การประมวลผลแบบหลายรูปแบบ: ยอมรับอินพุตข้อความ รูปภาพ (พร้อมการรองรับอัตราส่วนกว้างยาวและความละเอียดที่หลากหลาย) และวิดีโอโดยกำเนิด (หมายเหตุ: ไม่รองรับอินพุตเสียง)
- สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัส: ใช้ตัวเข้ารหัสแบบอัตโนมัติเพื่อประมวลผลและแคชบริบทของพรอมต์ ควบคู่ไปกับการลดสัญญาณรบกวนที่ใช้ความสนใจแบบสองทิศทางเหนือผืนผ้าใบการสร้าง
- ประสิทธิภาพแบบ Mixture-of-Experts (MoE): ใช้ประโยชน์จากการออกแบบ MoE แบบเบาบางซึ่งอิงตามตัวแปร MoE 26B (4B ที่ใช้งานอยู่) ซึ่งมีความสามารถในการใช้เหตุผลเชิงลึกโดยมีค่าใช้จ่ายน้อยที่สุด เมื่อมีการหาปริมาณ โมเดลจะพอดีกับขีดจำกัด VRAM 18 GB ของ GPU สำหรับผู้บริโภค ซึ่งเหมาะสำหรับการดำเนินการในเครื่อง
- โหมดการคิด: ช่องทางการใช้เหตุผลที่กำหนดค่าได้ในตัวช่วยให้โมเดลคิดทีละขั้นตอนก่อนที่จะแสดงคำตอบสุดท้าย
ข้อเสียเมื่อเทียบกับโมเดลแบบเดิม
แม้ว่าโมเดลภาษาแบบเดิมจะมีประสิทธิภาพสูงสำหรับการใช้งานระบบคลาวด์ขนาดใหญ่เนื่องจากสามารถประมวลผลคำขอหลายพันรายการพร้อมกันได้ แต่การเรียกใช้โมเดลเหล่านี้ในเครื่องสำหรับผู้ใช้รายเดียวจะทำให้ฮาร์ดแวร์ทำงานไม่เต็มประสิทธิภาพ DiffusionGemma แก้ปัญหานี้ด้วยการสร้างบล็อกโทเค็นทั้งหมด 256 รายการพร้อมกันแทนที่จะสร้างโทเค็นทีละรายการ ซึ่งจะช่วยเพิ่มประสิทธิภาพฮาร์ดแวร์ในเครื่องให้สูงสุด
อย่างไรก็ตาม แนวทางนี้มุ่งเน้นไปที่การใช้งานในเครื่องที่มีการเกิดขึ้นพร้อมกันต่ำสำหรับผู้บริโภคอย่างเคร่งครัด เนื่องจากประสิทธิภาพการถอดรหัสแบบขนานจะลดลงภายใต้ปริมาณงานระบบคลาวด์ QPS สูง ข้อได้เปรียบด้านอัตราการส่งข้อมูลจึงมีประสิทธิภาพสูงสุดที่ขนาดกลุ่มต่ำถึงปานกลางบนตัวเร่งความเร็วเดียว
การกำหนดค่าการแสดงผลที่แนะนำ
เราขอแนะนำให้ใช้พารามิเตอร์เริ่มต้นต่อไปนี้สำหรับการตั้งค่าการสุ่มตัวอย่างแบบแพร่เพื่อความหน่วงแฝงและคุณภาพที่ดีที่สุด
| พารามิเตอร์ | ค่าที่แนะนำ | ฟังก์ชัน | เหตุผล |
|---|---|---|---|
| จำนวนขั้นตอนการลดสัญญาณรบกวนสูงสุด | 48 | ขอบเขตบนของจำนวนขั้นตอนการลดสัญญาณรบกวนต่อผืนผ้าใบ | ขีดจำกัดที่ปลอดภัยสำหรับจำนวนขั้นตอนการลดสัญญาณรบกวน การลดสัญญาณรบกวนจะหยุดในขั้นตอนที่น้อยลงเมื่อเปิดใช้การหยุดแบบปรับเปลี่ยนได้ ซึ่งโดยปกติจะอยู่ที่ 12-16 ขั้นตอน ทั้งนี้ขึ้นอยู่กับงาน |
| กำหนดเวลาปรับอุณหภูมิ | เชิงเส้น 0.8 -> 0.4 | กำหนดเวลาการปรับขนาดอุณหภูมิที่เริ่มต้นสูงและลดลงตามจำนวนขั้นตอนการลดสัญญาณรบกวน | อุณหภูมิสูง (0.8) กระตุ้นให้เกิดการสำรวจในช่วงแรก ส่วนอุณหภูมิต่ำ (0.4) จะล็อกโทเค็นสุดท้าย |
| การหยุดก่อนกำหนดแบบปรับเปลี่ยนได้ | เกณฑ์เอนโทรปี: 0.005 | หยุดการดำเนินการก่อนกำหนดในกรณีต่อไปนี้ ก) เอนโทรปีเฉลี่ยของโมเดลเหนือผืนผ้าใบต่ำกว่าเกณฑ์ และ ข) การคาดการณ์ของตัวลดสัญญาณรบกวน 2 รายการติดต่อกันยังคงเหมือนเดิม |
พรอมต์ที่ง่ายกว่าและงานที่มีโครงสร้าง เช่น โค้ด ต้องใช้ขั้นตอนการลดสัญญาณรบกวนน้อยลง ซึ่งช่วยให้ความเร็วโทเค็นต่อวินาทีเปลี่ยนแปลงได้ตามความซับซ้อนของงาน |
| การเลือกโทเค็น | ขอบเขตเอนโทรปี: 0.1 | ในแต่ละขั้นตอน ตัวอย่างจะเลือกโทเค็นที่มีเอนโทรปีต่ำที่สุดเพื่อให้ขอบเขตข้อมูลร่วมกันยังคงต่ำกว่าขอบเขตเอนโทรปี ตัวอย่างจะลดสัญญาณรบกวนโทเค็นที่ไม่ได้เลือกอย่างเต็มที่ | ช่วยให้เลือกเฉพาะโทเค็นที่โมเดลค่อนข้างมั่นใจเพื่อปรับผืนผ้าใบ โดยปล่อยให้โทเค็นอื่นๆ ได้รับการปรับแต่งในขั้นตอนการลดสัญญาณรบกวนในภายหลัง |
รับใน Hugging Face รับใน Kaggle เข้าถึงใน Vertex
เข้าถึงน้ำหนักของโมเดลทดลอง (เผยแพร่ภายใต้ใบอนุญาต Apache 2.0) ซึ่งช่วยให้คุณใช้งานโมเดลนี้ในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้
ดูข้อมูลเพิ่มเติมเกี่ยวกับสถาปัตยกรรม DiffusionGemma ลองใช้ DiffusionGemma