Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ภาพรวมโมเดล DiffusionGemma

DiffusionGemma เป็นโมเดลแบบเปิดที่อยู่ในช่วงทดลอง ซึ่งสำรวจการแพร่ข้อความ ซึ่งเป็นแนวทางที่รวดเร็วเป็นพิเศษในการสร้างข้อความ DiffusionGemma สร้างโทเค็นโดยใช้การแพร่แบบไม่ต่อเนื่อง โดยอิงตามสถาปัตยกรรม Gemma 4 แบบ Mixture-of-Experts (MoE) 26B (4B ที่ใช้งานอยู่) โมเดลแบบเปิดนี้เป็นแบบหลายรูปแบบ ซึ่งจัดการอินพุตข้อความ รูปภาพ และวิดีโอเพื่อสร้างเอาต์พุตข้อความ

DiffusionGemma สร้างขึ้นบนพื้นฐาน MoE โดยได้รับการออกแบบมาเพื่อปรับปรุงความเร็วในการสร้าง (โทเค็นต่อวินาที) ในขณะที่ยังคงใช้งานได้ในสภาพแวดล้อมฮาร์ดแวร์ต่างๆ DiffusionGemma สร้างขึ้นจากความก้าวหน้าด้านสถาปัตยกรรมและความสามารถของ Gemma 4 โดยมีฟีเจอร์หลักหลายอย่างดังนี้

การแพร่ข้อความแบบไม่ต่อเนื่อง: เปลี่ยนจากการสร้างโทเค็นแบบเป็นเหตุเป็นผลแบบดั้งเดิมเป็นการสุ่มตัวอย่างแบบหลายผืนผ้าใบแบบบล็อกอัตโนมัติ โมเดลจะสร้างข้อความโดยการลดสัญญาณรบกวนของบล็อกโทเค็น (ผืนผ้าใบ) แบบซ้ำๆ ขนานกันเพื่อเพิ่มความเร็วในการถอดรหัสอย่างมาก
การประมวลผลแบบหลายรูปแบบ: ยอมรับอินพุตข้อความ รูปภาพ (พร้อมการรองรับอัตราส่วนกว้างยาวและความละเอียดที่หลากหลาย) และวิดีโอโดยกำเนิด (หมายเหตุ: ไม่รองรับอินพุตเสียง)
สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัส: ใช้ตัวเข้ารหัสแบบอัตโนมัติเพื่อประมวลผลและแคชบริบทของพรอมต์ ควบคู่ไปกับการลดสัญญาณรบกวนที่ใช้ความสนใจแบบสองทิศทางเหนือผืนผ้าใบการสร้าง
ประสิทธิภาพแบบ Mixture-of-Experts (MoE): ใช้ประโยชน์จากการออกแบบ MoE แบบเบาบางซึ่งอิงตามตัวแปร MoE 26B (4B ที่ใช้งานอยู่) ซึ่งมีความสามารถในการใช้เหตุผลเชิงลึกโดยมีค่าใช้จ่ายน้อยที่สุด เมื่อมีการหาปริมาณ โมเดลจะพอดีกับขีดจำกัด VRAM 18 GB ของ GPU สำหรับผู้บริโภค ซึ่งเหมาะสำหรับการดำเนินการในเครื่อง
โหมดการคิด: ช่องทางการใช้เหตุผลที่กำหนดค่าได้ในตัวช่วยให้โมเดลคิดทีละขั้นตอนก่อนที่จะแสดงคำตอบสุดท้าย

ข้อเสียเมื่อเทียบกับโมเดลแบบเดิม

แม้ว่าโมเดลภาษาแบบเดิมจะมีประสิทธิภาพสูงสำหรับการใช้งานระบบคลาวด์ขนาดใหญ่เนื่องจากสามารถประมวลผลคำขอหลายพันรายการพร้อมกันได้ แต่การเรียกใช้โมเดลเหล่านี้ในเครื่องสำหรับผู้ใช้รายเดียวจะทำให้ฮาร์ดแวร์ทำงานไม่เต็มประสิทธิภาพ DiffusionGemma แก้ปัญหานี้ด้วยการสร้างบล็อกโทเค็นทั้งหมด 256 รายการพร้อมกันแทนที่จะสร้างโทเค็นทีละรายการ ซึ่งจะช่วยเพิ่มประสิทธิภาพฮาร์ดแวร์ในเครื่องให้สูงสุด

อย่างไรก็ตาม แนวทางนี้มุ่งเน้นไปที่การใช้งานในเครื่องที่มีการเกิดขึ้นพร้อมกันต่ำสำหรับผู้บริโภคอย่างเคร่งครัด เนื่องจากประสิทธิภาพการถอดรหัสแบบขนานจะลดลงภายใต้ปริมาณงานระบบคลาวด์ QPS สูง ข้อได้เปรียบด้านอัตราการส่งข้อมูลจึงมีประสิทธิภาพสูงสุดที่ขนาดกลุ่มต่ำถึงปานกลางบนตัวเร่งความเร็วเดียว

การกำหนดค่าการแสดงผลที่แนะนำ

เราขอแนะนำให้ใช้พารามิเตอร์เริ่มต้นต่อไปนี้สำหรับการตั้งค่าการสุ่มตัวอย่างแบบแพร่เพื่อความหน่วงแฝงและคุณภาพที่ดีที่สุด

พารามิเตอร์	ค่าที่แนะนำ	ฟังก์ชัน	เหตุผล
จำนวนขั้นตอนการลดสัญญาณรบกวนสูงสุด	48	ขอบเขตบนของจำนวนขั้นตอนการลดสัญญาณรบกวนต่อผืนผ้าใบ	ขีดจำกัดที่ปลอดภัยสำหรับจำนวนขั้นตอนการลดสัญญาณรบกวน การลดสัญญาณรบกวนจะหยุดในขั้นตอนที่น้อยลงเมื่อเปิดใช้การหยุดแบบปรับเปลี่ยนได้ ซึ่งโดยปกติจะอยู่ที่ 12-16 ขั้นตอน ทั้งนี้ขึ้นอยู่กับงาน
กำหนดเวลาปรับอุณหภูมิ	เชิงเส้น 0.8 -> 0.4	กำหนดเวลาการปรับขนาดอุณหภูมิที่เริ่มต้นสูงและลดลงตามจำนวนขั้นตอนการลดสัญญาณรบกวน	อุณหภูมิสูง (0.8) กระตุ้นให้เกิดการสำรวจในช่วงแรก ส่วนอุณหภูมิต่ำ (0.4) จะล็อกโทเค็นสุดท้าย
การหยุดก่อนกำหนดแบบปรับเปลี่ยนได้	เกณฑ์เอนโทรปี: 0.005	หยุดการดำเนินการก่อนกำหนดในกรณีต่อไปนี้ ก) เอนโทรปีเฉลี่ยของโมเดลเหนือผืนผ้าใบต่ำกว่าเกณฑ์ และ ข) การคาดการณ์ของตัวลดสัญญาณรบกวน 2 รายการติดต่อกันยังคงเหมือนเดิม	พรอมต์ที่ง่ายกว่าและงานที่มีโครงสร้าง เช่น โค้ด ต้องใช้ขั้นตอนการลดสัญญาณรบกวนน้อยลง ซึ่งช่วยให้ความเร็วโทเค็นต่อวินาทีเปลี่ยนแปลงได้ตามความซับซ้อนของงาน
การเลือกโทเค็น	ขอบเขตเอนโทรปี: 0.1	ในแต่ละขั้นตอน ตัวอย่างจะเลือกโทเค็นที่มีเอนโทรปีต่ำที่สุดเพื่อให้ขอบเขตข้อมูลร่วมกันยังคงต่ำกว่าขอบเขตเอนโทรปี ตัวอย่างจะลดสัญญาณรบกวนโทเค็นที่ไม่ได้เลือกอย่างเต็มที่	ช่วยให้เลือกเฉพาะโทเค็นที่โมเดลค่อนข้างมั่นใจเพื่อปรับผืนผ้าใบ โดยปล่อยให้โทเค็นอื่นๆ ได้รับการปรับแต่งในขั้นตอนการลดสัญญาณรบกวนในภายหลัง

รับใน Hugging Face รับใน Kaggle เข้าถึงใน Vertex

เข้าถึงน้ำหนักของโมเดลทดลอง (เผยแพร่ภายใต้ใบอนุญาต Apache 2.0) ซึ่งช่วยให้คุณใช้งานโมเดลนี้ในโปรเจ็กต์และแอปพลิเคชันของคุณเองได้

ดูข้อมูลเพิ่มเติมเกี่ยวกับสถาปัตยกรรม DiffusionGemma ลองใช้ DiffusionGemma

ปรับแต่ง DiffusionGemma ใช้งาน DiffusionGemma