การ์ดโมเดล DiffusionGemma

Hugging Face | GitHub | Launch Blog | เอกสาร
License: Apache 2.0 | Authors: Google DeepMind

DiffusionGemma เป็นโมเดล Generative ที่ Google DeepMind สร้างขึ้น DiffusionGemma สร้างโทเค็นโดยใช้การแพร่แบบไม่ต่อเนื่องตามสถาปัตยกรรม Gemma 4 แบบ Mixture-of-Experts (MoE) 26B A4B โมเดลแบบ Open-Weights นี้เป็นแบบหลายรูปแบบ ซึ่งจัดการอินพุตข้อความ รูปภาพ และวิดีโอเพื่อสร้างเอาต์พุตข้อความ

DiffusionGemma สร้างขึ้นบนพื้นฐาน MoE และออกแบบมาเพื่อปรับปรุงความเร็วในการสร้าง (โทเค็นต่อวินาที) ในขณะที่ยังคงติดตั้งใช้งานได้ในสภาพแวดล้อมฮาร์ดแวร์ต่างๆ DiffusionGemma สร้างขึ้นจากการพัฒนาสถาปัตยกรรมและความสามารถของ Gemma 4 โดยมีฟีเจอร์หลักหลายอย่างดังนี้

  • การแพร่ข้อความแบบไม่ต่อเนื่อง \- เปลี่ยนจากการถดถอยอัตโนมัติแบบโทเค็นต่อโทเค็นเป็นการสุ่มตัวอย่างแบบหลาย Canvas ที่ถดถอยอัตโนมัติแบบบล็อก โดยจะสร้างข้อความด้วยการลดสัญญาณรบกวนบล็อกโทเค็น (Canvas) แบบวนซ้ำแบบขนาน ซึ่งช่วยเพิ่มความเร็วในการถอดรหัสได้อย่างมาก
  • การประมวลผลอินพุตหลายรูปแบบ \- ประมวลผลอินพุตข้อความ รูปภาพ (รองรับอัตราส่วนกว้างยาวและความละเอียดที่ปรับเปลี่ยนได้) และวิดีโอที่สลับกันเพื่อสร้างเอาต์พุตข้อความ
  • สถาปัตยกรรม Encoder-Decoder \- ใช้ Encoder แบบถดถอยอัตโนมัติเพื่อประมวลผลและแคชบริบทของพรอมต์ โดยจับคู่กับ Decoder ที่ใช้การพิจารณาทั้ง 2 ทิศทางกับ Canvas การสร้าง
  • ประสิทธิภาพของ Mixture-of-Experts (MoE) \- ใช้การออกแบบ MoE แบบเบาบาง (ผู้เชี่ยวชาญที่ใช้งานอยู่ 8 คนจากทั้งหมด 128 คน) เพื่อให้มีความสามารถในการให้เหตุผลที่แข็งแกร่งในขณะที่ยังคงใช้หน่วยความจำน้อย ซึ่งเหมาะสำหรับการดำเนินการในเครื่อง
  • โหมดการคิด (การให้เหตุผล) \- ออกแบบมาให้เป็นเครื่องมือให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิดที่กำหนดค่าได้
  • เพิ่มประสิทธิภาพสำหรับการอนุมานขนาดชุดข้อมูลขนาดเล็ก \- ออกแบบมาโดยเฉพาะสำหรับการสร้างความเร็วสูงที่มีเวลาในการตอบสนองต่ำบนตัวเร่งความเร็วเดียวที่มีความสามารถ
  • การรองรับพรอมต์ระบบแบบเนทีฟ \- เช่นเดียวกับ Gemma 4 ที่รองรับการอัปเดตบทบาท system ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น

ภาพรวมของโมเดล

DiffusionGemma ได้รับการออกแบบมาเพื่อลดปัญหาคอขวดตามลำดับของโมเดลภาษาเชิงเหตุและผลมาตรฐาน โดยใช้สถาปัตยกรรม Encoder-Decoder ที่ปรับให้เหมาะสมกับความเร็วในการอนุมานโดยเฉพาะ

Encoder ทำงานในความจุการเติมล่วงหน้า โดยประมวลผลพรอมต์เริ่มต้นและสร้างแคช KV จากนั้น Decoder จะใช้การพิจารณาทั้ง 2 ทิศทางเพื่อประมวลผลบล็อกอินพุต (Canvas) ของโทเค็น โดยเข้าถึงบริบทที่แคชไว้ผ่านการพิจารณาข้าม

ระหว่างการอนุมาน DiffusionGemma จะใช้การสุ่มตัวอย่างแบบหลาย Canvas โมเดลจะลดสัญญาณรบกวนบล็อกโทเค็นทั้งหมดแบบวนซ้ำโดยใช้ตัวอย่างการแพร่ แทนที่จะสร้างโทเค็นทีละรายการ เมื่อ Canvas ลดสัญญาณรบกวนทั้งหมดแล้ว Encoder จะประมวลผลและเพิ่ม Canvas ลงในแคช KV หลังจากนั้นโมเดลจะสร้าง Canvas ถัดไป แนวทางแบบถดถอยอัตโนมัติแบบบล็อกนี้ช่วยให้สร้างข้อความได้เร็วขึ้น

DiffusionGemma

| พารามิเตอร์ทั้งหมด | 25.2 พันล้าน | | พารามิเตอร์ที่ใช้งานอยู่ | 3.8 พันล้าน | | เลเยอร์ | 30 | | หน้าต่างแบบเลื่อน | 1024 โทเค็น | | ความยาวบริบท | สูงสุด 256,000 โทเค็น | | ความยาว Canvas | 256 | | ขนาดคำศัพท์ | 262,000 | | จำนวนผู้เชี่ยวชาญ | 8 คนที่ใช้งานอยู่ / 128 คนทั้งหมด และ 1 คนที่ใช้ร่วมกัน | | รูปแบบที่รองรับ | ข้อความ รูปภาพ | | พารามิเตอร์ Encoder การมองเห็น | ~550 ล้าน |

ผลการเปรียบเทียบ

โมเดลเหล่านี้ได้รับการประเมินกับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อครอบคลุมการสร้างข้อความในด้านต่างๆ ผลการประเมินที่ทำเครื่องหมายไว้ในตารางเป็นผลการประเมินโมเดลที่ปรับแต่งตามคำแนะนำ โดยใช้ตัวอย่าง Entropy Bound (EB) ที่แนะนำ (ดูแนวทางปฏิบัติแนะนำด้านล่าง)

เกณฑ์เปรียบเทียบ DiffusionGemma 26B A4B Gemma 4 26B A4B
MMLU Pro 77.6% 82.6%
AIME 2026 แบบไม่มีเครื่องมือ 69.1% 88.3%
LiveCodeBench v6 69.1% 77.1%
ELO ของ Codeforces 1429 1718
GPQA Diamond 73.2% 82.3%
Tau2 (ค่าเฉลี่ยมากกว่า 3) 56.2% 68.2%
HLE แบบไม่มีเครื่องมือ 11.0% 8.7%
HLE พร้อมการค้นหา 11.9% 17.2%
BigBench ยากพิเศษ 47.6% 64.8%
MMMLU 81.5% 86.3%
Vision
MMMU Pro 54.3% 73.8%
OmniDocBench 1.5 (ระยะทางแก้ไขเฉลี่ย ยิ่งต่ำยิ่งดี) 0.319 0.149
MATH-Vision 70.5% 82.4%
MedXPertQA MM 49.0% 58.1%
บริบทแบบยาว
MRCR v2 8 เข็ม 128,000 (ค่าเฉลี่ย) 32.0% 44.1%

ความสามารถหลัก

DiffusionGemma จัดการงานต่างๆ ได้มากมายทั้งในส่วนของข้อความและการมองเห็น ความสามารถหลักๆ มีดังนี้

  • การสร้างความเร็วสูง - การลดสัญญาณรบกวนโทเค็น 256 รายการแบบขนานผ่านการสุ่มตัวอย่างการแพร่ ช่วยให้เวลาในการตอบสนองต่ำโดยสร้างโทเค็น 15-20 รายการต่อการส่งต่อ 1 ครั้ง ซึ่งช่วยให้ความเร็วในการสร้างต่อผู้ใช้เกิน 1,100 โทเค็นต่อวินาทีในการตั้งค่าขนาดกลุ่มต่ำ (H100, FP8)
  • การคำนวณเวลาในการอนุมานแบบปรับเปลี่ยนได้ - พรอมต์ที่ง่ายขึ้นและงานที่มีโครงสร้าง เช่น โค้ด ต้องใช้ขั้นตอนการลดสัญญาณรบกวนน้อยลง ซึ่งช่วยให้ความเร็วโทเค็นต่อวินาทีแบบไดนามิก ขึ้นอยู่กับความซับซ้อนของงาน
  • การคิด \- โหมดการให้เหตุผลในตัวที่ช่วยให้โมเดลคิดทีละขั้นตอนก่อนตอบ
  • บริบทแบบยาว \- หน้าต่างบริบทสูงสุด 256,000 โทเค็น
  • การทำความเข้าใจรูปภาพ \- การตรวจจับออบเจ็กต์ การแยกวิเคราะห์เอกสาร/PDF การทำความเข้าใจหน้าจอและ UI การทำความเข้าใจแผนภูมิ OCR (รวมถึงหลายภาษา) การจดจำลายมือ และการชี้ ระบบจะประมวลผลรูปภาพที่อัตราส่วนกว้างยาวและความละเอียดที่ปรับเปลี่ยนได้
  • การทำความเข้าใจวิดีโอ \- วิเคราะห์และอธิบายเนื้อหาวิดีโอโดยการประมวลผลลำดับเฟรม
  • อินพุตหลายรูปแบบที่สลับกัน \- ผสมรูปภาพ วิดีโอ และข้อความภายในพรอมต์เดียวเพื่อการให้เหตุผลที่ต้องใช้บริบทจำนวนมาก
  • การเรียกใช้ฟังก์ชัน \- การรองรับการใช้เครื่องมือที่มีโครงสร้างแบบเนทีฟ ซึ่งช่วยให้เวิร์กโฟลว์ของเอเจนต์ทำงานได้
  • การเขียนโค้ดและการให้เหตุผล \- สามารถสร้างโค้ด เขียนโค้ดให้เสร็จสมบูรณ์ และให้เหตุผลเชิงตรรกะทีละขั้นตอน
  • หลายภาษา \- รองรับภาษามากกว่า 35 ภาษาแบบพร้อมใช้งาน และได้รับการฝึกฝนล่วงหน้าในภาษามากกว่า 140 ภาษา

แนวทางปฏิบัติแนะนำ

ใช้การกำหนดค่าและแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

1. การตั้งค่าการสุ่มตัวอย่างการแพร่

ใช้การกำหนดค่าการสุ่มตัวอย่างแบบมาตรฐานต่อไปนี้ในทุกกรณีการใช้งาน

  • วิธี: การสุ่มตัวอย่างการแพร่ที่มีการลดสัญญาณรบกวนแบบจำกัดเอนโทรปีและการหยุดแบบปรับเปลี่ยนได้
  • การกำหนดค่าการสุ่มตัวอย่าง:
    • จำนวนขั้นตอนการลดสัญญาณรบกวนสูงสุด = 48
    • กำหนดเวลาปรับอุณหภูมิ (สำหรับการปรับรูปร่าง Logit): การลดลงแบบเชิงเส้นจาก 0.8 → 0.4
    • การเลือกโทเค็น: ในแต่ละขั้นตอน ตัวอย่างจะเลือกโทเค็นที่มีเอนโทรปีต่ำสุดเพื่อให้ขอบเขตข้อมูลร่วมกันอยู่ต่ำกว่าขอบเขตเอนโทรปี = 0.1
    • การลดสัญญาณรบกวนโทเค็น: ตัวอย่างจะลดสัญญาณรบกวนโทเค็นที่ไม่ได้เลือกทั้งหมด
  • การหยุดแบบปรับเปลี่ยนได้: การสุ่มตัวอย่างจะสิ้นสุดก่อนเวลาหากเป็นไปตามเงื่อนไขทั้ง 2 ข้อต่อไปนี้พร้อมกัน
    • การคาดการณ์ที่เชื่อมั่นได้: เอนโทรปีของโมเดลเฉลี่ยใน Canvas อยู่ต่ำกว่าเกณฑ์เอนโทรปี = 0.005
    • การคาดการณ์ที่เสถียร: การคาดการณ์โทเค็นที่มีความน่าจะเป็นสูงสุดยังคงเหมือนเดิมในขั้นตอนการลดสัญญาณรบกวน 2 ขั้นตอนติดต่อกัน

2. การกำหนดค่าโหมดการคิด

เราใช้บทบาท system, assistant และ user มาตรฐานเช่นเดียวกับโมเดล Gemma 4 ใช้โทเค็นควบคุมต่อไปนี้เพื่อจัดการกระบวนการคิดอย่างเหมาะสม

  • ทริกเกอร์การคิด: การคิดจะเปิดใช้โดยการใส่โทเค็น <|think|> ที่จุดเริ่มต้นของพรอมต์ระบบ หากต้องการปิดใช้การคิด ให้นำโทเค็นออก (โปรดทราบว่าระบบอาจยังคงส่งช่องการคิดที่ว่างเปล่าออกมา)
  • การสร้างมาตรฐาน: เมื่อเปิดใช้การคิด โมเดลจะแสดง เหตุผลภายในตามด้วยคำตอบสุดท้ายโดยใช้โครงสร้างนี้: <|channel>thought\n[Internal reasoning]<channel|>.
  • ลักษณะการทำงานของการคิดที่ปิดใช้: หากปิดใช้การคิด โมเดลจะ ยังคงสร้างแท็กแต่มีบล็อกการคิดที่ว่างเปล่า: <|channel>thought\n<channel|>[Final answer]

โปรดทราบว่าไลบรารีจำนวนมาก เช่น Transformers จะจัดการความซับซ้อนของเทมเพลตแชทให้คุณ

3. การสนทนาหลายรอบ

  • ไม่มีเนื้อหาการคิดในประวัติ: ในการสนทนาไปมา เอาต์พุตโมเดลในประวัติควรมีเพียงการตอบกลับสุดท้าย ห้ามเพิ่มความคิดจากการตอบกลับของโมเดลก่อนหน้าก่อนที่ผู้ใช้จะเริ่มตอบกลับครั้งถัดไป

4. ลำดับรูปแบบ

  • หากต้องการประสิทธิภาพสูงสุดด้วยอินพุตหลายรูปแบบ ให้วางเนื้อหารูปภาพก่อน ข้อความในพรอมต์

5. ความละเอียดรูปภาพที่ปรับเปลี่ยนได้

นอกเหนือจากอัตราส่วนกว้างยาวที่ปรับเปลี่ยนได้แล้ว DiffusionGemma ยังรองรับความละเอียดรูปภาพที่ปรับเปลี่ยนได้ผ่านงบประมาณโทเค็นภาพที่กำหนดค่าได้ ซึ่งควบคุมจำนวนโทเค็นที่ใช้แสดงรูปภาพ งบประมาณโทเค็นที่สูงขึ้นจะคงรายละเอียดภาพไว้มากขึ้นโดยต้องใช้การประมวลผลเพิ่มเติม ในขณะที่งบประมาณที่ต่ำลงจะช่วยให้การอนุมานเร็วขึ้นสำหรับงานที่ไม่จำเป็นต้องมีความเข้าใจที่ละเอียด

  • งบประมาณโทเค็นที่รองรับ ได้แก่ 70, 140, 280, 560 และ 1120
    • ใช้งบประมาณ ต่ำลง สำหรับการจัดประเภท การใส่คำบรรยาย หรือการทำความเข้าใจวิดีโอ ซึ่งการอนุมานและการประมวลผลเฟรมจำนวนมากที่เร็วขึ้นมีความสำคัญมากกว่ารายละเอียดที่ละเอียด
    • ใช้งบประมาณ สูงขึ้น สำหรับงานต่างๆ เช่น OCR การแยกวิเคราะห์เอกสาร หรือการอ่านข้อความขนาดเล็ก

6. ความยาววิดีโอ

โมเดลทั้งหมดรองรับอินพุตรูปภาพและสามารถประมวลผลวิดีโอเป็นเฟรมได้ วิดีโอรองรับความยาวสูงสุด 60 วินาที โดยสมมติว่าระบบจะประมวลผลรูปภาพที่ 1 เฟรมต่อวินาที

ข้อมูลโมเดล

ข้อมูลที่ใช้ในการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

ชุดข้อมูลการฝึกล่วงหน้าของเราเป็นชุดข้อมูลขนาดใหญ่และหลากหลายที่ครอบคลุมโดเมนและรูปแบบต่างๆ มากมาย ซึ่งรวมถึงเอกสารเว็บ โค้ด รูปภาพ เสียง โดยมีวันที่สิ้นสุดคือมกราคม 2025 โดยมีองค์ประกอบหลักดังนี้

  • เอกสารเว็บ: ชุดข้อมูลข้อความเว็บที่หลากหลายช่วยให้โมเดลได้สัมผัสกับรูปแบบภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกมีเนื้อหาในภาษามากกว่า 140 ภาษา
  • โค้ด: การให้โมเดลได้สัมผัสกับโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งจะช่วยเพิ่มความสามารถในการสร้างโค้ดและทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
  • คณิตศาสตร์: การฝึกกับข้อความทางคณิตศาสตร์จะช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การแสดงสัญลักษณ์ และตอบคำถามทางคณิตศาสตร์
  • รูปภาพ: รูปภาพที่หลากหลายช่วยให้โมเดลทำงานวิเคราะห์รูปภาพและแยกข้อมูลภาพได้

การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้มีความสำคัญอย่างยิ่งต่อการฝึกโมเดลหลายรูปแบบที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลต่างๆ ได้มากมาย

การประมวลผลข้อมูลล่วงหน้า

ต่อไปนี้คือวิธีการทำความสะอาดข้อมูลและการกรองข้อมูลหลักที่ใช้กับข้อมูลฝึกฝน

  • การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้แน่ใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่
  • การกรองข้อมูลที่ละเอียดอ่อน: เราใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกจากชุดข้อมูลการฝึก เพื่อให้โมเดลที่ได้รับการฝึกล่วงหน้าของ Gemma มีความปลอดภัยและเชื่อถือได้
  • วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตาม นโยบายของเรา

จริยธรรมและความปลอดภัย

เมื่อโมเดลแบบเปิดกลายเป็นศูนย์กลางของโครงสร้างพื้นฐานขององค์กร ต้นกำเนิดและความปลอดภัยจึงมีความสำคัญสูงสุด DiffusionGemma ที่พัฒนาโดย Google DeepMind ผ่านการประเมินความปลอดภัยอย่างเข้มงวดเช่นเดียวกับโมเดล Gemini ที่เป็นกรรมสิทธิ์ของเรา

แนวทางการประเมิน

DiffusionGemma ได้รับการพัฒนาโดยความร่วมมือกับทีมความปลอดภัยและทีม AI ที่มีความรับผิดชอบภายใน เราได้ทำการประเมินแบบอัตโนมัติและการประเมินจากเจ้าหน้าที่หลายครั้งเพื่อช่วยปรับปรุงความปลอดภัยของโมเดล การประเมินเหล่านี้สอดคล้องกับ หลักการเกี่ยวกับ AI ของ Google รวมถึงนโยบายความปลอดภัย ซึ่ง มีเป้าหมายเพื่อป้องกันไม่ให้โมเดล Generative AI ของเราสร้างเนื้อหาที่เป็นอันตราย ซึ่งรวมถึงเนื้อหาต่อไปนี้

  • เนื้อหาที่เกี่ยวข้องกับสื่อที่มีการล่วงละเมิดทางเพศเด็กและการแสวงหาประโยชน์จากเด็ก
  • เนื้อหาที่เป็นอันตราย (เช่น การส่งเสริมการฆ่าตัวตาย หรือการให้คำแนะนำเกี่ยวกับกิจกรรมที่อาจก่อให้เกิดอันตรายในโลกแห่งความเป็นจริง)
  • เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง
  • วาจาสร้างความเกลียดชัง (เช่น การลดทอนความเป็นมนุษย์ของสมาชิกในกลุ่มที่ได้รับการคุ้มครอง)
  • การคุกคาม (เช่น การสนับสนุนให้ใช้ความรุนแรงต่อผู้อื่น)

ผลการประเมิน

สำหรับการทดสอบความปลอดภัยในทุกด้าน เราเห็นการปรับปรุงที่สำคัญในทุกหมวดหมู่ของความปลอดภัยของเนื้อหาเมื่อเทียบกับโมเดล Gemma รุ่นก่อนๆ โดยรวมแล้ว DiffusionGemma มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 และ 3n อย่างมากในการปรับปรุงความปลอดภัย ในขณะที่ยังคงการปฏิเสธที่ไม่สมเหตุสมผลไว้ในระดับต่ำเช่นเดียวกับโมเดล Gemma 4 เราได้ทำการทดสอบทั้งหมดโดยไม่มีตัวกรองความปลอดภัยโดยเจตนาเพื่อประเมินความสามารถดิบและลักษณะการทำงานพื้นฐานของโมเดล ทั้งสำหรับข้อความเป็นข้อความและรูปภาพเป็นข้อความ รวมถึงในโมเดลทุกขนาด โมเดลมีการละเมิดนโยบายน้อยที่สุด และแสดงการปรับปรุงที่สำคัญเมื่อเทียบกับโมเดล Gemma รุ่นก่อนๆ

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

การใช้งานที่ตั้งใจไว้

โมเดลหลายรูปแบบ (สามารถประมวลผลการมองเห็น ภาษา และ/หรือเสียง) มีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น จุดประสงค์ของรายการนี้คือเพื่อให้ข้อมูลบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล

  • การสร้างเนื้อหาและการสื่อสาร
    • การสร้างข้อความ: สร้างข้อความรูปแบบสร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความทางการตลาด และอีเมลฉบับร่าง
    • แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับการบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
    • การสรุปข้อความ: สร้างสรุปที่กระชับของคลังข้อความ เอกสารงานวิจัย หรือรายงาน
    • การแยกข้อมูลรูปภาพ: แยก ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารแบบข้อความ
  • การวิจัยและการศึกษา
    • การวิจัยการประมวลผลภาษาธรรมชาติ (NLP) และ VLM: เป็นพื้นฐานให้นักวิจัยได้ทดลองใช้เทคนิค VLM และ NLP พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขา
    • เครื่องมือการเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือให้ฝึกเขียน
    • การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยการสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

  • ข้อมูลการฝึก
    • คุณภาพและความหลากหลายของข้อมูลฝึกฝนมีอิทธิพลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลฝึกฝนอาจนำไปสู่ข้อจำกัดในการตอบกลับของโมเดล
    • ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดพื้นที่หัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
  • บริบทและความซับซ้อนของงาน
    • โมเดลทำงานได้ดีกับงานที่สามารถกำหนดกรอบด้วยพรอมต์และคำแนะนำที่ชัดเจน งานแบบปลายเปิดหรือซับซ้อนมากอาจเป็นเรื่องท้าทาย
    • ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากปริมาณบริบทที่ให้ไว้ (โดยทั่วไปบริบทที่ยาวขึ้นจะนำไปสู่เอาต์พุตที่ดีขึ้นจนถึงจุดหนึ่ง)
  • ความกำกวมและความแตกต่างของภาษา
    • ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ โมเดลอาจมีปัญหาในการทำความเข้าใจความแตกต่างเล็กน้อย การประชดประชัน หรือภาษาเชิงเปรียบเทียบ
  • ความถูกต้องตามข้อเท็จจริง
    • โมเดลสร้างการตอบกลับโดยอิงตามข้อมูลที่เรียนรู้จากชุดข้อมูลการฝึก แต่โมเดลไม่ใช่ฐานความรู้ โมเดลอาจสร้างข้อความจริงที่ไม่ถูกต้องหรือล้าสมัย
  • สามัญสำนึก
    • โมเดลอาศัยรูปแบบทางสถิติในภาษา โมเดลอาจขาดความสามารถในการใช้การให้เหตุผลตามสามัญสำนึกในบางสถานการณ์

ข้อพิจารณาและความเสี่ยงด้านจริยธรรม

ในการสร้างโมเดลภาษาการมองเห็นแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

  • อคติและความยุติธรรม
    • VLM ที่ได้รับการฝึกฝนด้วยข้อมูลข้อความและรูปภาพขนาดใหญ่จากโลกแห่งความเป็นจริงอาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการฝึก DiffusionGemma ผ่านการตรวจสอบอย่างรอบคอบ การประมวลผลข้อมูลอินพุตล่วงหน้า และการประเมินหลังการฝึกตามที่รายงานไว้ในการ์ดนี้เพื่อช่วยลดความเสี่ยงของอคติเหล่านี้
  • ข้อมูลที่ไม่ถูกต้องและการใช้งานในทางที่ผิด
  • ความโปร่งใสและความรับผิดชอบ
    • การ์ดโมเดลนี้สรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
    • โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบมอบโอกาสในการแชร์นวัตกรรมโดยทำให้เทคโนโลยี VLM เข้าถึงได้สำหรับนักพัฒนาแอปและนักวิจัยทั่วทั้งระบบนิเวศ AI

ความเสี่ยงที่ระบุและการลดความเสี่ยง:

  • การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสำคัญอย่างยิ่ง เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
  • การใช้งานในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาแอปและผู้ใช้ปลายทางสามารถช่วยลดการใช้งาน VLM ที่เป็นอันตรายได้ เราได้จัดเตรียมแหล่งข้อมูลเพื่อการศึกษาและกลไกการรายงานให้ผู้ใช้ได้แจ้งการใช้งานในทางที่ผิด
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกฝนด้วยข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
  • การคงอยู่ของอคติ: เราขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และสำรวจเทคนิคการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ

สิทธิประโยชน์

ในขณะที่เปิดตัว โมเดลภาษาการมองเห็นแบบเปิดนี้มีเวลาในการตอบสนองต่ำและมีประสิทธิภาพสูง ซึ่งเป็นตัวเลือกที่น่าสนใจสำหรับนักพัฒนาแอปและผู้ที่สนใจในการวิจัยโมเดลภาษาการแพร่ โมเดลได้รับการออกแบบตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน