Gemma 4 เปิดตัวพร้อมอินพุตข้อความ เสียง และรูปภาพ รวมถึงหน้าต่างบริบทแบบยาวที่มีโทเค็นให้ถึง 2.56 แสนโทเค็น ดูข้อมูลเพิ่มเติม

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

การ์ดโมเดล DiffusionGemma

Hugging Face | GitHub | Launch Blog | เอกสาร
License: Apache 2.0 | Authors: Google DeepMind

DiffusionGemma เป็นโมเดล Generative ที่ Google DeepMind สร้างขึ้น DiffusionGemma สร้างโทเค็นโดยใช้การแพร่แบบไม่ต่อเนื่องตามสถาปัตยกรรม Gemma 4 แบบ Mixture-of-Experts (MoE) 26B A4B โมเดลแบบ Open-Weights นี้เป็นแบบหลายรูปแบบ ซึ่งจัดการอินพุตข้อความ รูปภาพ และวิดีโอเพื่อสร้างเอาต์พุตข้อความ

DiffusionGemma สร้างขึ้นบนพื้นฐาน MoE และออกแบบมาเพื่อปรับปรุงความเร็วในการสร้าง (โทเค็นต่อวินาที) ในขณะที่ยังคงติดตั้งใช้งานได้ในสภาพแวดล้อมฮาร์ดแวร์ต่างๆ DiffusionGemma สร้างขึ้นจากการพัฒนาสถาปัตยกรรมและความสามารถของ Gemma 4 โดยมีฟีเจอร์หลักหลายอย่างดังนี้

การแพร่ข้อความแบบไม่ต่อเนื่อง \- เปลี่ยนจากการถดถอยอัตโนมัติแบบโทเค็นต่อโทเค็นเป็นการสุ่มตัวอย่างแบบหลาย Canvas ที่ถดถอยอัตโนมัติแบบบล็อก โดยจะสร้างข้อความด้วยการลดสัญญาณรบกวนบล็อกโทเค็น (Canvas) แบบวนซ้ำแบบขนาน ซึ่งช่วยเพิ่มความเร็วในการถอดรหัสได้อย่างมาก
การประมวลผลอินพุตหลายรูปแบบ \- ประมวลผลอินพุตข้อความ รูปภาพ (รองรับอัตราส่วนกว้างยาวและความละเอียดที่ปรับเปลี่ยนได้) และวิดีโอที่สลับกันเพื่อสร้างเอาต์พุตข้อความ
สถาปัตยกรรม Encoder-Decoder \- ใช้ Encoder แบบถดถอยอัตโนมัติเพื่อประมวลผลและแคชบริบทของพรอมต์ โดยจับคู่กับ Decoder ที่ใช้การพิจารณาทั้ง 2 ทิศทางกับ Canvas การสร้าง
ประสิทธิภาพของ Mixture-of-Experts (MoE) \- ใช้การออกแบบ MoE แบบเบาบาง (ผู้เชี่ยวชาญที่ใช้งานอยู่ 8 คนจากทั้งหมด 128 คน) เพื่อให้มีความสามารถในการให้เหตุผลที่แข็งแกร่งในขณะที่ยังคงใช้หน่วยความจำน้อย ซึ่งเหมาะสำหรับการดำเนินการในเครื่อง
โหมดการคิด (การให้เหตุผล) \- ออกแบบมาให้เป็นเครื่องมือให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิดที่กำหนดค่าได้
เพิ่มประสิทธิภาพสำหรับการอนุมานขนาดชุดข้อมูลขนาดเล็ก \- ออกแบบมาโดยเฉพาะสำหรับการสร้างความเร็วสูงที่มีเวลาในการตอบสนองต่ำบนตัวเร่งความเร็วเดียวที่มีความสามารถ
การรองรับพรอมต์ระบบแบบเนทีฟ \- เช่นเดียวกับ Gemma 4 ที่รองรับการอัปเดตบทบาท system ซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น

ภาพรวมของโมเดล

DiffusionGemma ได้รับการออกแบบมาเพื่อลดปัญหาคอขวดตามลำดับของโมเดลภาษาเชิงเหตุและผลมาตรฐาน โดยใช้สถาปัตยกรรม Encoder-Decoder ที่ปรับให้เหมาะสมกับความเร็วในการอนุมานโดยเฉพาะ

Encoder ทำงานในความจุการเติมล่วงหน้า โดยประมวลผลพรอมต์เริ่มต้นและสร้างแคช KV จากนั้น Decoder จะใช้การพิจารณาทั้ง 2 ทิศทางเพื่อประมวลผลบล็อกอินพุต (Canvas) ของโทเค็น โดยเข้าถึงบริบทที่แคชไว้ผ่านการพิจารณาข้าม

ระหว่างการอนุมาน DiffusionGemma จะใช้การสุ่มตัวอย่างแบบหลาย Canvas โมเดลจะลดสัญญาณรบกวนบล็อกโทเค็นทั้งหมดแบบวนซ้ำโดยใช้ตัวอย่างการแพร่ แทนที่จะสร้างโทเค็นทีละรายการ เมื่อ Canvas ลดสัญญาณรบกวนทั้งหมดแล้ว Encoder จะประมวลผลและเพิ่ม Canvas ลงในแคช KV หลังจากนั้นโมเดลจะสร้าง Canvas ถัดไป แนวทางแบบถดถอยอัตโนมัติแบบบล็อกนี้ช่วยให้สร้างข้อความได้เร็วขึ้น

DiffusionGemma

ผลการเปรียบเทียบ

โมเดลเหล่านี้ได้รับการประเมินกับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อครอบคลุมการสร้างข้อความในด้านต่างๆ ผลการประเมินที่ทำเครื่องหมายไว้ในตารางเป็นผลการประเมินโมเดลที่ปรับแต่งตามคำแนะนำ โดยใช้ตัวอย่าง Entropy Bound (EB) ที่แนะนำ (ดูแนวทางปฏิบัติแนะนำด้านล่าง)

เกณฑ์เปรียบเทียบ	DiffusionGemma 26B A4B	Gemma 4 26B A4B
MMLU Pro	77.6%	82.6%
AIME 2026 แบบไม่มีเครื่องมือ	69.1%	88.3%
LiveCodeBench v6	69.1%	77.1%
ELO ของ Codeforces	1429	1718
GPQA Diamond	73.2%	82.3%
Tau2 (ค่าเฉลี่ยมากกว่า 3)	56.2%	68.2%
HLE แบบไม่มีเครื่องมือ	11.0%	8.7%
HLE พร้อมการค้นหา	11.9%	17.2%
BigBench ยากพิเศษ	47.6%	64.8%
MMMLU	81.5%	86.3%
Vision
MMMU Pro	54.3%	73.8%
OmniDocBench 1.5 (ระยะทางแก้ไขเฉลี่ย ยิ่งต่ำยิ่งดี)	0.319	0.149
MATH-Vision	70.5%	82.4%
MedXPertQA MM	49.0%	58.1%
บริบทแบบยาว
MRCR v2 8 เข็ม 128,000 (ค่าเฉลี่ย)	32.0%	44.1%

ความสามารถหลัก

DiffusionGemma จัดการงานต่างๆ ได้มากมายทั้งในส่วนของข้อความและการมองเห็น ความสามารถหลักๆ มีดังนี้

การสร้างความเร็วสูง - การลดสัญญาณรบกวนโทเค็น 256 รายการแบบขนานผ่านการสุ่มตัวอย่างการแพร่ ช่วยให้เวลาในการตอบสนองต่ำโดยสร้างโทเค็น 15-20 รายการต่อการส่งต่อ 1 ครั้ง ซึ่งช่วยให้ความเร็วในการสร้างต่อผู้ใช้เกิน 1,100 โทเค็นต่อวินาทีในการตั้งค่าขนาดกลุ่มต่ำ (H100, FP8)
การคำนวณเวลาในการอนุมานแบบปรับเปลี่ยนได้ - พรอมต์ที่ง่ายขึ้นและงานที่มีโครงสร้าง เช่น โค้ด ต้องใช้ขั้นตอนการลดสัญญาณรบกวนน้อยลง ซึ่งช่วยให้ความเร็วโทเค็นต่อวินาทีแบบไดนามิก ขึ้นอยู่กับความซับซ้อนของงาน
การคิด \- โหมดการให้เหตุผลในตัวที่ช่วยให้โมเดลคิดทีละขั้นตอนก่อนตอบ
บริบทแบบยาว \- หน้าต่างบริบทสูงสุด 256,000 โทเค็น
การทำความเข้าใจรูปภาพ \- การตรวจจับออบเจ็กต์ การแยกวิเคราะห์เอกสาร/PDF การทำความเข้าใจหน้าจอและ UI การทำความเข้าใจแผนภูมิ OCR (รวมถึงหลายภาษา) การจดจำลายมือ และการชี้ ระบบจะประมวลผลรูปภาพที่อัตราส่วนกว้างยาวและความละเอียดที่ปรับเปลี่ยนได้
การทำความเข้าใจวิดีโอ \- วิเคราะห์และอธิบายเนื้อหาวิดีโอโดยการประมวลผลลำดับเฟรม
อินพุตหลายรูปแบบที่สลับกัน \- ผสมรูปภาพ วิดีโอ และข้อความภายในพรอมต์เดียวเพื่อการให้เหตุผลที่ต้องใช้บริบทจำนวนมาก
การเรียกใช้ฟังก์ชัน \- การรองรับการใช้เครื่องมือที่มีโครงสร้างแบบเนทีฟ ซึ่งช่วยให้เวิร์กโฟลว์ของเอเจนต์ทำงานได้
การเขียนโค้ดและการให้เหตุผล \- สามารถสร้างโค้ด เขียนโค้ดให้เสร็จสมบูรณ์ และให้เหตุผลเชิงตรรกะทีละขั้นตอน
หลายภาษา \- รองรับภาษามากกว่า 35 ภาษาแบบพร้อมใช้งาน และได้รับการฝึกฝนล่วงหน้าในภาษามากกว่า 140 ภาษา

แนวทางปฏิบัติแนะนำ

ใช้การกำหนดค่าและแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

1. การตั้งค่าการสุ่มตัวอย่างการแพร่

ใช้การกำหนดค่าการสุ่มตัวอย่างแบบมาตรฐานต่อไปนี้ในทุกกรณีการใช้งาน

วิธี: การสุ่มตัวอย่างการแพร่ที่มีการลดสัญญาณรบกวนแบบจำกัดเอนโทรปีและการหยุดแบบปรับเปลี่ยนได้
การกำหนดค่าการสุ่มตัวอย่าง:
- จำนวนขั้นตอนการลดสัญญาณรบกวนสูงสุด = 48
- กำหนดเวลาปรับอุณหภูมิ (สำหรับการปรับรูปร่าง Logit): การลดลงแบบเชิงเส้นจาก 0.8 → 0.4
- การเลือกโทเค็น: ในแต่ละขั้นตอน ตัวอย่างจะเลือกโทเค็นที่มีเอนโทรปีต่ำสุดเพื่อให้ขอบเขตข้อมูลร่วมกันอยู่ต่ำกว่าขอบเขตเอนโทรปี = 0.1
- การลดสัญญาณรบกวนโทเค็น: ตัวอย่างจะลดสัญญาณรบกวนโทเค็นที่ไม่ได้เลือกทั้งหมด
การหยุดแบบปรับเปลี่ยนได้: การสุ่มตัวอย่างจะสิ้นสุดก่อนเวลาหากเป็นไปตามเงื่อนไขทั้ง 2 ข้อต่อไปนี้พร้อมกัน
- การคาดการณ์ที่เชื่อมั่นได้: เอนโทรปีของโมเดลเฉลี่ยใน Canvas อยู่ต่ำกว่าเกณฑ์เอนโทรปี = 0.005
- การคาดการณ์ที่เสถียร: การคาดการณ์โทเค็นที่มีความน่าจะเป็นสูงสุดยังคงเหมือนเดิมในขั้นตอนการลดสัญญาณรบกวน 2 ขั้นตอนติดต่อกัน

2. การกำหนดค่าโหมดการคิด

เราใช้บทบาท system, assistant และ user มาตรฐานเช่นเดียวกับโมเดล Gemma 4 ใช้โทเค็นควบคุมต่อไปนี้เพื่อจัดการกระบวนการคิดอย่างเหมาะสม

ทริกเกอร์การคิด: การคิดจะเปิดใช้โดยการใส่โทเค็น <|think|> ที่จุดเริ่มต้นของพรอมต์ระบบ หากต้องการปิดใช้การคิด ให้นำโทเค็นออก (โปรดทราบว่าระบบอาจยังคงส่งช่องการคิดที่ว่างเปล่าออกมา)
การสร้างมาตรฐาน: เมื่อเปิดใช้การคิด โมเดลจะแสดง เหตุผลภายในตามด้วยคำตอบสุดท้ายโดยใช้โครงสร้างนี้: <|channel>thought\n[Internal reasoning]<channel|>.
ลักษณะการทำงานของการคิดที่ปิดใช้: หากปิดใช้การคิด โมเดลจะ ยังคงสร้างแท็กแต่มีบล็อกการคิดที่ว่างเปล่า: <|channel>thought\n<channel|>[Final answer]

โปรดทราบว่าไลบรารีจำนวนมาก เช่น Transformers จะจัดการความซับซ้อนของเทมเพลตแชทให้คุณ

3. การสนทนาหลายรอบ

ไม่มีเนื้อหาการคิดในประวัติ: ในการสนทนาไปมา เอาต์พุตโมเดลในประวัติควรมีเพียงการตอบกลับสุดท้าย ห้ามเพิ่มความคิดจากการตอบกลับของโมเดลก่อนหน้าก่อนที่ผู้ใช้จะเริ่มตอบกลับครั้งถัดไป

4. ลำดับรูปแบบ

หากต้องการประสิทธิภาพสูงสุดด้วยอินพุตหลายรูปแบบ ให้วางเนื้อหารูปภาพก่อน ข้อความในพรอมต์

5. ความละเอียดรูปภาพที่ปรับเปลี่ยนได้

นอกเหนือจากอัตราส่วนกว้างยาวที่ปรับเปลี่ยนได้แล้ว DiffusionGemma ยังรองรับความละเอียดรูปภาพที่ปรับเปลี่ยนได้ผ่านงบประมาณโทเค็นภาพที่กำหนดค่าได้ ซึ่งควบคุมจำนวนโทเค็นที่ใช้แสดงรูปภาพ งบประมาณโทเค็นที่สูงขึ้นจะคงรายละเอียดภาพไว้มากขึ้นโดยต้องใช้การประมวลผลเพิ่มเติม ในขณะที่งบประมาณที่ต่ำลงจะช่วยให้การอนุมานเร็วขึ้นสำหรับงานที่ไม่จำเป็นต้องมีความเข้าใจที่ละเอียด

งบประมาณโทเค็นที่รองรับ ได้แก่ 70, 140, 280, 560 และ 1120
- ใช้งบประมาณ ต่ำลง สำหรับการจัดประเภท การใส่คำบรรยาย หรือการทำความเข้าใจวิดีโอ ซึ่งการอนุมานและการประมวลผลเฟรมจำนวนมากที่เร็วขึ้นมีความสำคัญมากกว่ารายละเอียดที่ละเอียด
- ใช้งบประมาณ สูงขึ้น สำหรับงานต่างๆ เช่น OCR การแยกวิเคราะห์เอกสาร หรือการอ่านข้อความขนาดเล็ก

6. ความยาววิดีโอ

โมเดลทั้งหมดรองรับอินพุตรูปภาพและสามารถประมวลผลวิดีโอเป็นเฟรมได้ วิดีโอรองรับความยาวสูงสุด 60 วินาที โดยสมมติว่าระบบจะประมวลผลรูปภาพที่ 1 เฟรมต่อวินาที

ข้อมูลโมเดล

ข้อมูลที่ใช้ในการฝึกโมเดลและวิธีประมวลผลข้อมูล

ชุดข้อมูลการฝึก

ชุดข้อมูลการฝึกล่วงหน้าของเราเป็นชุดข้อมูลขนาดใหญ่และหลากหลายที่ครอบคลุมโดเมนและรูปแบบต่างๆ มากมาย ซึ่งรวมถึงเอกสารเว็บ โค้ด รูปภาพ เสียง โดยมีวันที่สิ้นสุดคือมกราคม 2025 โดยมีองค์ประกอบหลักดังนี้

เอกสารเว็บ: ชุดข้อมูลข้อความเว็บที่หลากหลายช่วยให้โมเดลได้สัมผัสกับรูปแบบภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกมีเนื้อหาในภาษามากกว่า 140 ภาษา
โค้ด: การให้โมเดลได้สัมผัสกับโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งจะช่วยเพิ่มความสามารถในการสร้างโค้ดและทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
คณิตศาสตร์: การฝึกกับข้อความทางคณิตศาสตร์จะช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การแสดงสัญลักษณ์ และตอบคำถามทางคณิตศาสตร์
รูปภาพ: รูปภาพที่หลากหลายช่วยให้โมเดลทำงานวิเคราะห์รูปภาพและแยกข้อมูลภาพได้

การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้มีความสำคัญอย่างยิ่งต่อการฝึกโมเดลหลายรูปแบบที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลต่างๆ ได้มากมาย

การประมวลผลข้อมูลล่วงหน้า

ต่อไปนี้คือวิธีการทำความสะอาดข้อมูลและการกรองข้อมูลหลักที่ใช้กับข้อมูลฝึกฝน

การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้แน่ใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่
การกรองข้อมูลที่ละเอียดอ่อน: เราใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกจากชุดข้อมูลการฝึก เพื่อให้โมเดลที่ได้รับการฝึกล่วงหน้าของ Gemma มีความปลอดภัยและเชื่อถือได้
วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตาม นโยบายของเรา

จริยธรรมและความปลอดภัย

เมื่อโมเดลแบบเปิดกลายเป็นศูนย์กลางของโครงสร้างพื้นฐานขององค์กร ต้นกำเนิดและความปลอดภัยจึงมีความสำคัญสูงสุด DiffusionGemma ที่พัฒนาโดย Google DeepMind ผ่านการประเมินความปลอดภัยอย่างเข้มงวดเช่นเดียวกับโมเดล Gemini ที่เป็นกรรมสิทธิ์ของเรา

แนวทางการประเมิน

DiffusionGemma ได้รับการพัฒนาโดยความร่วมมือกับทีมความปลอดภัยและทีม AI ที่มีความรับผิดชอบภายใน เราได้ทำการประเมินแบบอัตโนมัติและการประเมินจากเจ้าหน้าที่หลายครั้งเพื่อช่วยปรับปรุงความปลอดภัยของโมเดล การประเมินเหล่านี้สอดคล้องกับ หลักการเกี่ยวกับ AI ของ Google รวมถึงนโยบายความปลอดภัย ซึ่ง มีเป้าหมายเพื่อป้องกันไม่ให้โมเดล Generative AI ของเราสร้างเนื้อหาที่เป็นอันตราย ซึ่งรวมถึงเนื้อหาต่อไปนี้

เนื้อหาที่เกี่ยวข้องกับสื่อที่มีการล่วงละเมิดทางเพศเด็กและการแสวงหาประโยชน์จากเด็ก
เนื้อหาที่เป็นอันตราย (เช่น การส่งเสริมการฆ่าตัวตาย หรือการให้คำแนะนำเกี่ยวกับกิจกรรมที่อาจก่อให้เกิดอันตรายในโลกแห่งความเป็นจริง)
เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง
วาจาสร้างความเกลียดชัง (เช่น การลดทอนความเป็นมนุษย์ของสมาชิกในกลุ่มที่ได้รับการคุ้มครอง)
การคุกคาม (เช่น การสนับสนุนให้ใช้ความรุนแรงต่อผู้อื่น)

ผลการประเมิน

สำหรับการทดสอบความปลอดภัยในทุกด้าน เราเห็นการปรับปรุงที่สำคัญในทุกหมวดหมู่ของความปลอดภัยของเนื้อหาเมื่อเทียบกับโมเดล Gemma รุ่นก่อนๆ โดยรวมแล้ว DiffusionGemma มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 และ 3n อย่างมากในการปรับปรุงความปลอดภัย ในขณะที่ยังคงการปฏิเสธที่ไม่สมเหตุสมผลไว้ในระดับต่ำเช่นเดียวกับโมเดล Gemma 4 เราได้ทำการทดสอบทั้งหมดโดยไม่มีตัวกรองความปลอดภัยโดยเจตนาเพื่อประเมินความสามารถดิบและลักษณะการทำงานพื้นฐานของโมเดล ทั้งสำหรับข้อความเป็นข้อความและรูปภาพเป็นข้อความ รวมถึงในโมเดลทุกขนาด โมเดลมีการละเมิดนโยบายน้อยที่สุด และแสดงการปรับปรุงที่สำคัญเมื่อเทียบกับโมเดล Gemma รุ่นก่อนๆ

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

การใช้งานที่ตั้งใจไว้

โมเดลหลายรูปแบบ (สามารถประมวลผลการมองเห็น ภาษา และ/หรือเสียง) มีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น จุดประสงค์ของรายการนี้คือเพื่อให้ข้อมูลบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล

การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: สร้างข้อความรูปแบบสร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความทางการตลาด และอีเมลฉบับร่าง
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับการบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของคลังข้อความ เอกสารงานวิจัย หรือรายงาน
- การแยกข้อมูลรูปภาพ: แยก ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารแบบข้อความ
การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP) และ VLM: เป็นพื้นฐานให้นักวิจัยได้ทดลองใช้เทคนิค VLM และ NLP พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขา
- เครื่องมือการเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือให้ฝึกเขียน
- การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยการสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง

ข้อจำกัด

ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลฝึกฝนมีอิทธิพลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลฝึกฝนอาจนำไปสู่ข้อจำกัดในการตอบกลับของโมเดล
- ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดพื้นที่หัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
บริบทและความซับซ้อนของงาน
- โมเดลทำงานได้ดีกับงานที่สามารถกำหนดกรอบด้วยพรอมต์และคำแนะนำที่ชัดเจน งานแบบปลายเปิดหรือซับซ้อนมากอาจเป็นเรื่องท้าทาย
- ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากปริมาณบริบทที่ให้ไว้ (โดยทั่วไปบริบทที่ยาวขึ้นจะนำไปสู่เอาต์พุตที่ดีขึ้นจนถึงจุดหนึ่ง)
ความกำกวมและความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ โมเดลอาจมีปัญหาในการทำความเข้าใจความแตกต่างเล็กน้อย การประชดประชัน หรือภาษาเชิงเปรียบเทียบ
ความถูกต้องตามข้อเท็จจริง
- โมเดลสร้างการตอบกลับโดยอิงตามข้อมูลที่เรียนรู้จากชุดข้อมูลการฝึก แต่โมเดลไม่ใช่ฐานความรู้ โมเดลอาจสร้างข้อความจริงที่ไม่ถูกต้องหรือล้าสมัย
สามัญสำนึก
- โมเดลอาศัยรูปแบบทางสถิติในภาษา โมเดลอาจขาดความสามารถในการใช้การให้เหตุผลตามสามัญสำนึกในบางสถานการณ์

ข้อพิจารณาและความเสี่ยงด้านจริยธรรม

ในการสร้างโมเดลภาษาการมองเห็นแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ

อคติและความยุติธรรม
- VLM ที่ได้รับการฝึกฝนด้วยข้อมูลข้อความและรูปภาพขนาดใหญ่จากโลกแห่งความเป็นจริงอาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการฝึก DiffusionGemma ผ่านการตรวจสอบอย่างรอบคอบ การประมวลผลข้อมูลอินพุตล่วงหน้า และการประเมินหลังการฝึกตามที่รายงานไว้ในการ์ดนี้เพื่อช่วยลดความเสี่ยงของอคติเหล่านี้
ข้อมูลที่ไม่ถูกต้องและการใช้งานในทางที่ผิด
- VLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เราได้ให้หลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดู ชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ
ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้สรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบมอบโอกาสในการแชร์นวัตกรรมโดยทำให้เทคโนโลยี VLM เข้าถึงได้สำหรับนักพัฒนาแอปและนักวิจัยทั่วทั้งระบบนิเวศ AI

ความเสี่ยงที่ระบุและการลดความเสี่ยง:

การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสำคัญอย่างยิ่ง เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
การใช้งานในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาแอปและผู้ใช้ปลายทางสามารถช่วยลดการใช้งาน VLM ที่เป็นอันตรายได้ เราได้จัดเตรียมแหล่งข้อมูลเพื่อการศึกษาและกลไกการรายงานให้ผู้ใช้ได้แจ้งการใช้งานในทางที่ผิด
การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกฝนด้วยข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
การคงอยู่ของอคติ: เราขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และสำรวจเทคนิคการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ

สิทธิประโยชน์

ในขณะที่เปิดตัว โมเดลภาษาการมองเห็นแบบเปิดนี้มีเวลาในการตอบสนองต่ำและมีประสิทธิภาพสูง ซึ่งเป็นตัวเลือกที่น่าสนใจสำหรับนักพัฒนาแอปและผู้ที่สนใจในการวิจัยโมเดลภาษาการแพร่ โมเดลได้รับการออกแบบตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน