Hugging Face |
GitHub |
Launch Blog |
เอกสาร
License: Apache 2.0 | Authors: Google DeepMind
DiffusionGemma เป็นโมเดล Generative ที่ Google DeepMind สร้างขึ้น DiffusionGemma สร้างโทเค็นโดยใช้การแพร่แบบไม่ต่อเนื่องตามสถาปัตยกรรม Gemma 4 แบบ Mixture-of-Experts (MoE) 26B A4B โมเดลแบบ Open-Weights นี้เป็นแบบหลายรูปแบบ ซึ่งจัดการอินพุตข้อความ รูปภาพ และวิดีโอเพื่อสร้างเอาต์พุตข้อความ
DiffusionGemma สร้างขึ้นบนพื้นฐาน MoE และออกแบบมาเพื่อปรับปรุงความเร็วในการสร้าง (โทเค็นต่อวินาที) ในขณะที่ยังคงติดตั้งใช้งานได้ในสภาพแวดล้อมฮาร์ดแวร์ต่างๆ DiffusionGemma สร้างขึ้นจากการพัฒนาสถาปัตยกรรมและความสามารถของ Gemma 4 โดยมีฟีเจอร์หลักหลายอย่างดังนี้
- การแพร่ข้อความแบบไม่ต่อเนื่อง \- เปลี่ยนจากการถดถอยอัตโนมัติแบบโทเค็นต่อโทเค็นเป็นการสุ่มตัวอย่างแบบหลาย Canvas ที่ถดถอยอัตโนมัติแบบบล็อก โดยจะสร้างข้อความด้วยการลดสัญญาณรบกวนบล็อกโทเค็น (Canvas) แบบวนซ้ำแบบขนาน ซึ่งช่วยเพิ่มความเร็วในการถอดรหัสได้อย่างมาก
- การประมวลผลอินพุตหลายรูปแบบ \- ประมวลผลอินพุตข้อความ รูปภาพ (รองรับอัตราส่วนกว้างยาวและความละเอียดที่ปรับเปลี่ยนได้) และวิดีโอที่สลับกันเพื่อสร้างเอาต์พุตข้อความ
- สถาปัตยกรรม Encoder-Decoder \- ใช้ Encoder แบบถดถอยอัตโนมัติเพื่อประมวลผลและแคชบริบทของพรอมต์ โดยจับคู่กับ Decoder ที่ใช้การพิจารณาทั้ง 2 ทิศทางกับ Canvas การสร้าง
- ประสิทธิภาพของ Mixture-of-Experts (MoE) \- ใช้การออกแบบ MoE แบบเบาบาง (ผู้เชี่ยวชาญที่ใช้งานอยู่ 8 คนจากทั้งหมด 128 คน) เพื่อให้มีความสามารถในการให้เหตุผลที่แข็งแกร่งในขณะที่ยังคงใช้หน่วยความจำน้อย ซึ่งเหมาะสำหรับการดำเนินการในเครื่อง
- โหมดการคิด (การให้เหตุผล) \- ออกแบบมาให้เป็นเครื่องมือให้เหตุผลที่มีความสามารถสูง พร้อมโหมดการคิดที่กำหนดค่าได้
- เพิ่มประสิทธิภาพสำหรับการอนุมานขนาดชุดข้อมูลขนาดเล็ก \- ออกแบบมาโดยเฉพาะสำหรับการสร้างความเร็วสูงที่มีเวลาในการตอบสนองต่ำบนตัวเร่งความเร็วเดียวที่มีความสามารถ
- การรองรับพรอมต์ระบบแบบเนทีฟ \- เช่นเดียวกับ Gemma 4 ที่รองรับการอัปเดตบทบาท
systemซึ่งช่วยให้การสนทนามีโครงสร้างและควบคุมได้มากขึ้น
ภาพรวมของโมเดล
DiffusionGemma ได้รับการออกแบบมาเพื่อลดปัญหาคอขวดตามลำดับของโมเดลภาษาเชิงเหตุและผลมาตรฐาน โดยใช้สถาปัตยกรรม Encoder-Decoder ที่ปรับให้เหมาะสมกับความเร็วในการอนุมานโดยเฉพาะ
Encoder ทำงานในความจุการเติมล่วงหน้า โดยประมวลผลพรอมต์เริ่มต้นและสร้างแคช KV จากนั้น Decoder จะใช้การพิจารณาทั้ง 2 ทิศทางเพื่อประมวลผลบล็อกอินพุต (Canvas) ของโทเค็น โดยเข้าถึงบริบทที่แคชไว้ผ่านการพิจารณาข้าม
ระหว่างการอนุมาน DiffusionGemma จะใช้การสุ่มตัวอย่างแบบหลาย Canvas โมเดลจะลดสัญญาณรบกวนบล็อกโทเค็นทั้งหมดแบบวนซ้ำโดยใช้ตัวอย่างการแพร่ แทนที่จะสร้างโทเค็นทีละรายการ เมื่อ Canvas ลดสัญญาณรบกวนทั้งหมดแล้ว Encoder จะประมวลผลและเพิ่ม Canvas ลงในแคช KV หลังจากนั้นโมเดลจะสร้าง Canvas ถัดไป แนวทางแบบถดถอยอัตโนมัติแบบบล็อกนี้ช่วยให้สร้างข้อความได้เร็วขึ้น
DiffusionGemma
| พารามิเตอร์ทั้งหมด | 25.2 พันล้าน | | พารามิเตอร์ที่ใช้งานอยู่ | 3.8 พันล้าน | | เลเยอร์ | 30 | | หน้าต่างแบบเลื่อน | 1024 โทเค็น | | ความยาวบริบท | สูงสุด 256,000 โทเค็น | | ความยาว Canvas | 256 | | ขนาดคำศัพท์ | 262,000 | | จำนวนผู้เชี่ยวชาญ | 8 คนที่ใช้งานอยู่ / 128 คนทั้งหมด และ 1 คนที่ใช้ร่วมกัน | | รูปแบบที่รองรับ | ข้อความ รูปภาพ | | พารามิเตอร์ Encoder การมองเห็น | ~550 ล้าน |
ผลการเปรียบเทียบ
โมเดลเหล่านี้ได้รับการประเมินกับชุดข้อมูลและเมตริกต่างๆ จำนวนมากเพื่อครอบคลุมการสร้างข้อความในด้านต่างๆ ผลการประเมินที่ทำเครื่องหมายไว้ในตารางเป็นผลการประเมินโมเดลที่ปรับแต่งตามคำแนะนำ โดยใช้ตัวอย่าง Entropy Bound (EB) ที่แนะนำ (ดูแนวทางปฏิบัติแนะนำด้านล่าง)
| เกณฑ์เปรียบเทียบ | DiffusionGemma 26B A4B | Gemma 4 26B A4B |
|---|---|---|
| MMLU Pro | 77.6% | 82.6% |
| AIME 2026 แบบไม่มีเครื่องมือ | 69.1% | 88.3% |
| LiveCodeBench v6 | 69.1% | 77.1% |
| ELO ของ Codeforces | 1429 | 1718 |
| GPQA Diamond | 73.2% | 82.3% |
| Tau2 (ค่าเฉลี่ยมากกว่า 3) | 56.2% | 68.2% |
| HLE แบบไม่มีเครื่องมือ | 11.0% | 8.7% |
| HLE พร้อมการค้นหา | 11.9% | 17.2% |
| BigBench ยากพิเศษ | 47.6% | 64.8% |
| MMMLU | 81.5% | 86.3% |
| Vision | ||
| MMMU Pro | 54.3% | 73.8% |
| OmniDocBench 1.5 (ระยะทางแก้ไขเฉลี่ย ยิ่งต่ำยิ่งดี) | 0.319 | 0.149 |
| MATH-Vision | 70.5% | 82.4% |
| MedXPertQA MM | 49.0% | 58.1% |
| บริบทแบบยาว | ||
| MRCR v2 8 เข็ม 128,000 (ค่าเฉลี่ย) | 32.0% | 44.1% |
ความสามารถหลัก
DiffusionGemma จัดการงานต่างๆ ได้มากมายทั้งในส่วนของข้อความและการมองเห็น ความสามารถหลักๆ มีดังนี้
- การสร้างความเร็วสูง - การลดสัญญาณรบกวนโทเค็น 256 รายการแบบขนานผ่านการสุ่มตัวอย่างการแพร่ ช่วยให้เวลาในการตอบสนองต่ำโดยสร้างโทเค็น 15-20 รายการต่อการส่งต่อ 1 ครั้ง ซึ่งช่วยให้ความเร็วในการสร้างต่อผู้ใช้เกิน 1,100 โทเค็นต่อวินาทีในการตั้งค่าขนาดกลุ่มต่ำ (H100, FP8)
- การคำนวณเวลาในการอนุมานแบบปรับเปลี่ยนได้ - พรอมต์ที่ง่ายขึ้นและงานที่มีโครงสร้าง เช่น โค้ด ต้องใช้ขั้นตอนการลดสัญญาณรบกวนน้อยลง ซึ่งช่วยให้ความเร็วโทเค็นต่อวินาทีแบบไดนามิก ขึ้นอยู่กับความซับซ้อนของงาน
- การคิด \- โหมดการให้เหตุผลในตัวที่ช่วยให้โมเดลคิดทีละขั้นตอนก่อนตอบ
- บริบทแบบยาว \- หน้าต่างบริบทสูงสุด 256,000 โทเค็น
- การทำความเข้าใจรูปภาพ \- การตรวจจับออบเจ็กต์ การแยกวิเคราะห์เอกสาร/PDF การทำความเข้าใจหน้าจอและ UI การทำความเข้าใจแผนภูมิ OCR (รวมถึงหลายภาษา) การจดจำลายมือ และการชี้ ระบบจะประมวลผลรูปภาพที่อัตราส่วนกว้างยาวและความละเอียดที่ปรับเปลี่ยนได้
- การทำความเข้าใจวิดีโอ \- วิเคราะห์และอธิบายเนื้อหาวิดีโอโดยการประมวลผลลำดับเฟรม
- อินพุตหลายรูปแบบที่สลับกัน \- ผสมรูปภาพ วิดีโอ และข้อความภายในพรอมต์เดียวเพื่อการให้เหตุผลที่ต้องใช้บริบทจำนวนมาก
- การเรียกใช้ฟังก์ชัน \- การรองรับการใช้เครื่องมือที่มีโครงสร้างแบบเนทีฟ ซึ่งช่วยให้เวิร์กโฟลว์ของเอเจนต์ทำงานได้
- การเขียนโค้ดและการให้เหตุผล \- สามารถสร้างโค้ด เขียนโค้ดให้เสร็จสมบูรณ์ และให้เหตุผลเชิงตรรกะทีละขั้นตอน
- หลายภาษา \- รองรับภาษามากกว่า 35 ภาษาแบบพร้อมใช้งาน และได้รับการฝึกฝนล่วงหน้าในภาษามากกว่า 140 ภาษา
แนวทางปฏิบัติแนะนำ
ใช้การกำหนดค่าและแนวทางปฏิบัติแนะนำต่อไปนี้เพื่อให้ได้ประสิทธิภาพที่ดีที่สุด
1. การตั้งค่าการสุ่มตัวอย่างการแพร่
ใช้การกำหนดค่าการสุ่มตัวอย่างแบบมาตรฐานต่อไปนี้ในทุกกรณีการใช้งาน
- วิธี: การสุ่มตัวอย่างการแพร่ที่มีการลดสัญญาณรบกวนแบบจำกัดเอนโทรปีและการหยุดแบบปรับเปลี่ยนได้
- การกำหนดค่าการสุ่มตัวอย่าง:
- จำนวนขั้นตอนการลดสัญญาณรบกวนสูงสุด = 48
- กำหนดเวลาปรับอุณหภูมิ (สำหรับการปรับรูปร่าง Logit): การลดลงแบบเชิงเส้นจาก 0.8 → 0.4
- การเลือกโทเค็น: ในแต่ละขั้นตอน ตัวอย่างจะเลือกโทเค็นที่มีเอนโทรปีต่ำสุดเพื่อให้ขอบเขตข้อมูลร่วมกันอยู่ต่ำกว่าขอบเขตเอนโทรปี = 0.1
- การลดสัญญาณรบกวนโทเค็น: ตัวอย่างจะลดสัญญาณรบกวนโทเค็นที่ไม่ได้เลือกทั้งหมด
- การหยุดแบบปรับเปลี่ยนได้: การสุ่มตัวอย่างจะสิ้นสุดก่อนเวลาหากเป็นไปตามเงื่อนไขทั้ง 2 ข้อต่อไปนี้พร้อมกัน
- การคาดการณ์ที่เชื่อมั่นได้: เอนโทรปีของโมเดลเฉลี่ยใน Canvas อยู่ต่ำกว่าเกณฑ์เอนโทรปี = 0.005
- การคาดการณ์ที่เสถียร: การคาดการณ์โทเค็นที่มีความน่าจะเป็นสูงสุดยังคงเหมือนเดิมในขั้นตอนการลดสัญญาณรบกวน 2 ขั้นตอนติดต่อกัน
2. การกำหนดค่าโหมดการคิด
เราใช้บทบาท system, assistant และ user มาตรฐานเช่นเดียวกับโมเดล Gemma 4 ใช้โทเค็นควบคุมต่อไปนี้เพื่อจัดการกระบวนการคิดอย่างเหมาะสม
- ทริกเกอร์การคิด: การคิดจะเปิดใช้โดยการใส่โทเค็น
<|think|>ที่จุดเริ่มต้นของพรอมต์ระบบ หากต้องการปิดใช้การคิด ให้นำโทเค็นออก (โปรดทราบว่าระบบอาจยังคงส่งช่องการคิดที่ว่างเปล่าออกมา) - การสร้างมาตรฐาน: เมื่อเปิดใช้การคิด โมเดลจะแสดง
เหตุผลภายในตามด้วยคำตอบสุดท้ายโดยใช้โครงสร้างนี้:
<|channel>thought\n[Internal reasoning]<channel|>. - ลักษณะการทำงานของการคิดที่ปิดใช้: หากปิดใช้การคิด โมเดลจะ
ยังคงสร้างแท็กแต่มีบล็อกการคิดที่ว่างเปล่า:
<|channel>thought\n<channel|>[Final answer]
โปรดทราบว่าไลบรารีจำนวนมาก เช่น Transformers จะจัดการความซับซ้อนของเทมเพลตแชทให้คุณ
3. การสนทนาหลายรอบ
- ไม่มีเนื้อหาการคิดในประวัติ: ในการสนทนาไปมา เอาต์พุตโมเดลในประวัติควรมีเพียงการตอบกลับสุดท้าย ห้ามเพิ่มความคิดจากการตอบกลับของโมเดลก่อนหน้าก่อนที่ผู้ใช้จะเริ่มตอบกลับครั้งถัดไป
4. ลำดับรูปแบบ
- หากต้องการประสิทธิภาพสูงสุดด้วยอินพุตหลายรูปแบบ ให้วางเนื้อหารูปภาพก่อน ข้อความในพรอมต์
5. ความละเอียดรูปภาพที่ปรับเปลี่ยนได้
นอกเหนือจากอัตราส่วนกว้างยาวที่ปรับเปลี่ยนได้แล้ว DiffusionGemma ยังรองรับความละเอียดรูปภาพที่ปรับเปลี่ยนได้ผ่านงบประมาณโทเค็นภาพที่กำหนดค่าได้ ซึ่งควบคุมจำนวนโทเค็นที่ใช้แสดงรูปภาพ งบประมาณโทเค็นที่สูงขึ้นจะคงรายละเอียดภาพไว้มากขึ้นโดยต้องใช้การประมวลผลเพิ่มเติม ในขณะที่งบประมาณที่ต่ำลงจะช่วยให้การอนุมานเร็วขึ้นสำหรับงานที่ไม่จำเป็นต้องมีความเข้าใจที่ละเอียด
- งบประมาณโทเค็นที่รองรับ ได้แก่ 70, 140, 280, 560 และ
1120
- ใช้งบประมาณ ต่ำลง สำหรับการจัดประเภท การใส่คำบรรยาย หรือการทำความเข้าใจวิดีโอ ซึ่งการอนุมานและการประมวลผลเฟรมจำนวนมากที่เร็วขึ้นมีความสำคัญมากกว่ารายละเอียดที่ละเอียด
- ใช้งบประมาณ สูงขึ้น สำหรับงานต่างๆ เช่น OCR การแยกวิเคราะห์เอกสาร หรือการอ่านข้อความขนาดเล็ก
6. ความยาววิดีโอ
โมเดลทั้งหมดรองรับอินพุตรูปภาพและสามารถประมวลผลวิดีโอเป็นเฟรมได้ วิดีโอรองรับความยาวสูงสุด 60 วินาที โดยสมมติว่าระบบจะประมวลผลรูปภาพที่ 1 เฟรมต่อวินาที
ข้อมูลโมเดล
ข้อมูลที่ใช้ในการฝึกโมเดลและวิธีประมวลผลข้อมูล
ชุดข้อมูลการฝึก
ชุดข้อมูลการฝึกล่วงหน้าของเราเป็นชุดข้อมูลขนาดใหญ่และหลากหลายที่ครอบคลุมโดเมนและรูปแบบต่างๆ มากมาย ซึ่งรวมถึงเอกสารเว็บ โค้ด รูปภาพ เสียง โดยมีวันที่สิ้นสุดคือมกราคม 2025 โดยมีองค์ประกอบหลักดังนี้
- เอกสารเว็บ: ชุดข้อมูลข้อความเว็บที่หลากหลายช่วยให้โมเดลได้สัมผัสกับรูปแบบภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกมีเนื้อหาในภาษามากกว่า 140 ภาษา
- โค้ด: การให้โมเดลได้สัมผัสกับโค้ดจะช่วยให้โมเดลเรียนรู้ไวยากรณ์และรูปแบบของภาษาโปรแกรม ซึ่งจะช่วยเพิ่มความสามารถในการสร้างโค้ดและทำความเข้าใจคำถามที่เกี่ยวข้องกับโค้ด
- คณิตศาสตร์: การฝึกกับข้อความทางคณิตศาสตร์จะช่วยให้โมเดลเรียนรู้การให้เหตุผลเชิงตรรกะ การแสดงสัญลักษณ์ และตอบคำถามทางคณิตศาสตร์
- รูปภาพ: รูปภาพที่หลากหลายช่วยให้โมเดลทำงานวิเคราะห์รูปภาพและแยกข้อมูลภาพได้
การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้มีความสำคัญอย่างยิ่งต่อการฝึกโมเดลหลายรูปแบบที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลต่างๆ ได้มากมาย
การประมวลผลข้อมูลล่วงหน้า
ต่อไปนี้คือวิธีการทำความสะอาดข้อมูลและการกรองข้อมูลหลักที่ใช้กับข้อมูลฝึกฝน
- การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้แน่ใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่
- การกรองข้อมูลที่ละเอียดอ่อน: เราใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออกจากชุดข้อมูลการฝึก เพื่อให้โมเดลที่ได้รับการฝึกล่วงหน้าของ Gemma มีความปลอดภัยและเชื่อถือได้
- วิธีการเพิ่มเติม: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตาม นโยบายของเรา
จริยธรรมและความปลอดภัย
เมื่อโมเดลแบบเปิดกลายเป็นศูนย์กลางของโครงสร้างพื้นฐานขององค์กร ต้นกำเนิดและความปลอดภัยจึงมีความสำคัญสูงสุด DiffusionGemma ที่พัฒนาโดย Google DeepMind ผ่านการประเมินความปลอดภัยอย่างเข้มงวดเช่นเดียวกับโมเดล Gemini ที่เป็นกรรมสิทธิ์ของเรา
แนวทางการประเมิน
DiffusionGemma ได้รับการพัฒนาโดยความร่วมมือกับทีมความปลอดภัยและทีม AI ที่มีความรับผิดชอบภายใน เราได้ทำการประเมินแบบอัตโนมัติและการประเมินจากเจ้าหน้าที่หลายครั้งเพื่อช่วยปรับปรุงความปลอดภัยของโมเดล การประเมินเหล่านี้สอดคล้องกับ หลักการเกี่ยวกับ AI ของ Google รวมถึงนโยบายความปลอดภัย ซึ่ง มีเป้าหมายเพื่อป้องกันไม่ให้โมเดล Generative AI ของเราสร้างเนื้อหาที่เป็นอันตราย ซึ่งรวมถึงเนื้อหาต่อไปนี้
- เนื้อหาที่เกี่ยวข้องกับสื่อที่มีการล่วงละเมิดทางเพศเด็กและการแสวงหาประโยชน์จากเด็ก
- เนื้อหาที่เป็นอันตราย (เช่น การส่งเสริมการฆ่าตัวตาย หรือการให้คำแนะนำเกี่ยวกับกิจกรรมที่อาจก่อให้เกิดอันตรายในโลกแห่งความเป็นจริง)
- เนื้อหาเกี่ยวกับเรื่องเพศอย่างโจ่งแจ้ง
- วาจาสร้างความเกลียดชัง (เช่น การลดทอนความเป็นมนุษย์ของสมาชิกในกลุ่มที่ได้รับการคุ้มครอง)
- การคุกคาม (เช่น การสนับสนุนให้ใช้ความรุนแรงต่อผู้อื่น)
ผลการประเมิน
สำหรับการทดสอบความปลอดภัยในทุกด้าน เราเห็นการปรับปรุงที่สำคัญในทุกหมวดหมู่ของความปลอดภัยของเนื้อหาเมื่อเทียบกับโมเดล Gemma รุ่นก่อนๆ โดยรวมแล้ว DiffusionGemma มีประสิทธิภาพเหนือกว่าโมเดล Gemma 3 และ 3n อย่างมากในการปรับปรุงความปลอดภัย ในขณะที่ยังคงการปฏิเสธที่ไม่สมเหตุสมผลไว้ในระดับต่ำเช่นเดียวกับโมเดล Gemma 4 เราได้ทำการทดสอบทั้งหมดโดยไม่มีตัวกรองความปลอดภัยโดยเจตนาเพื่อประเมินความสามารถดิบและลักษณะการทำงานพื้นฐานของโมเดล ทั้งสำหรับข้อความเป็นข้อความและรูปภาพเป็นข้อความ รวมถึงในโมเดลทุกขนาด โมเดลมีการละเมิดนโยบายน้อยที่สุด และแสดงการปรับปรุงที่สำคัญเมื่อเทียบกับโมเดล Gemma รุ่นก่อนๆ
การใช้งานและข้อจำกัด
โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ
การใช้งานที่ตั้งใจไว้
โมเดลหลายรูปแบบ (สามารถประมวลผลการมองเห็น ภาษา และ/หรือเสียง) มีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้เป็นเพียงตัวอย่างบางส่วนเท่านั้น จุดประสงค์ของรายการนี้คือเพื่อให้ข้อมูลบริบทเกี่ยวกับกรณีการใช้งานที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาเป็นส่วนหนึ่งของการฝึกและการพัฒนาโมเดล
- การสร้างเนื้อหาและการสื่อสาร
- การสร้างข้อความ: สร้างข้อความรูปแบบสร้างสรรค์ เช่น บทกวี สคริปต์ โค้ด ข้อความทางการตลาด และอีเมลฉบับร่าง
- แชทบ็อตและ AI แบบสนทนา: ขับเคลื่อนอินเทอร์เฟซแบบสนทนาสำหรับการบริการลูกค้า ผู้ช่วยเสมือน หรือแอปพลิเคชันแบบอินเทอร์แอกทีฟ
- การสรุปข้อความ: สร้างสรุปที่กระชับของคลังข้อความ เอกสารงานวิจัย หรือรายงาน
- การแยกข้อมูลรูปภาพ: แยก ตีความ และสรุปข้อมูลภาพสำหรับการสื่อสารแบบข้อความ
- การวิจัยและการศึกษา
- การวิจัยการประมวลผลภาษาธรรมชาติ (NLP) และ VLM: เป็นพื้นฐานให้นักวิจัยได้ทดลองใช้เทคนิค VLM และ NLP พัฒนาอัลกอริทึม และมีส่วนร่วมในการพัฒนาสาขา
- เครื่องมือการเรียนรู้ภาษา: รองรับประสบการณ์การเรียนรู้ภาษาแบบอินเทอร์แอกทีฟ ช่วยแก้ไขไวยากรณ์หรือให้ฝึกเขียน
- การสำรวจความรู้: ช่วยนักวิจัยในการสำรวจข้อความจำนวนมากโดยการสร้างสรุปหรือตอบคำถามเกี่ยวกับหัวข้อที่เฉพาะเจาะจง
ข้อจำกัด
- ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลฝึกฝนมีอิทธิพลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลฝึกฝนอาจนำไปสู่ข้อจำกัดในการตอบกลับของโมเดล
- ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดพื้นที่หัวข้อที่โมเดลจัดการได้อย่างมีประสิทธิภาพ
- บริบทและความซับซ้อนของงาน
- โมเดลทำงานได้ดีกับงานที่สามารถกำหนดกรอบด้วยพรอมต์และคำแนะนำที่ชัดเจน งานแบบปลายเปิดหรือซับซ้อนมากอาจเป็นเรื่องท้าทาย
- ประสิทธิภาพของโมเดลอาจได้รับผลกระทบจากปริมาณบริบทที่ให้ไว้ (โดยทั่วไปบริบทที่ยาวขึ้นจะนำไปสู่เอาต์พุตที่ดีขึ้นจนถึงจุดหนึ่ง)
- ความกำกวมและความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยเนื้อแท้ โมเดลอาจมีปัญหาในการทำความเข้าใจความแตกต่างเล็กน้อย การประชดประชัน หรือภาษาเชิงเปรียบเทียบ
- ความถูกต้องตามข้อเท็จจริง
- โมเดลสร้างการตอบกลับโดยอิงตามข้อมูลที่เรียนรู้จากชุดข้อมูลการฝึก แต่โมเดลไม่ใช่ฐานความรู้ โมเดลอาจสร้างข้อความจริงที่ไม่ถูกต้องหรือล้าสมัย
- สามัญสำนึก
- โมเดลอาศัยรูปแบบทางสถิติในภาษา โมเดลอาจขาดความสามารถในการใช้การให้เหตุผลตามสามัญสำนึกในบางสถานการณ์
ข้อพิจารณาและความเสี่ยงด้านจริยธรรม
ในการสร้างโมเดลภาษาการมองเห็นแบบเปิด เราได้พิจารณาสิ่งต่อไปนี้อย่างรอบคอบ
- อคติและความยุติธรรม
- VLM ที่ได้รับการฝึกฝนด้วยข้อมูลข้อความและรูปภาพขนาดใหญ่จากโลกแห่งความเป็นจริงอาจสะท้อนถึงอคติทางสังคมและวัฒนธรรมที่ฝังอยู่ในสื่อการฝึก DiffusionGemma ผ่านการตรวจสอบอย่างรอบคอบ การประมวลผลข้อมูลอินพุตล่วงหน้า และการประเมินหลังการฝึกตามที่รายงานไว้ในการ์ดนี้เพื่อช่วยลดความเสี่ยงของอคติเหล่านี้
- ข้อมูลที่ไม่ถูกต้องและการใช้งานในทางที่ผิด
- VLM อาจถูกนำไปใช้ในทางที่ผิดเพื่อสร้างข้อความที่เป็นเท็จ ทำให้เข้าใจผิด หรือเป็นอันตราย
- เราได้ให้หลักเกณฑ์สำหรับการใช้งานโมเดลอย่างมีความรับผิดชอบ โปรดดู ชุดเครื่องมือ Generative AI อย่างมีความรับผิดชอบ
- ความโปร่งใสและความรับผิดชอบ
- การ์ดโมเดลนี้สรุปรายละเอียดเกี่ยวกับสถาปัตยกรรม ความสามารถ ข้อจำกัด และกระบวนการประเมินของโมเดล
- โมเดลแบบเปิดที่พัฒนาขึ้นอย่างมีความรับผิดชอบมอบโอกาสในการแชร์นวัตกรรมโดยทำให้เทคโนโลยี VLM เข้าถึงได้สำหรับนักพัฒนาแอปและนักวิจัยทั่วทั้งระบบนิเวศ AI
ความเสี่ยงที่ระบุและการลดความเสี่ยง:
- การสร้างเนื้อหาที่เป็นอันตราย: กลไกและหลักเกณฑ์ด้านความปลอดภัยของเนื้อหามีความสำคัญอย่างยิ่ง เราขอแนะนำให้นักพัฒนาแอปใช้ความระมัดระวังและใช้มาตรการป้องกันความปลอดภัยของเนื้อหาที่เหมาะสมตามนโยบายผลิตภัณฑ์และกรณีการใช้งานแอปพลิเคชันที่เฉพาะเจาะจง
- การใช้งานในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิคและการให้ความรู้แก่นักพัฒนาแอปและผู้ใช้ปลายทางสามารถช่วยลดการใช้งาน VLM ที่เป็นอันตรายได้ เราได้จัดเตรียมแหล่งข้อมูลเพื่อการศึกษาและกลไกการรายงานให้ผู้ใช้ได้แจ้งการใช้งานในทางที่ผิด
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกฝนด้วยข้อมูลที่กรองเพื่อนำข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
- การคงอยู่ของอคติ: เราขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (โดยใช้เมตริกการประเมิน การตรวจสอบจากเจ้าหน้าที่) และสำรวจเทคนิคการลดอคติระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
สิทธิประโยชน์
ในขณะที่เปิดตัว โมเดลภาษาการมองเห็นแบบเปิดนี้มีเวลาในการตอบสนองต่ำและมีประสิทธิภาพสูง ซึ่งเป็นตัวเลือกที่น่าสนใจสำหรับนักพัฒนาแอปและผู้ที่สนใจในการวิจัยโมเดลภาษาการแพร่ โมเดลได้รับการออกแบบตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบเมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน