หน้าโมเดล: EmbeddingGemma
แหล่งข้อมูลและเอกสารประกอบทางเทคนิค
- ชุดเครื่องมือ Generative AI ที่มีความรับผิดชอบ
- การฝัง Gemma ใน Kaggle
- การฝัง Gemma ใน Vertex Model Garden
ข้อกำหนดในการใช้งาน: ข้อกำหนด
ผู้เขียน: Google DeepMind
ข้อมูลรุ่น
คำอธิบายสรุปและคำจำกัดความโดยย่อของอินพุตและเอาต์พุต
คำอธิบาย
EmbeddingGemma เป็นโมเดลการฝังแบบเปิดที่มีพารามิเตอร์ 300 ล้านรายการ ซึ่งเป็นโมเดลที่ล้ำสมัยที่สุดในขนาดของโมเดลนี้จาก Google สร้างขึ้นจาก Gemma 3 (มีการเริ่มต้น T5Gemma) รวมถึงการวิจัยและเทคโนโลยีเดียวกันกับที่ใช้สร้างโมเดล Gemini การฝัง Gemma จะสร้างการแสดงข้อความแบบเวกเตอร์ ซึ่งเหมาะสำหรับงานค้นหาและการดึงข้อมูล รวมถึงการจัดประเภท การจัดกลุ่ม และการค้นหาความคล้ายกันเชิงความหมาย โมเดลนี้ได้รับการฝึกด้วยข้อมูลในภาษาพูดกว่า 100 ภาษา
ขนาดเล็กและการมุ่งเน้นที่อุปกรณ์ทำให้สามารถใช้งานในสภาพแวดล้อม ที่มีทรัพยากรจำกัด เช่น โทรศัพท์มือถือ แล็ปท็อป หรือเดสก์ท็อป ซึ่งเป็นการกระจายการเข้าถึงโมเดล AI ที่ล้ำสมัยและช่วยส่งเสริมนวัตกรรม สำหรับทุกคน
ดูรายละเอียดทางเทคนิคเพิ่มเติมได้ในเอกสารEmbeddingGemma: Powerful and Lightweight Text Representations
อินพุตและเอาต์พุต
อินพุต:
- สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะฝัง
- ความยาวบริบทอินพุตสูงสุด 2,000
เอาต์พุต:
- การแสดงเวกเตอร์เชิงตัวเลขของข้อมูลข้อความที่ป้อน
- ขนาดมิติข้อมูลการฝังเอาต์พุต 768 โดยมีตัวเลือกขนาดเล็กกว่า (512, 256 หรือ 128) ผ่านการเรียนรู้การแทน Matryoshka (MRL) MRL ช่วยให้ผู้ใช้ตัดการฝังเอาต์พุตที่มีขนาด 768 ให้มีขนาดตามที่ต้องการ แล้วทำการปรับค่าใหม่เพื่อให้แสดงผลได้อย่างมีประสิทธิภาพและแม่นยำ
การอ้างอิง
@article{embedding_gemma_2025,
title={EmbeddingGemma: Powerful and Lightweight Text Representations},
publisher={Google DeepMind},
author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
year={2025},
url={https://arxiv.org/abs/2509.20354}
}
ข้อมูลโมเดล
ชุดข้อมูลการฝึก
โมเดลนี้ได้รับการฝึกโดยใช้ชุดข้อมูลข้อความที่มีแหล่งที่มาหลากหลาย รวมเป็นโทเค็นประมาณ 3.2 แสนล้านรายการ องค์ประกอบหลักๆ มีดังนี้
- เอกสารบนเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้โมเดลได้เห็นรูปแบบทางภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกมีเนื้อหาในกว่า 100 ภาษา
- โค้ดและเอกสารทางเทคนิค: การแสดงโมเดลต่อโค้ดและเอกสารทางเทคนิค ช่วยให้โมเดลเรียนรู้โครงสร้างและรูปแบบของภาษาโปรแกรม และเนื้อหาทางวิทยาศาสตร์เฉพาะทาง ซึ่งจะช่วยปรับปรุงความเข้าใจของโมเดลเกี่ยวกับโค้ดและคำถามทางเทคนิค
- ข้อมูลสังเคราะห์และข้อมูลเฉพาะงาน: การฝึกข้อมูลสังเคราะห์ช่วย สอนทักษะเฉพาะให้โมเดล ซึ่งรวมถึงข้อมูลที่คัดสรรมาแล้วสำหรับงานต่างๆ เช่น การดึงข้อมูล การจัดประเภท และการวิเคราะห์ความรู้สึก ซึ่งช่วย ปรับแต่งประสิทธิภาพสำหรับการฝังที่ใช้กันทั่วไป
การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้เป็นสิ่งสำคัญในการฝึกโมเดลการฝังแบบหลายภาษาที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลที่แตกต่างกันได้หลากหลาย
การประมวลผลข้อมูลเบื้องต้น
ต่อไปนี้คือวิธีการทำความสะอาดและกรองข้อมูลที่สำคัญซึ่งใช้กับข้อมูลการฝึก
- การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่ด้วย
- การกรองข้อมูลที่มีความละเอียดอ่อน: ในการทำให้โมเดล Gemma ที่ผ่านการฝึกมาก่อนมีความปลอดภัย และเชื่อถือได้ เราได้ใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคล และข้อมูลที่มีความละเอียดอ่อนอื่นๆ บางอย่างออกจากชุดการฝึก
- วิธีอื่นๆ: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตามนโยบายของเรา
การพัฒนาโมเดล
ฮาร์ดแวร์
EmbeddingGemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e) ดูรายละเอียดเพิ่มเติมได้ที่การ์ดโมเดล Gemma 3
ซอฟต์แวร์
การฝึกใช้ JAX และ ML Pathways ดูรายละเอียดเพิ่มเติมได้ที่การ์ดโมเดล Gemma 3
การประเมิน
ผลการเปรียบเทียบ
เราประเมินโมเดลกับคอลเล็กชันขนาดใหญ่ของชุดข้อมูลและเมตริกต่างๆ เพื่อครอบคลุมแง่มุมต่างๆ ของความเข้าใจข้อความ
จุดตรวจสอบความแม่นยำเต็มรูปแบบ
| MTEB (Multilingual, v2) | ||
|---|---|---|
| มิติ | ค่าเฉลี่ย (งาน) | ค่าเฉลี่ย (ประเภทงาน) |
| 768d | 61.15 | 54.31 |
| 512 วัน | 60.71 | 53.89 |
| 256 วัน | 59.68 | 53.01 |
| 128d | 58.23 | 51.77 |
| MTEB (อังกฤษ, v2) | ||
|---|---|---|
| มิติ | ค่าเฉลี่ย (งาน) | ค่าเฉลี่ย (ประเภทงาน) |
| 768d | 69.67 | 65.11 |
| 512 วัน | 69.18 | 64.59 |
| 256 วัน | 68.37 | 64.02 |
| 128d | 66.66 | 62.70 |
| MTEB (Code, v1) | ||
|---|---|---|
| มิติ | ค่าเฉลี่ย (งาน) | ค่าเฉลี่ย (ประเภทงาน) |
| 768d | 68.76 | 68.76 |
| 512 วัน | 68.48 | 68.48 |
| 256 วัน | 66.74 | 66.74 |
| 128d | 62.96 | 62.96 |
จุดตรวจสอบ QAT
| MTEB (Multilingual, v2) | ||
|---|---|---|
| การกำหนดค่าการวัดปริมาณ (มิติข้อมูล) | ค่าเฉลี่ย (งาน) | ค่าเฉลี่ย (ประเภทงาน) |
| ความแม่นยำแบบผสม* (768d) | 60.69 | 53.82 |
| Q8_0 (768d) | 60.93 | 53.95 |
| Q4_0 (768d) | 60.62 | 53.61 |
| MTEB (อังกฤษ, v2) | ||
|---|---|---|
| การกำหนดค่าการวัดปริมาณ (มิติข้อมูล) | ค่าเฉลี่ย (งาน) | ค่าเฉลี่ย (ประเภทงาน) |
| ความแม่นยำแบบผสม* (768d) | 69.32 | 64.82 |
| Q8_0 (768d) | 69.49 | 64.84 |
| Q4_0 (768d) | 69.31 | 64.65 |
| MTEB (Code, v1) | ||
|---|---|---|
| การกำหนดค่าการวัดปริมาณ (มิติข้อมูล) | ค่าเฉลี่ย (งาน) | ค่าเฉลี่ย (ประเภทงาน) |
| ความแม่นยำแบบผสม* (768d) | 68.03 | 68.03 |
| Q8_0 (768d) | 68.70 | 68.70 |
| Q4_0 (768d) | 67.99 | 67.99 |
* ความแม่นยำแบบผสมหมายถึงการหาปริมาณต่อช่องที่มี int4 สำหรับการฝัง ฟีดฟอร์เวิร์ด และเลเยอร์การฉายภาพ และ int8 สำหรับการสนใจ (e4_a8_f4_p4)
วิธีการเขียนพรอมต์
การฝัง Gemma สามารถสร้างการฝังที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานต่างๆ เช่น การดึงข้อมูลเอกสาร การตอบคำถาม และการยืนยันข้อเท็จจริง หรือสำหรับ ประเภทอินพุตที่เฉพาะเจาะจง ไม่ว่าจะเป็นคำค้นหาหรือเอกสาร โดยใช้พรอมต์ที่นำหน้า สตริงอินพุต
พรอมต์คำค้นหาจะอยู่ในรูปแบบ task: {task description} | query: โดยที่คำอธิบายงานจะแตกต่างกันไปตามกรณีการใช้งาน และคำอธิบายงานเริ่มต้นคือ search result พรอมต์สไตล์เอกสารจะมีรูปแบบเป็น
title: {title | "none"} | text: โดยที่ชื่อจะเป็น none (ค่าเริ่มต้น)
หรือชื่อจริงของเอกสาร โปรดทราบว่าการระบุชื่อ (หากมี) จะช่วยปรับปรุงประสิทธิภาพของโมเดลสำหรับพรอมต์เอกสาร แต่คุณอาจต้องจัดรูปแบบด้วยตนเอง
ใช้พรอมต์ต่อไปนี้ตามกรณีการใช้งานและประเภทข้อมูลอินพุต ซึ่งอาจพร้อมใช้งานอยู่แล้วในการกำหนดค่า EmbeddingGemma ในเฟรมเวิร์กการสร้างโมเดลที่คุณเลือก
กรณีการใช้งาน (การแจงนับประเภทงาน) |
คำอธิบาย |
พรอมต์ที่แนะนำ |
|---|---|---|
การดึงข้อมูล (การค้นหา) |
ใช้เพื่อสร้างการฝังที่เพิ่มประสิทธิภาพสำหรับการค้นหาเอกสารหรือการดึงข้อมูล |
งาน: ผลการค้นหา | คำค้นหา: {content} |
การดึงข้อมูล (เอกสาร) |
title: {title | "none"} | text: {content} |
|
การตอบคำถาม |
งาน: ตอบคำถาม | คำค้นหา: {content} |
|
การยืนยันข้อเท็จจริง |
งาน: การตรวจสอบข้อเท็จจริง | คำค้นหา: {content} |
|
การจัดประเภท |
ใช้เพื่อสร้างการฝังที่เพิ่มประสิทธิภาพเพื่อจัดประเภทข้อความตามป้ายกำกับที่ตั้งไว้ล่วงหน้า |
งาน: การจัดประเภท | คำค้นหา: {content} |
การจัดกลุ่ม |
ใช้เพื่อสร้างการฝังที่ได้รับการเพิ่มประสิทธิภาพเพื่อจัดกลุ่มข้อความตามความคล้ายคลึงกัน |
งาน: การจัดกลุ่ม | คำค้นหา: {content} |
ความคล้ายคลึงกันเชิงความหมาย |
ใช้เพื่อสร้างการฝังที่เพิ่มประสิทธิภาพเพื่อประเมินความคล้ายคลึงของข้อความ ซึ่งไม่ได้มีไว้สำหรับกรณีการใช้งานการดึงข้อมูล |
งาน: ความคล้ายกันของประโยค | คำค้นหา: {content} |
การดึงข้อมูลโค้ด |
ใช้เพื่อดึงข้อมูลโค้ดบล็อกตามคำค้นหาที่เป็นภาษาธรรมชาติ เช่น จัดเรียงอาร์เรย์หรือกลับรายการที่ลิงก์ ระบบจะคำนวณการฝังของบล็อกโค้ดโดยใช้ retrieval_document |
งาน: การดึงโค้ด | คำค้นหา: {content} |
การใช้งานและข้อจำกัด
โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ
การใช้งานที่ตั้งใจไว้
โมเดลการฝังแบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ครอบคลุมทั้งหมด จุดประสงค์ของรายการนี้คือการให้ข้อมูลตามบริบท เกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาเป็นส่วนหนึ่งของการฝึก และการพัฒนาโมเดล
- ความคล้ายคลึงกันเชิงความหมาย: การฝังที่ได้รับการเพิ่มประสิทธิภาพเพื่อประเมินความคล้ายคลึงกันของข้อความ เช่น ระบบการแนะนำและการตรวจหาเนื้อหาที่ซ้ำกัน
- การแยกประเภท: การฝังที่เพิ่มประสิทธิภาพเพื่อแยกประเภทข้อความตามป้ายกำกับที่กำหนดไว้ล่วงหน้า เช่น การวิเคราะห์ความรู้สึกและการตรวจหาสแปม
- การจัดกลุ่ม: การฝังที่เพิ่มประสิทธิภาพเพื่อจัดกลุ่มข้อความตามความคล้ายคลึงกัน เช่น การจัดระเบียบเอกสาร การวิจัยตลาด และการตรวจหาความผิดปกติ
การดึงข้อมูล
- เอกสาร: การฝังที่ได้รับการเพิ่มประสิทธิภาพสำหรับการค้นหาเอกสาร เช่น การจัดทำดัชนีบทความ หนังสือ หรือหน้าเว็บสำหรับการค้นหา
- การค้นหา: การฝังที่เพิ่มประสิทธิภาพสำหรับคำค้นหาทั่วไป เช่น การค้นหาที่กำหนดเอง
- การค้นหาโค้ด: การฝังที่เพิ่มประสิทธิภาพสำหรับการดึงข้อมูลโค้ดบล็อกตามคำค้นหาที่เป็นภาษาธรรมชาติ เช่น คำแนะนำและค้นหาโค้ด
การตอบคำถาม: การฝังสำหรับคำถามในระบบการตอบคำถาม ซึ่งได้รับการเพิ่มประสิทธิภาพเพื่อค้นหาเอกสารที่ตอบคำถาม เช่น แชทบ็อกซ์
การยืนยันข้อเท็จจริง: การฝังสำหรับคำสั่งที่ต้องได้รับการยืนยัน ซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับการดึงเอกสารที่มีหลักฐานสนับสนุนหรือ หักล้างคำสั่งดังกล่าว เช่น ระบบการตรวจสอบข้อเท็จจริงอัตโนมัติ
ข้อจำกัด
ข้อมูลการฝึก
- คุณภาพและความหลากหลายของข้อมูลการฝึกมีผลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลการฝึกอาจทำให้คำตอบของโมเดลมีข้อจำกัด
- ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตของหัวข้อที่โมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
ความคลุมเครือและความแตกต่างของภาษา
- ภาษาธรรมชาติมีความซับซ้อนโดยธรรมชาติ โมเดลอาจเข้าใจ ความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมาได้ยาก
ข้อควรพิจารณาและความเสี่ยงด้านจริยธรรม
ความเสี่ยงที่พบและการลดความเสี่ยง
- การคงอยู่ของอคติ: ขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (ใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจการใช้เทคนิคการลดอคติ ระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
- การนำไปใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาแอปและผู้ใช้ปลายทางจะช่วยลดการนำ Embedding ไปใช้ในแอปพลิเคชันที่เป็นอันตรายได้ เรามีแหล่งข้อมูลด้านการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการละเมิด การใช้งานโมเดล Gemma ที่ไม่อนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตสำหรับ Gemma
- การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกด้วยข้อมูลที่กรองเพื่อนำ ข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว
ข้อดี
ในขณะที่เปิดตัว โมเดลตระกูลนี้จะมีการใช้งานโมเดลการฝังแบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน โมเดลเหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่า โมเดลทางเลือกแบบเปิดอื่นๆ ที่มีขนาดเทียบเท่ากัน โดยใช้เมตริกการประเมินการเปรียบเทียบ ที่อธิบายไว้ในเอกสารนี้