การ์ดโมเดล EmbeddingGemma

หน้าโมเดล: EmbeddingGemma

แหล่งข้อมูลและเอกสารประกอบทางเทคนิค

ข้อกำหนดในการใช้งาน: ข้อกำหนด

ผู้เขียน: Google DeepMind

ข้อมูลรุ่น

คำอธิบายสรุปและคำจำกัดความโดยย่อของอินพุตและเอาต์พุต

คำอธิบาย

EmbeddingGemma เป็นโมเดลการฝังแบบเปิดที่มีพารามิเตอร์ 300 ล้านรายการ ซึ่งเป็นโมเดลที่ล้ำสมัยที่สุดในขนาดของโมเดลนี้จาก Google สร้างขึ้นจาก Gemma 3 (มีการเริ่มต้น T5Gemma) รวมถึงการวิจัยและเทคโนโลยีเดียวกันกับที่ใช้สร้างโมเดล Gemini การฝัง Gemma จะสร้างการแสดงข้อความแบบเวกเตอร์ ซึ่งเหมาะสำหรับงานค้นหาและการดึงข้อมูล รวมถึงการจัดประเภท การจัดกลุ่ม และการค้นหาความคล้ายกันเชิงความหมาย โมเดลนี้ได้รับการฝึกด้วยข้อมูลในภาษาพูดกว่า 100 ภาษา

ขนาดเล็กและการมุ่งเน้นที่อุปกรณ์ทำให้สามารถใช้งานในสภาพแวดล้อม ที่มีทรัพยากรจำกัด เช่น โทรศัพท์มือถือ แล็ปท็อป หรือเดสก์ท็อป ซึ่งเป็นการกระจายการเข้าถึงโมเดล AI ที่ล้ำสมัยและช่วยส่งเสริมนวัตกรรม สำหรับทุกคน

ดูรายละเอียดทางเทคนิคเพิ่มเติมได้ในเอกสารEmbeddingGemma: Powerful and Lightweight Text Representations

อินพุตและเอาต์พุต

  • อินพุต:

    • สตริงข้อความ เช่น คำถาม พรอมต์ หรือเอกสารที่จะฝัง
    • ความยาวบริบทอินพุตสูงสุด 2,000
  • เอาต์พุต:

    • การแสดงเวกเตอร์เชิงตัวเลขของข้อมูลข้อความที่ป้อน
    • ขนาดมิติข้อมูลการฝังเอาต์พุต 768 โดยมีตัวเลือกขนาดเล็กกว่า (512, 256 หรือ 128) ผ่านการเรียนรู้การแทน Matryoshka (MRL) MRL ช่วยให้ผู้ใช้ตัดการฝังเอาต์พุตที่มีขนาด 768 ให้มีขนาดตามที่ต้องการ แล้วทำการปรับค่าใหม่เพื่อให้แสดงผลได้อย่างมีประสิทธิภาพและแม่นยำ

การอ้างอิง

@article{embedding_gemma_2025,
    title={EmbeddingGemma: Powerful and Lightweight Text Representations},
    publisher={Google DeepMind},
    author={Schechter Vera, Henrique and Dua, Sahil and Team, EmbeddingGemma},
    year={2025},
    url={https://arxiv.org/abs/2509.20354}
}

ข้อมูลโมเดล

ชุดข้อมูลการฝึก

โมเดลนี้ได้รับการฝึกโดยใช้ชุดข้อมูลข้อความที่มีแหล่งที่มาหลากหลาย รวมเป็นโทเค็นประมาณ 3.2 แสนล้านรายการ องค์ประกอบหลักๆ มีดังนี้

  • เอกสารบนเว็บ: คอลเล็กชันข้อความบนเว็บที่หลากหลายช่วยให้โมเดลได้เห็นรูปแบบทางภาษา หัวข้อ และคำศัพท์ที่หลากหลาย ชุดข้อมูลการฝึกมีเนื้อหาในกว่า 100 ภาษา
  • โค้ดและเอกสารทางเทคนิค: การแสดงโมเดลต่อโค้ดและเอกสารทางเทคนิค ช่วยให้โมเดลเรียนรู้โครงสร้างและรูปแบบของภาษาโปรแกรม และเนื้อหาทางวิทยาศาสตร์เฉพาะทาง ซึ่งจะช่วยปรับปรุงความเข้าใจของโมเดลเกี่ยวกับโค้ดและคำถามทางเทคนิค
  • ข้อมูลสังเคราะห์และข้อมูลเฉพาะงาน: การฝึกข้อมูลสังเคราะห์ช่วย สอนทักษะเฉพาะให้โมเดล ซึ่งรวมถึงข้อมูลที่คัดสรรมาแล้วสำหรับงานต่างๆ เช่น การดึงข้อมูล การจัดประเภท และการวิเคราะห์ความรู้สึก ซึ่งช่วย ปรับแต่งประสิทธิภาพสำหรับการฝังที่ใช้กันทั่วไป

การรวมแหล่งข้อมูลที่หลากหลายเหล่านี้เป็นสิ่งสำคัญในการฝึกโมเดลการฝังแบบหลายภาษาที่มีประสิทธิภาพ ซึ่งสามารถจัดการงานและรูปแบบข้อมูลที่แตกต่างกันได้หลากหลาย

การประมวลผลข้อมูลเบื้องต้น

ต่อไปนี้คือวิธีการทำความสะอาดและกรองข้อมูลที่สำคัญซึ่งใช้กับข้อมูลการฝึก

  • การกรอง CSAM: เราใช้การกรอง CSAM (สื่อที่มีการล่วงละเมิดทางเพศเด็ก) อย่างเข้มงวดในหลายขั้นตอนของกระบวนการเตรียมข้อมูลเพื่อให้มั่นใจว่าเนื้อหาที่เป็นอันตรายและผิดกฎหมายจะไม่รวมอยู่ด้วย
  • การกรองข้อมูลที่มีความละเอียดอ่อน: ในการทำให้โมเดล Gemma ที่ผ่านการฝึกมาก่อนมีความปลอดภัย และเชื่อถือได้ เราได้ใช้เทคนิคอัตโนมัติเพื่อกรองข้อมูลส่วนบุคคล และข้อมูลที่มีความละเอียดอ่อนอื่นๆ บางอย่างออกจากชุดการฝึก
  • วิธีอื่นๆ: การกรองตามคุณภาพและความปลอดภัยของเนื้อหาตามนโยบายของเรา

การพัฒนาโมเดล

ฮาร์ดแวร์

EmbeddingGemma ได้รับการฝึกโดยใช้ฮาร์ดแวร์Tensor Processing Unit (TPU) รุ่นล่าสุด (TPUv5e) ดูรายละเอียดเพิ่มเติมได้ที่การ์ดโมเดล Gemma 3

ซอฟต์แวร์

การฝึกใช้ JAX และ ML Pathways ดูรายละเอียดเพิ่มเติมได้ที่การ์ดโมเดล Gemma 3

การประเมิน

ผลการเปรียบเทียบ

เราประเมินโมเดลกับคอลเล็กชันขนาดใหญ่ของชุดข้อมูลและเมตริกต่างๆ เพื่อครอบคลุมแง่มุมต่างๆ ของความเข้าใจข้อความ

จุดตรวจสอบความแม่นยำเต็มรูปแบบ

MTEB (Multilingual, v2)
มิติ ค่าเฉลี่ย (งาน) ค่าเฉลี่ย (ประเภทงาน)
768d 61.15 54.31
512 วัน 60.71 53.89
256 วัน 59.68 53.01
128d 58.23 51.77
MTEB (อังกฤษ, v2)
มิติ ค่าเฉลี่ย (งาน) ค่าเฉลี่ย (ประเภทงาน)
768d 69.67 65.11
512 วัน 69.18 64.59
256 วัน 68.37 64.02
128d 66.66 62.70
MTEB (Code, v1)
มิติ ค่าเฉลี่ย (งาน) ค่าเฉลี่ย (ประเภทงาน)
768d 68.76 68.76
512 วัน 68.48 68.48
256 วัน 66.74 66.74
128d 62.96 62.96

จุดตรวจสอบ QAT

MTEB (Multilingual, v2)
การกำหนดค่าการวัดปริมาณ (มิติข้อมูล) ค่าเฉลี่ย (งาน) ค่าเฉลี่ย (ประเภทงาน)
ความแม่นยำแบบผสม* (768d) 60.69 53.82
Q8_0 (768d) 60.93 53.95
Q4_0 (768d) 60.62 53.61
MTEB (อังกฤษ, v2)
การกำหนดค่าการวัดปริมาณ (มิติข้อมูล) ค่าเฉลี่ย (งาน) ค่าเฉลี่ย (ประเภทงาน)
ความแม่นยำแบบผสม* (768d) 69.32 64.82
Q8_0 (768d) 69.49 64.84
Q4_0 (768d) 69.31 64.65
MTEB (Code, v1)
การกำหนดค่าการวัดปริมาณ (มิติข้อมูล) ค่าเฉลี่ย (งาน) ค่าเฉลี่ย (ประเภทงาน)
ความแม่นยำแบบผสม* (768d) 68.03 68.03
Q8_0 (768d) 68.70 68.70
Q4_0 (768d) 67.99 67.99

* ความแม่นยำแบบผสมหมายถึงการหาปริมาณต่อช่องที่มี int4 สำหรับการฝัง ฟีดฟอร์เวิร์ด และเลเยอร์การฉายภาพ และ int8 สำหรับการสนใจ (e4_a8_f4_p4)

วิธีการเขียนพรอมต์

การฝัง Gemma สามารถสร้างการฝังที่ได้รับการเพิ่มประสิทธิภาพสำหรับกรณีการใช้งานต่างๆ เช่น การดึงข้อมูลเอกสาร การตอบคำถาม และการยืนยันข้อเท็จจริง หรือสำหรับ ประเภทอินพุตที่เฉพาะเจาะจง ไม่ว่าจะเป็นคำค้นหาหรือเอกสาร โดยใช้พรอมต์ที่นำหน้า สตริงอินพุต

พรอมต์คำค้นหาจะอยู่ในรูปแบบ task: {task description} | query: โดยที่คำอธิบายงานจะแตกต่างกันไปตามกรณีการใช้งาน และคำอธิบายงานเริ่มต้นคือ search result พรอมต์สไตล์เอกสารจะมีรูปแบบเป็น title: {title | "none"} | text: โดยที่ชื่อจะเป็น none (ค่าเริ่มต้น) หรือชื่อจริงของเอกสาร โปรดทราบว่าการระบุชื่อ (หากมี) จะช่วยปรับปรุงประสิทธิภาพของโมเดลสำหรับพรอมต์เอกสาร แต่คุณอาจต้องจัดรูปแบบด้วยตนเอง

ใช้พรอมต์ต่อไปนี้ตามกรณีการใช้งานและประเภทข้อมูลอินพุต ซึ่งอาจพร้อมใช้งานอยู่แล้วในการกำหนดค่า EmbeddingGemma ในเฟรมเวิร์กการสร้างโมเดลที่คุณเลือก


กรณีการใช้งาน (การแจงนับประเภทงาน)

คำอธิบาย

พรอมต์ที่แนะนำ

การดึงข้อมูล (การค้นหา)

ใช้เพื่อสร้างการฝังที่เพิ่มประสิทธิภาพสำหรับการค้นหาเอกสารหรือการดึงข้อมูล

งาน: ผลการค้นหา | คำค้นหา: {content}

การดึงข้อมูล (เอกสาร)

title: {title | "none"} | text: {content}

การตอบคำถาม

งาน: ตอบคำถาม | คำค้นหา: {content}

การยืนยันข้อเท็จจริง

งาน: การตรวจสอบข้อเท็จจริง | คำค้นหา: {content}

การจัดประเภท

ใช้เพื่อสร้างการฝังที่เพิ่มประสิทธิภาพเพื่อจัดประเภทข้อความตามป้ายกำกับที่ตั้งไว้ล่วงหน้า

งาน: การจัดประเภท | คำค้นหา: {content}

การจัดกลุ่ม

ใช้เพื่อสร้างการฝังที่ได้รับการเพิ่มประสิทธิภาพเพื่อจัดกลุ่มข้อความตามความคล้ายคลึงกัน

งาน: การจัดกลุ่ม | คำค้นหา: {content}

ความคล้ายคลึงกันเชิงความหมาย

ใช้เพื่อสร้างการฝังที่เพิ่มประสิทธิภาพเพื่อประเมินความคล้ายคลึงของข้อความ ซึ่งไม่ได้มีไว้สำหรับกรณีการใช้งานการดึงข้อมูล

งาน: ความคล้ายกันของประโยค | คำค้นหา: {content}

การดึงข้อมูลโค้ด

ใช้เพื่อดึงข้อมูลโค้ดบล็อกตามคำค้นหาที่เป็นภาษาธรรมชาติ เช่น จัดเรียงอาร์เรย์หรือกลับรายการที่ลิงก์ ระบบจะคำนวณการฝังของบล็อกโค้ดโดยใช้ retrieval_document

งาน: การดึงโค้ด | คำค้นหา: {content}

การใช้งานและข้อจำกัด

โมเดลเหล่านี้มีข้อจำกัดบางอย่างที่ผู้ใช้ควรทราบ

การใช้งานที่ตั้งใจไว้

โมเดลการฝังแบบเปิดมีการใช้งานที่หลากหลายในอุตสาหกรรมและโดเมนต่างๆ รายการการใช้งานที่เป็นไปได้ต่อไปนี้ไม่ครอบคลุมทั้งหมด จุดประสงค์ของรายการนี้คือการให้ข้อมูลตามบริบท เกี่ยวกับ Use Case ที่เป็นไปได้ซึ่งผู้สร้างโมเดลพิจารณาเป็นส่วนหนึ่งของการฝึก และการพัฒนาโมเดล

  • ความคล้ายคลึงกันเชิงความหมาย: การฝังที่ได้รับการเพิ่มประสิทธิภาพเพื่อประเมินความคล้ายคลึงกันของข้อความ เช่น ระบบการแนะนำและการตรวจหาเนื้อหาที่ซ้ำกัน
  • การแยกประเภท: การฝังที่เพิ่มประสิทธิภาพเพื่อแยกประเภทข้อความตามป้ายกำกับที่กำหนดไว้ล่วงหน้า เช่น การวิเคราะห์ความรู้สึกและการตรวจหาสแปม
  • การจัดกลุ่ม: การฝังที่เพิ่มประสิทธิภาพเพื่อจัดกลุ่มข้อความตามความคล้ายคลึงกัน เช่น การจัดระเบียบเอกสาร การวิจัยตลาด และการตรวจหาความผิดปกติ
  • การดึงข้อมูล

    • เอกสาร: การฝังที่ได้รับการเพิ่มประสิทธิภาพสำหรับการค้นหาเอกสาร เช่น การจัดทำดัชนีบทความ หนังสือ หรือหน้าเว็บสำหรับการค้นหา
    • การค้นหา: การฝังที่เพิ่มประสิทธิภาพสำหรับคำค้นหาทั่วไป เช่น การค้นหาที่กำหนดเอง
    • การค้นหาโค้ด: การฝังที่เพิ่มประสิทธิภาพสำหรับการดึงข้อมูลโค้ดบล็อกตามคำค้นหาที่เป็นภาษาธรรมชาติ เช่น คำแนะนำและค้นหาโค้ด
  • การตอบคำถาม: การฝังสำหรับคำถามในระบบการตอบคำถาม ซึ่งได้รับการเพิ่มประสิทธิภาพเพื่อค้นหาเอกสารที่ตอบคำถาม เช่น แชทบ็อกซ์

  • การยืนยันข้อเท็จจริง: การฝังสำหรับคำสั่งที่ต้องได้รับการยืนยัน ซึ่งได้รับการเพิ่มประสิทธิภาพสำหรับการดึงเอกสารที่มีหลักฐานสนับสนุนหรือ หักล้างคำสั่งดังกล่าว เช่น ระบบการตรวจสอบข้อเท็จจริงอัตโนมัติ

ข้อจำกัด

  • ข้อมูลการฝึก

    • คุณภาพและความหลากหลายของข้อมูลการฝึกมีผลอย่างมากต่อความสามารถของโมเดล อคติหรือช่องว่างในข้อมูลการฝึกอาจทำให้คำตอบของโมเดลมีข้อจำกัด
    • ขอบเขตของชุดข้อมูลการฝึกจะเป็นตัวกำหนดขอบเขตของหัวข้อที่โมเดล สามารถจัดการได้อย่างมีประสิทธิภาพ
  • ความคลุมเครือและความแตกต่างของภาษา

    • ภาษาธรรมชาติมีความซับซ้อนโดยธรรมชาติ โมเดลอาจเข้าใจ ความแตกต่างเล็กๆ น้อยๆ การประชดประชัน หรือภาษาเชิงอุปมาได้ยาก

ข้อควรพิจารณาและความเสี่ยงด้านจริยธรรม

ความเสี่ยงที่พบและการลดความเสี่ยง

  • การคงอยู่ของอคติ: ขอแนะนำให้ทำการตรวจสอบอย่างต่อเนื่อง (ใช้เมตริกการประเมิน การตรวจสอบโดยเจ้าหน้าที่) และการสำรวจการใช้เทคนิคการลดอคติ ระหว่างการฝึกโมเดล การปรับแต่ง และกรณีการใช้งานอื่นๆ
  • การนำไปใช้ในทางที่ผิดเพื่อวัตถุประสงค์ที่เป็นอันตราย: ข้อจำกัดทางเทคนิค รวมถึงการให้ความรู้แก่นักพัฒนาแอปและผู้ใช้ปลายทางจะช่วยลดการนำ Embedding ไปใช้ในแอปพลิเคชันที่เป็นอันตรายได้ เรามีแหล่งข้อมูลด้านการศึกษาและกลไกการรายงานเพื่อให้ผู้ใช้แจ้งการละเมิด การใช้งานโมเดล Gemma ที่ไม่อนุญาตระบุไว้ในนโยบายการใช้งานที่ไม่อนุญาตสำหรับ Gemma
  • การละเมิดความเป็นส่วนตัว: โมเดลได้รับการฝึกด้วยข้อมูลที่กรองเพื่อนำ ข้อมูลส่วนบุคคลบางอย่างและข้อมูลที่ละเอียดอ่อนอื่นๆ ออก เราขอแนะนำให้นักพัฒนาแอปปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวด้วยเทคนิคการรักษาความเป็นส่วนตัว

ข้อดี

ในขณะที่เปิดตัว โมเดลตระกูลนี้จะมีการใช้งานโมเดลการฝังแบบเปิดที่มีประสิทธิภาพสูง ซึ่งออกแบบมาตั้งแต่ต้นเพื่อการพัฒนา AI อย่างมีความรับผิดชอบ เมื่อเทียบกับโมเดลที่มีขนาดใกล้เคียงกัน โมเดลเหล่านี้แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่า โมเดลทางเลือกแบบเปิดอื่นๆ ที่มีขนาดเทียบเท่ากัน โดยใช้เมตริกการประเมินการเปรียบเทียบ ที่อธิบายไว้ในเอกสารนี้