บริบทแบบยาว

Gemini 2.0 Flash และ Gemini 1.5 Flash มีหน้าต่างบริบทขนาด 1 ล้านโทเค็น ส่วน Gemini 1.5 Pro มีหน้าต่างบริบทขนาด 2 ล้านโทเค็น ที่ผ่านมา โมเดลภาษาขนาดใหญ่ (LLM) ถูกจํากัดอย่างมากจากจํานวนข้อความ (หรือโทเค็น) ที่ส่งไปยังโมเดลได้พร้อมกัน หน้าต่างบริบทแบบยาว 1.5 ของ Gemini ที่มีการดึงข้อมูลเกือบสมบูรณ์แบบ (>99%) ช่วยปลดล็อก Use Case ใหม่ๆ และรูปแบบของนักพัฒนาแอปได้มากมาย

โค้ดที่คุณใช้อยู่แล้วสำหรับกรณีต่างๆ เช่น การสร้างข้อความหรืออินพุตแบบหลายรูปแบบจะใช้งานได้ทันทีกับบริบทแบบยาว

ตลอดทั้งคู่มือนี้ คุณจะได้ดูข้อมูลเบื้องต้นเกี่ยวกับกรอบเวลาบริบท วิธีที่นักพัฒนาแอปควรพิจารณาบริบทแบบยาว กรณีการใช้งานจริงต่างๆ สําหรับบริบทแบบยาว และวิธีเพิ่มประสิทธิภาพการใช้งานบริบทแบบยาว

หน้าต่างบริบทคืออะไร

วิธีพื้นฐานในการใช้โมเดล Gemini คือการส่งข้อมูล (บริบท) ไปยังโมเดล ซึ่งจะสร้างคำตอบในภายหลัง ตัวอย่างของกรอบเวลาบริบทคือความทรงจำระยะสั้น หน่วยความจำระยะสั้นของมนุษย์มีขีดจํากัดเช่นเดียวกับโมเดล Generative

อ่านข้อมูลเพิ่มเติมเกี่ยวกับวิธีการทำงานของโมเดลได้ในคู่มือ Generative AI

เริ่มต้นใช้งานบริบทแบบยาว

โมเดล Generative ส่วนใหญ่ที่สร้างในช่วง 2-3 ปีที่ผ่านมาสามารถประมวลผลโทเค็นได้ครั้งละ 8,000 รายการเท่านั้น รุ่นที่ใหม่กว่าสามารถรับโทเค็นได้สูงสุด 32,000 โทเค็นหรือ 128,000 โทเค็น Gemini 1.5 เป็นโมเดลแรกที่รองรับโทเค็นได้ 1 ล้านรายการ และตอนนี้รองรับ2 ล้านรายการด้วย Gemini 1.5 Pro

ในทางปฏิบัติ โทเค็น 1 ล้านรายการจะมีลักษณะดังนี้

  • โค้ด 50,000 บรรทัด (มาตรฐาน 80 อักขระต่อบรรทัด)
  • SMS ทั้งหมดที่คุณส่งในช่วง 5 ปีที่ผ่านมา
  • นวนิยายภาษาอังกฤษขนาดกลาง 8 เรื่อง
  • ข้อความถอดเสียงของพอดแคสต์ความยาวเฉลี่ยมากกว่า 200 ตอน

แม้ว่าโมเดลจะรับบริบทได้มากขึ้น แต่ความเชื่อเดิมๆ เกี่ยวกับการใช้โมเดลภาษาขนาดใหญ่ส่วนใหญ่จะถือว่าโมเดลมีข้อจํากัดนี้โดยเนื้อแท้ ซึ่งในปี 2024 นี้ไม่ใช่เช่นนั้นแล้ว

กลยุทธ์ทั่วไปบางประการในการจัดการกับข้อจํากัดของกรอบบริบทขนาดเล็กมีดังนี้

  • การนำข้อความเก่าออกจากหน้าต่างบริบทโดยพลเมื่อข้อความใหม่เข้ามา
  • สรุปเนื้อหาก่อนหน้าและแทนที่ด้วยสรุปเมื่อกรอบบริบทใกล้จะเต็ม
  • การใช้ RAG กับการค้นหาเชิงความหมายเพื่อย้ายข้อมูลจากกรอบบริบทไปยังฐานข้อมูลเวกเตอร์
  • การใช้ตัวกรองแบบกำหนดหรือแบบ Generative เพื่อนำข้อความ/อักขระบางรายการออกจากพรอมต์เพื่อประหยัดโทเค็น

แม้ว่าในบางกรณี เงื่อนไขเหล่านี้จะยังคงเกี่ยวข้อง แต่ตอนนี้ตําแหน่งเริ่มต้นเริ่มต้นคือใส่โทเค็นทั้งหมดลงในหน้าต่างบริบท เนื่องจากรูปแบบ Gemini สร้างขึ้นโดยมีหน้าต่างบริบทที่ยาว จึงสามารถเรียนรู้ในบริบทได้มากกว่า ตัวอย่างเช่น เมื่อใช้เพียงสื่อการเรียนการสอน (ตำราไวยากรณ์อ้างอิง 500 หน้า พจนานุกรม และประโยคคู่เปรียบเทียบอีกประมาณ 400 ประโยค) ที่มีบริบททั้งหมด Gemini 1.5 Pro และ Gemini 1.5 Flash จะสามารถเรียนรู้ที่จะแปลจากภาษาอังกฤษเป็นภาษา Kalamang ซึ่งเป็นภาษาปาปัวนิวกินีที่มีผู้พูดไม่ถึง 200 คนและแทบไม่มีตัวตนบนโลกออนไลน์ ด้วยคุณภาพที่คล้ายกับผู้ที่เรียนรู้จากสื่อเดียวกัน

ตัวอย่างนี้เน้นให้เห็นว่าคุณจะเริ่มคิดถึงสิ่งที่เป็นไปได้ด้วยบริบทแบบยาวและความสามารถในการเรียนรู้ในบริบทของโมเดล Gemini ได้อย่างไร

กรณีการใช้งานแบบบริบทยาว

แม้ว่ากรณีการใช้งานมาตรฐานสําหรับโมเดล Generative ส่วนใหญ่จะยังคงเป็นการป้อนข้อความ แต่กลุ่มโมเดล Gemini 1.5 จะช่วยให้เกิดกระบวนทัศน์ใหม่สําหรับกรณีการใช้งานแบบหลายรูปแบบ โมเดลเหล่านี้เข้าใจข้อความ วิดีโอ เสียง และรูปภาพได้ตั้งแต่ต้น โดยมาพร้อมกับ Gemini API ที่รับไฟล์ประเภทต่างๆ เพื่อความสะดวก

ข้อความแบบยาว

ข้อความพิสูจน์แล้วว่าเป็นเลเยอร์ข้อมูลอัจฉริยะที่รองรับแรงขับเคลื่อนส่วนใหญ่เกี่ยวกับ LLM ดังที่ได้กล่าวไปก่อนหน้านี้ ข้อจํากัดด้านการใช้งานส่วนใหญ่ของ LLM เกิดจากกรอบบริบทที่ไม่ใหญ่พอสําหรับทํางานบางอย่าง ด้วยเหตุนี้ เราจึงนำการสร้างที่เพิ่มการดึงข้อมูล (RAG) และเทคนิคอื่นๆ มาใช้อย่างรวดเร็ว ซึ่งจะส่งข้อมูลตามบริบทที่เกี่ยวข้องให้โมเดลแบบไดนามิก ตอนนี้เมื่อหน้าต่างบริบทมีขนาดใหญ่ขึ้นเรื่อยๆ (ปัจจุบันมีสูงสุด 2 ล้านรายการใน Gemini 1.5 Pro) เทคนิคใหม่ๆ ก็เริ่มพร้อมใช้งาน ซึ่งจะปลดล็อกกรณีการใช้งานใหม่ๆ

กรณีการใช้งานมาตรฐานและที่กําลังเกิดขึ้นสําหรับบริบทแบบข้อความยาวมีดังนี้

  • การสรุปชุดข้อความขนาดใหญ่
    • ตัวเลือกการสรุปก่อนหน้านี้ที่มีโมเดลบริบทขนาดเล็กกว่าจะต้องมีกรอบเวลาแบบเลื่อนหรือเทคนิคอื่นๆ เพื่อเก็บสถานะของส่วนก่อนหน้าไว้เมื่อมีการส่งโทเค็นใหม่ไปยังโมเดล
  • คำถามและการตอบคำถาม
    • ที่ผ่านมา การทำเช่นนี้ทำได้เฉพาะกับ RAG เนื่องจากบริบทมีจำนวนจำกัดและการเรียกคืนข้อเท็จจริงของโมเดลมีน้อย
  • เวิร์กโฟลว์ของตัวแทน
    • ข้อความเป็นรากฐานของวิธีที่ตัวแทนเก็บสถานะสิ่งที่ทําไปแล้วและสิ่งที่ต้องทำ การไม่มีข้อมูลเพียงพอเกี่ยวกับโลกและเป้าหมายของตัวแทนเป็นข้อจํากัดความน่าเชื่อถือของตัวแทน

การเรียนรู้ในบริบทแบบหลายช็อตเป็นหนึ่งในความสามารถที่โดดเด่นที่สุดที่โมเดลบริบทแบบยาวมอบให้ งานวิจัยแสดงให้เห็นว่าการนํารูปแบบตัวอย่างแบบ "ช็อตเดียว" หรือ "ช็อตหลายแบบ" ทั่วไปมาใช้ ซึ่งจะแสดงตัวอย่างงาน 1 หรือ 2 รายการต่อโมเดล แล้วปรับขนาดเป็นหลายร้อย หลายพัน หรือหลายแสนตัวอย่าง อาจทําให้โมเดลมีความสามารถใหม่ๆ นอกจากนี้ แนวทางแบบหลายช็อตยังมีประสิทธิภาพคล้ายกับโมเดลที่ได้รับการปรับแต่งอย่างละเอียดสำหรับงานหนึ่งๆ ด้วย สําหรับกรณีการใช้งานที่ประสิทธิภาพของโมเดล Gemini ยังไม่เพียงพอสําหรับการทําให้ใช้งานได้จริง คุณอาจลองใช้วิธีการหลายช็อต ดังที่คุณอาจได้เห็นในภายหลังในส่วนการเพิ่มประสิทธิภาพบริบทแบบยาว การแคชบริบททําให้ภาระงานโทเค็นอินพุตสูงประเภทนี้มีความคุ้มค่าทางเศรษฐกิจมากขึ้นและอาจลดเวลาในการตอบสนองในบางกรณี

วิดีโอแบบยาว

ประโยชน์ของเนื้อหาวิดีโอถูกจำกัดมาอย่างยาวนานเนื่องจากสื่อนี้ไม่สามารถเข้าถึงได้ เนื้อหาอ่านคร่าวๆ ได้ยาก ข้อความถอดเสียงมักไม่สามารถจับประเด็นของวิดีโอได้ และเครื่องมือส่วนใหญ่ไม่ได้ประมวลผลรูปภาพ ข้อความ และเสียงร่วมกัน เมื่อใช้ Gemini 1.5 ความสามารถของข้อความบริบทแบบยาวจะเปลี่ยนเป็นความสามารถในการให้เหตุผลและตอบคําถามเกี่ยวกับอินพุตแบบหลายสื่อด้วยประสิทธิภาพที่ยั่งยืน เมื่อทดสอบ Gemini 1.5 Flash กับปัญหา Needle in a Haystack ของวิดีโอซึ่งมีโทเค็น 1 ล้านรายการ พบว่ามีการเรียกคืนวิดีโอในกรอบเวลาบริบทได้มากกว่า 99.8% และ 1.5 Pro มีประสิทธิภาพที่ยอดเยี่ยมในการเปรียบเทียบ MME ของวิดีโอ

กรณีการใช้งานมาตรฐานและที่กำลังเกิดขึ้นใหม่สำหรับบริบทวิดีโอแบบยาวมีดังนี้

  • วิดีโอถามและตอบ
  • หน่วยความจำวิดีโอตามที่แสดงใน Project Astra ของ Google
  • คำบรรยายวิดีโอ
  • ระบบการแนะนำวิดีโอ โดยการเพิ่มคุณค่าให้กับข้อมูลเมตาที่มีอยู่ด้วยความเข้าใจแบบมัลติโมดัลแบบใหม่
  • การปรับแต่งวิดีโอโดยพิจารณาจากชุดข้อมูลและข้อมูลเมตาของวิดีโอที่เกี่ยวข้อง จากนั้นนำส่วนในวิดีโอที่ไม่เกี่ยวข้องกับผู้ชมออก
  • การดูแลเนื้อหาวิดีโอ
  • การประมวลผลวิดีโอแบบเรียลไทม์

เมื่อทำงานกับวิดีโอ สิ่งสำคัญคือต้องพิจารณาวิธีประมวลผลวิดีโอเป็นโทเค็น ซึ่งส่งผลต่อการเรียกเก็บเงินและขีดจำกัดการใช้งาน ดูข้อมูลเพิ่มเติมเกี่ยวกับการพรอมต์ด้วยไฟล์วิดีโอได้ในคำแนะนำเกี่ยวกับการพรอมต์

เสียงแบบยาว

โมเดล Gemini 1.5 เป็นโมเดลภาษาขนาดใหญ่แบบมัลติโมดัลแบบดั้งเดิมโมเดลแรกที่สามารถเข้าใจเสียง ที่ผ่านมาเวิร์กโฟลว์ของนักพัฒนาแอปทั่วไปจะเกี่ยวข้องกับการต่อโมเดลเฉพาะโดเมนหลายรายการเข้าด้วยกัน เช่น โมเดลการถอดเสียงเป็นคำและโมเดลการถอดคำเป็นคำ เพื่อประมวลผลเสียง ซึ่งส่งผลให้เกิดความล่าช้าเพิ่มเติมจากการใช้คําขอแบบไปกลับหลายรายการ และประสิทธิภาพลดลง ซึ่งมักเกิดจากสถาปัตยกรรมที่ไม่เชื่อมต่อกันของการตั้งค่าโมเดลหลายรายการ

ในการประเมินกองหญ้าเสียงมาตรฐาน Gemini 1.5 Pro สามารถค้นหาเสียงที่ซ่อนอยู่ได้ 100% ของการทดสอบ และ Gemini 1.5 Flash สามารถค้นหาได้ 98.7% ของการทดสอบ Gemini 1.5 Flash รองรับเสียงสูงสุด 9.5 ชั่วโมงในคำขอเดียว และ Gemini 1.5 Pro รองรับเสียงสูงสุด 19 ชั่วโมงโดยใช้หน้าต่างบริบทขนาด 2 ล้านโทเค็น นอกจากนี้ ในชุดทดสอบที่เป็นคลิปเสียงความยาว 15 นาที Gemini 1.5 Pro บันทึกอัตราความผิดพลาดของคำ (WER) ไว้ที่ประมาณ 5.5% ซึ่งต่ำกว่าโมเดลการถอดเสียงเป็นคำเฉพาะทางมาก โดยไม่ต้องมีความซับซ้อนเพิ่มเติมในการแบ่งกลุ่มอินพุตและการเตรียมข้อมูลล่วงหน้า

ตัวอย่าง Use Case มาตรฐานและที่กําลังเกิดขึ้นสําหรับบริบทเสียง ได้แก่

  • การถอดเสียงเป็นคำและการแปลภาษาแบบเรียลไทม์
  • พอดแคสต์ / วิดีโอแบบถามและตอบ
  • การถอดเสียงเป็นคำและสรุปการประชุม
  • ผู้ช่วยเสียง

ดูข้อมูลเพิ่มเติมเกี่ยวกับการพรอมต์ด้วยไฟล์เสียงได้ในคำแนะนำเกี่ยวกับการพรอมต์

การเพิ่มประสิทธิภาพบริบทแบบยาว

การเพิ่มประสิทธิภาพหลักเมื่อทํางานกับบริบทแบบยาวและโมเดล Gemini 1.5 คือการใช้การแคชบริบท นอกจากข้อจำกัดด้านความสามารถในการประมวลผลโทเค็นจำนวนมากในคำขอเดียวแล้ว ข้อจำกัดหลักอีกประการหนึ่งคือต้นทุน หากมีแอป "แชทกับข้อมูลของคุณ" ที่ผู้ใช้อัปโหลดไฟล์ PDF 10 ไฟล์ วิดีโอ และเอกสารงานบางส่วน ก่อนหน้านี้คุณจะต้องทำงานร่วมกับเครื่องมือ/เฟรมเวิร์กการสร้างการดึงข้อมูลแบบเพิ่มประสิทธิภาพ (RAG) ที่ซับซ้อนมากขึ้นเพื่อประมวลผลคำขอเหล่านี้และจ่ายเงินจํานวนมากสำหรับโทเค็นที่ย้ายไปยังกรอบบริบท ตอนนี้คุณสามารถแคชไฟล์ที่ผู้ใช้อัปโหลดและชำระเงินเพื่อจัดเก็บไฟล์เหล่านั้นแบบรายชั่วโมงได้แล้ว ตัวอย่างเช่น ต้นทุนอินพุต / เอาต์พุตต่อคำขอที่ใช้ Gemini 1.5 Flash จะน้อยกว่าต้นทุนอินพุต / เอาต์พุตมาตรฐานประมาณ 4 เท่า ดังนั้นหากผู้ใช้แชทกับข้อมูลของตนมากพอ คุณจะประหยัดค่าใช้จ่ายได้มากในฐานะนักพัฒนาแอป

ข้อจำกัดเกี่ยวกับบริบทแบบยาว

ในส่วนต่างๆ ของคู่มือนี้ เราได้พูดถึงวิธีที่โมเดล Gemini 1.5 มีประสิทธิภาพสูงในการประเมินการดึงข้อมูลแบบหาเข็มในกองหญ้า การทดสอบเหล่านี้พิจารณาการตั้งค่าพื้นฐานที่สุด ซึ่งคุณมีเข็มเพียงเล่มเดียวที่ต้องการค้นหา ในกรณีที่คุณอาจมี "เข็ม" หลายเล่มหรือข้อมูลเฉพาะที่กําลังมองหาอยู่ โมเดลจะทํางานอย่างไม่แม่นยํา ประสิทธิภาพอาจแตกต่างกันไปอย่างมากโดยขึ้นอยู่กับบริบท เรื่องนี้เป็นสิ่งที่ควรพิจารณาเนื่องจากมีค่าใช้จ่ายที่ตามมาจากการดึงข้อมูลที่เหมาะสม คุณจะได้รับผลลัพธ์ประมาณ 99% ในคำค้นหาเดียว แต่จะต้องจ่ายค่าโทเค็นอินพุตทุกครั้งที่ส่งคำค้นหานั้น ดังนั้น หากต้องการดึงข้อมูล 100 รายการและต้องการประสิทธิภาพ 99% คุณอาจต้องส่งคำขอ 100 รายการ นี่เป็นตัวอย่างที่ดีที่แสดงให้เห็นว่าแคชตามบริบทสามารถลดต้นทุนที่เกี่ยวข้องกับการใช้รูปแบบ Gemini ได้อย่างมีนัยสําคัญ ทั้งยังรักษาประสิทธิภาพให้สูงได้

คำถามที่พบบ่อย

ฉันจะสูญเสียประสิทธิภาพของรูปแบบไหมเมื่อเพิ่มโทเค็นลงในคําค้นหา

โดยทั่วไปแล้ว หากคุณไม่จําเป็นต้องส่งโทเค็นไปยังโมเดล คุณควรหลีกเลี่ยงการส่งโทเค็น อย่างไรก็ตาม หากคุณมีโทเค็นจำนวนมากที่มีข้อมูลบางส่วนและต้องการตั้งคำถามเกี่ยวกับข้อมูลนั้น โมเดลจะดึงข้อมูลดังกล่าวออกมาได้ (ความแม่นยำสูงสุด 99% ในหลายกรณี)

Gemini 1.5 Pro มีประสิทธิภาพเป็นอย่างไรในการทดสอบมาตรฐานการค้นหาเข็มในกองหญ้า

Gemini 1.5 Pro ให้การเรียกคืน 100% ได้สูงสุด 530,000 โทเค็น และการเรียกคืนมากกว่า 99.7% สูงสุด 1 ล้านโทเค็น

ฉันจะลดต้นทุนด้วยข้อความค้นหาแบบบริบทยาวได้อย่างไร

หากคุณมีชุดโทเค็น / บริบทที่คล้ายกันซึ่งต้องการนํามาใช้ซ้ำหลายครั้ง การแคชบริบทจะช่วยลดความซับซ้อนในการถามคําถามเกี่ยวกับข้อมูลนั้น

ฉันจะเข้าถึงหน้าต่างบริบทขนาด 2 ล้านโทเค็นได้อย่างไร

ตอนนี้นักพัฒนาแอปทุกคนมีสิทธิ์เข้าถึงหน้าต่างบริบทขนาด 2 ล้านโทเค็นด้วย Gemini 1.5 Pro

ความยาวของบริบทส่งผลต่อเวลาในการตอบสนองของโมเดลไหม

คำขอแต่ละรายการจะมีเวลาในการตอบสนองคงที่ไม่ว่าจะมีขนาดเท่าใดก็ตาม แต่โดยทั่วไปแล้วการค้นหาที่ยาวกว่าจะมีเวลาในการตอบสนองนานกว่า (เวลาที่ใช้ในการรับโทเค็นแรก)

ความสามารถของบริบทแบบยาวระหว่าง Gemini 1.5 Flash กับ Gemini 1.5 Pro แตกต่างกันไหม

มี ตัวเลขบางส่วนได้กล่าวถึงในส่วนต่างๆ ของคู่มือนี้ แต่โดยทั่วไปแล้ว Gemini 1.5 Pro จะมีประสิทธิภาพมากกว่าใน Use Case บริบทแบบยาวส่วนใหญ่