โมเดล Gemini หลายรุ่นมีหน้าต่างบริบทขนาดใหญ่ที่รองรับโทเค็น 1 ล้านโทเค็นขึ้นไป ในอดีต โมเดลภาษาขนาดใหญ่ (LLM) ถูกจำกัดอย่างมากด้วย ปริมาณข้อความ (หรือโทเค็น) ที่ส่งไปยังโมเดลได้ในครั้งเดียว หน้าต่างบริบทแบบยาวของ Gemini จะปลดล็อกกรณีการใช้งานใหม่ๆ และกระบวนทัศน์ของนักพัฒนาซอฟต์แวร์ มากมาย
โค้ดที่คุณใช้ในกรณีต่างๆ เช่น การสร้างข้อความหรืออินพุตแบบมัลติโมดอลจะทำงานได้โดยไม่ต้องเปลี่ยนแปลงใดๆ เมื่อใช้กับบริบทแบบยาว
เอกสารนี้จะให้ภาพรวมของสิ่งที่คุณทำได้โดยใช้โมเดลที่มีหน้าต่างบริบทขนาด 1 ล้านโทเค็นขึ้นไป หน้านี้จะให้ภาพรวมโดยย่อของหน้าต่างบริบท และสำรวจวิธีที่นักพัฒนาซอฟต์แวร์ควรพิจารณาบริบทแบบยาว กรณีการใช้งานจริงต่างๆ สำหรับบริบทแบบยาว และวิธีเพิ่มประสิทธิภาพการใช้งานบริบทแบบยาว
ดูขนาดหน้าต่างบริบทของโมเดลที่เฉพาะเจาะจงได้ที่หน้าโมเดล
หน้าต่างบริบทคืออะไร
วิธีพื้นฐานในการใช้โมเดล Gemini คือการส่งข้อมูล (บริบท) ไปยังโมเดล ซึ่งจะสร้างคำตอบในภายหลัง การเปรียบเทียบ หน้าต่างบริบทคือหน่วยความจำระยะสั้น หน่วยความจำระยะสั้นของคนเราจัดเก็บข้อมูลได้จำกัด และโมเดล Generative ก็เช่นกัน
อ่านเพิ่มเติมเกี่ยวกับวิธีการทำงานของโมเดลเบื้องหลังได้ในคำแนะนำเกี่ยวกับโมเดล Generative
เริ่มต้นใช้งานบริบทแบบยาว
โมเดล Generative เวอร์ชันก่อนหน้าประมวลผลได้ครั้งละ 8,000 โทเค็นเท่านั้น โมเดลรุ่นใหม่ๆ ได้ขยายขีดจำกัดนี้ออกไปอีกโดยยอมรับโทเค็น 32,000 หรือแม้แต่ 128,000 โทเค็น Gemini เป็นโมเดลแรกที่รับโทเค็นได้ 1 ล้านโทเค็น
ในทางปฏิบัติ โทเค็น 1 ล้านรายการจะมีลักษณะดังนี้
- โค้ด 50,000 บรรทัด (มีอักขระมาตรฐาน 80 ตัวต่อบรรทัด)
- ข้อความทั้งหมดที่คุณส่งในช่วง 5 ปีที่ผ่านมา
- นวนิยายภาษาอังกฤษความยาวปานกลาง 8 เรื่อง
- ข้อความถอดเสียงของตอนพอดแคสต์ที่มีความยาวโดยเฉลี่ยกว่า 200 ตอน
หน้าต่างบริบทที่จำกัดมากขึ้นซึ่งพบได้ทั่วไปในโมเดลอื่นๆ อีกมากมายมักต้องใช้กลยุทธ์ต่างๆ เช่น การทิ้งข้อความเก่าโดยพลการ การสรุปเนื้อหา การใช้ RAG กับฐานข้อมูลเวกเตอร์ หรือการกรองพรอมต์เพื่อประหยัดโทเค็น
แม้ว่าเทคนิคเหล่านี้จะยังคงมีประโยชน์ในบางสถานการณ์ แต่หน้าต่างบริบทที่กว้างขวางของ Gemini ก็ช่วยให้คุณใช้วิธีการที่ตรงไปตรงมามากขึ้นได้ นั่นคือการให้ข้อมูลที่เกี่ยวข้องทั้งหมด ตั้งแต่แรก เนื่องจากโมเดล Gemini สร้างขึ้นมาโดยเฉพาะให้มีความสามารถด้านบริบท จำนวนมาก จึงแสดงให้เห็นถึงการเรียนรู้ในบริบทที่มีประสิทธิภาพ ตัวอย่างเช่น การใช้เฉพาะสื่อการเรียนการสอนในบริบท (ไวยากรณ์อ้างอิง 500 หน้า พจนานุกรม และประโยคคู่ขนานประมาณ 400 ประโยค) ทำให้ Gemini เรียนรู้ที่จะแปลจากภาษาอังกฤษเป็นภาษากาลามัง ซึ่งเป็นภาษาปาปัวที่มีผู้พูดน้อยกว่า 200 คน โดยมีคุณภาพคล้ายกับผู้เรียนที่เป็นมนุษย์ซึ่งใช้สื่อเดียวกัน ซึ่งแสดงให้เห็นถึงการเปลี่ยนแปลงกระบวนทัศน์ที่บริบทแบบยาวของ Gemini ช่วยให้เกิดขึ้นได้ โดยการเพิ่มความเป็นไปได้ใหม่ๆ ผ่านการเรียนรู้ในบริบทที่แข็งแกร่ง
กรณีการใช้งานบริบทแบบยาว
แม้ว่ากรณีการใช้งานมาตรฐานสำหรับโมเดล Generative ส่วนใหญ่ยังคงเป็นการป้อนข้อความ แต่กลุ่มโมเดล Gemini ก็ช่วยให้เกิดกระบวนทัศน์ใหม่ของกรณีการใช้งานแบบมัลติโมดัล โมเดลเหล่านี้เข้าใจข้อความ วิดีโอ เสียง และรูปภาพได้โดยกำเนิด โดยมาพร้อมกับ Gemini API ที่รับไฟล์มัลติโมดัลเพื่อความสะดวก
ข้อความแบบยาว
ข้อความพิสูจน์ให้เห็นว่าเป็นเลเยอร์ของข้อมูลอัจฉริยะที่รองรับโมเมนตัมส่วนใหญ่เกี่ยวกับ LLM ดังที่ได้กล่าวไปก่อนหน้านี้ ข้อจำกัดในทางปฏิบัติของ LLM ส่วนใหญ่เกิดจากการไม่มีหน้าต่างบริบทที่ใหญ่พอที่จะทำงานบางอย่างได้ ซึ่งนำไปสู่การนำการสร้างแบบดึงข้อมูลเสริม (RAG) และเทคนิคอื่นๆ มาใช้กันอย่างรวดเร็ว ซึ่งจะให้ข้อมูลเชิงบริบทที่เกี่ยวข้องแก่โมเดล แบบไดนามิก ปัจจุบันหน้าต่างบริบทมีขนาดใหญ่ขึ้นเรื่อยๆ จึงมีเทคนิคใหม่ๆ ที่ช่วยให้สามารถใช้กับ Use Case ใหม่ๆ ได้
กรณีการใช้งานที่กำลังมาแรงและมาตรฐานสำหรับบริบทขนาดยาวที่เป็นข้อความมีดังนี้
- สรุปคลังข้อความขนาดใหญ่
- ตัวเลือกการสรุปก่อนหน้านี้ที่มีโมเดลบริบทขนาดเล็กกว่าจะต้องใช้ หน้าต่างแบบเลื่อนหรือเทคนิคอื่นๆ เพื่อรักษาสถานะของส่วนก่อนหน้า เมื่อมีการส่งโทเค็นใหม่ไปยังโมเดล
- การถามและตอบ
- ในอดีต การดำเนินการนี้ทำได้เฉพาะกับ RAG เนื่องจากบริบทมีจำนวนจำกัดและโมเดลเรียกคืนข้อเท็จจริงได้ต่ำ
- เวิร์กโฟลว์ของ AI ในการดำเนินการได้เอง
- ข้อความเป็นรากฐานของวิธีที่เอเจนต์รักษาสถานะของสิ่งที่ทำไปแล้ว และสิ่งที่ต้องทำ การมีข้อมูลเกี่ยวกับโลก และเป้าหมายของเอเจนต์ไม่เพียงพอเป็นข้อจำกัดด้านความน่าเชื่อถือของเอเจนต์
การเรียนรู้ในบริบทแบบหลายตัวอย่างเป็นหนึ่งในความสามารถที่โดดเด่นที่สุดที่โมเดลบริบทแบบยาวปลดล็อก งานวิจัยแสดงให้เห็นว่า การใช้ตัวอย่าง "แบบนัดเดียวจบ" หรือ "แบบหลายนัดจบ" ที่พบได้ทั่วไป ซึ่งโมเดล จะได้รับตัวอย่างงาน 1-2 ตัวอย่าง และการขยายขนาดตัวอย่างเหล่านั้นเป็น หลายร้อย หลายพัน หรือแม้แต่หลายแสนตัวอย่าง อาจนำไปสู่ ความสามารถใหม่ๆ ของโมเดลได้ นอกจากนี้ แนวทางแบบหลายนัดยังแสดงให้เห็นว่ามีประสิทธิภาพ คล้ายกับโมเดลที่ได้รับการปรับแต่งสำหรับงานที่เฉพาะเจาะจง สำหรับกรณีการใช้งาน ที่ประสิทธิภาพของโมเดล Gemini ยังไม่เพียงพอสำหรับการเปิดตัว ในเวอร์ชันที่ใช้งานจริง คุณสามารถลองใช้แนวทางแบบหลายนัด ดังที่คุณอาจได้เห็นในส่วนการเพิ่มประสิทธิภาพบริบทแบบยาวในภายหลัง การแคชบริบททำให้ภาระงานของโทเค็นอินพุตสูงประเภทนี้มีความเป็นไปได้ทางเศรษฐศาสตร์มากขึ้น และยังช่วยลดเวลาในการตอบสนองในบางกรณีอีกด้วย
วิดีโอแบบยาว
ประโยชน์ของเนื้อหาวิดีโอถูกจำกัดมานานเนื่องจากสื่อเองขาดการเข้าถึง การข้ามเนื้อหาทำได้ยาก ข้อความถอดเสียงมักจับภาพความแตกต่างของวิดีโอไม่ได้ และเครื่องมือส่วนใหญ่ไม่ประมวลผลรูปภาพ ข้อความ และเสียงร่วมกัน ความสามารถด้านข้อความที่มีบริบทขนาดยาวของ Gemini จะเปลี่ยนเป็นความสามารถในการให้เหตุผลและตอบคำถามเกี่ยวกับอินพุตแบบมัลติโมดอลพร้อมประสิทธิภาพที่สม่ำเสมอ
กรณีการใช้งานที่กำลังมาแรงและมาตรฐานสำหรับบริบทแบบยาวของวิดีโอมีดังนี้
- การถามและตอบคำถามผ่านวิดีโอ
- หน่วยความจำวิดีโอ ดังที่แสดงใน Project Astra ของ Google
- การใส่คำบรรยายแทนเสียงในวิดีโอ
- ระบบวิดีโอแนะนำโดยการเพิ่มข้อมูลเมตาที่มีอยู่ด้วยความเข้าใจแบบมัลติโมดัลใหม่
- การปรับแต่งวิดีโอโดยดูจากคลังข้อมูลและข้อมูลเมตาวิดีโอที่เกี่ยวข้อง แล้วนำส่วนของวิดีโอที่ไม่เกี่ยวข้องกับผู้ชมออก
- การกลั่นกรองเนื้อหาวิดีโอ
- การประมวลผลวิดีโอแบบเรียลไทม์
เมื่อทำงานกับวิดีโอ สิ่งสำคัญคือต้องพิจารณาว่าวิดีโอได้รับการ ประมวลผลเป็นโทเค็นอย่างไร ซึ่งจะส่งผลต่อ การเรียกเก็บเงินและโควต้าการใช้งาน ดูข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งโดยใช้ไฟล์วิดีโอได้ในคำแนะนำในการแจ้ง
เสียงแบบยาว
โมเดล Gemini เป็นโมเดลภาษาขนาดใหญ่ที่ทำงานได้กับข้อมูลหลายรูปแบบแบบเนทีฟ รุ่นแรกที่เข้าใจเสียง โดยปกติแล้ว เวิร์กโฟลว์ของนักพัฒนาซอฟต์แวร์จะ เกี่ยวข้องกับการเชื่อมโยงโมเดลเฉพาะโดเมนหลายรายการเข้าด้วยกัน เช่น โมเดลเสียงพูดเป็นข้อความและโมเดลข้อความเป็นข้อความ เพื่อประมวลผลเสียง ซึ่งส่งผลให้เกิดเวลาในการตอบสนองเพิ่มเติมที่จำเป็นโดยการส่งคำขอแบบไปกลับหลายครั้ง และประสิทธิภาพลดลงซึ่งมักเกิดจากสถาปัตยกรรมที่ไม่ได้เชื่อมต่อของ การตั้งค่าโมเดลหลายรายการ
กรณีการใช้งานที่กำลังมาแรงและมาตรฐานสำหรับบริบทเสียงมีดังนี้
- การถอดเสียงเป็นคำและการแปลภาษาแบบเรียลไทม์
- การถามและตอบคำถามเกี่ยวกับพอดแคสต์ / วิดีโอ
- การถอดเสียงเป็นคำและการสรุปการประชุม
- ผู้ช่วยแบบเสียง
ดูข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งด้วยไฟล์เสียงได้ในคำแนะนำ การแจ้ง
การเพิ่มประสิทธิภาพบริบทที่ยาว
การเพิ่มประสิทธิภาพหลักเมื่อทำงานกับบริบทแบบยาวและโมเดล Gemini คือการใช้การแคชบริบท นอกจากข้อจำกัดก่อนหน้านี้ที่ ไม่สามารถประมวลผลโทเค็นจำนวนมากในคำขอเดียวได้แล้ว ข้อจำกัดหลักอีกอย่างก็คือ ค่าใช้จ่าย หากคุณมีแอป "แชทกับข้อมูลของคุณ" ที่ผู้ใช้ อัปโหลด PDF 10 รายการ วิดีโอ และเอกสารงานบางส่วน ในอดีตคุณจะต้อง ทำงานกับเครื่องมือ/เฟรมเวิร์กการสร้างการดึงข้อมูลที่เพิ่มประสิทธิภาพ (RAG) ที่ซับซ้อนมากขึ้น เพื่อประมวลผลคำขอเหล่านี้ และจ่ายค่าโทเค็นจำนวนมาก ที่ย้ายไปยังหน้าต่างบริบท ตอนนี้คุณสามารถแคชไฟล์ที่ผู้ใช้ อัปโหลดและชำระเงินเพื่อจัดเก็บไฟล์เหล่านั้นตามชั่วโมงได้แล้ว ตัวอย่างเช่น ต้นทุนอินพุต / เอาต์พุตต่อคำขอด้วย Gemini Flash จะน้อยกว่าต้นทุนอินพุต / เอาต์พุตมาตรฐานประมาณ 4 เท่า ดังนั้นหากผู้ใช้แชทกับข้อมูลของตนมากพอ คุณในฐานะนักพัฒนาแอปก็จะประหยัดค่าใช้จ่ายได้มาก
ข้อจำกัดของบริบทแบบยาว
ในส่วนต่างๆ ของคู่มือนี้ เราได้พูดถึงวิธีที่โมเดล Gemini บรรลุ ประสิทธิภาพสูงในการประเมินการดึงข้อมูลแบบเข็มในกองฟางต่างๆ การทดสอบเหล่านี้พิจารณาการตั้งค่าพื้นฐานที่สุด ซึ่งคุณมีเข็มเดียวที่กำลังมองหา ในกรณีที่คุณอาจมี "เข็ม" หลายเล่มหรือข้อมูลเฉพาะ ที่คุณกำลังมองหา โมเดลจะไม่ทำงานด้วยความแม่นยำเท่าเดิม ประสิทธิภาพอาจแตกต่างกันอย่างมากตามบริบท คุณควรพิจารณาเรื่องนี้เนื่องจากมีข้อแลกเปลี่ยนโดยธรรมชาติระหว่างการดึงข้อมูลที่ถูกต้องและการดึงข้อมูลที่คุ้มค่า คุณอาจได้รับผลลัพธ์ประมาณ 99% จากการค้นหาครั้งเดียว แต่ คุณต้องจ่ายค่าโทเค็นอินพุตทุกครั้งที่ส่งคำค้นหานั้น ดังนั้น หากต้องการดึงข้อมูล 100 รายการ และต้องการประสิทธิภาพ 99% คุณก็ อาจต้องส่งคำขอ 100 รายการ นี่เป็นตัวอย่างที่ดีที่การแคชบริบท สามารถลดต้นทุนที่เกี่ยวข้องกับการใช้โมเดล Gemini ได้อย่างมาก ในขณะที่ยังคงรักษาประสิทธิภาพไว้ในระดับสูง
คำถามที่พบบ่อย
ฉันควรวางคำค้นหาไว้ที่ใดในหน้าต่างบริบท
ในกรณีส่วนใหญ่ โดยเฉพาะอย่างยิ่งหากบริบททั้งหมดมีความยาว โมเดลจะทำงานได้ดีขึ้นหากคุณวางคำค้นหา / คำถามไว้ที่ส่วนท้ายของพรอมต์ (หลังจากบริบทอื่นๆ ทั้งหมด)
ประสิทธิภาพของโมเดลจะลดลงไหมเมื่อเพิ่มโทเค็นลงในคำค้นหา
โดยทั่วไปแล้ว หากไม่จำเป็นต้องส่งโทเค็นไปยังโมเดล คุณควรหลีกเลี่ยงการส่งโทเค็น อย่างไรก็ตาม หากคุณมีโทเค็นจำนวนมากที่มีข้อมูลบางอย่างและต้องการถามคำถามเกี่ยวกับข้อมูลนั้น โมเดลจะมีความสามารถสูงในการดึงข้อมูลดังกล่าว (ความแม่นยำสูงสุด 99% ในหลายกรณี)
ฉันจะลดต้นทุนด้วยการค้นหาที่มีบริบทแบบยาวได้อย่างไร
หากคุณมีชุดโทเค็น / บริบทที่คล้ายกันซึ่งต้องการนำกลับมาใช้หลายครั้ง การแคชบริบทจะช่วยลดค่าใช้จ่ายที่เกี่ยวข้องกับการถามคำถามเกี่ยวกับข้อมูลนั้นได้
ความยาวบริบทส่งผลต่อเวลาในการตอบสนองของโมเดลไหม
คำขอใดก็ตามจะมีเวลาในการตอบสนองที่แน่นอนไม่มากก็น้อย ไม่ว่าจะมีขนาดเท่าใดก็ตาม แต่โดยทั่วไปแล้ว คำขอที่ยาวกว่าจะมีเวลาในการตอบสนองที่สูงกว่า (เวลาในการแสดงโทเค็นแรก)