โมเดลเสียงดั้งเดิมของ Gemini ใหม่พร้อมใช้งานผ่าน Live API แล้ว ทดลองใช้ฟรีใน Google AI Studio

หน้านี้ได้รับการแปลโดย Cloud Translation API

บริบทแบบยาว

โมเดล Gemini หลายรุ่นมีหน้าต่างบริบทขนาดใหญ่ถึง 1 ล้านโทเค็นขึ้นไป ในอดีต โมเดลภาษาขนาดใหญ่ (LLM) ถูกจำกัดอย่างมากด้วย ปริมาณข้อความ (หรือโทเค็น) ที่ส่งไปยังโมเดลได้ในครั้งเดียว หน้าต่างบริบทแบบยาวของ Gemini จะปลดล็อกกรณีการใช้งานใหม่ๆ และกระบวนทัศน์ของนักพัฒนาซอฟต์แวร์ มากมาย

โค้ดที่คุณใช้ในกรณีต่างๆ เช่น การสร้างข้อความหรืออินพุตแบบมัลติโมดอลจะทำงานได้โดยไม่ต้องเปลี่ยนแปลงใดๆ เมื่อใช้กับบริบทแบบยาว

เอกสารนี้จะให้ภาพรวมของสิ่งที่คุณทำได้โดยใช้โมเดลที่มีหน้าต่างบริบทขนาด 1 ล้านโทเค็นขึ้นไป หน้านี้จะให้ภาพรวมโดยย่อของหน้าต่างบริบท และสำรวจวิธีที่นักพัฒนาซอฟต์แวร์ควรพิจารณาบริบทแบบยาว กรณีการใช้งานจริงต่างๆ สำหรับบริบทแบบยาว และวิธีเพิ่มประสิทธิภาพการใช้งานบริบทแบบยาว

ดูขนาดหน้าต่างบริบทของโมเดลที่เฉพาะเจาะจงได้ที่หน้าโมเดล

หน้าต่างบริบทคืออะไร

วิธีพื้นฐานในการใช้โมเดล Gemini คือการส่งข้อมูล (บริบท) ไปยังโมเดล ซึ่งจะสร้างคำตอบในภายหลัง การเปรียบเทียบ หน้าต่างบริบทคือหน่วยความจำระยะสั้น หน่วยความจำระยะสั้นของคนเราจัดเก็บข้อมูลได้จำกัด และโมเดล Generative ก็เช่นกัน

อ่านเพิ่มเติมเกี่ยวกับวิธีการทำงานของโมเดลเบื้องหลังได้ในคำแนะนำเกี่ยวกับโมเดล Generative

เริ่มต้นใช้งานบริบทแบบยาว

โมเดล Generative เวอร์ชันก่อนหน้าประมวลผลได้ครั้งละ 8,000 โทเค็นเท่านั้น โมเดลรุ่นใหม่ๆ ได้ขยายขีดจำกัดนี้ออกไปอีกโดยยอมรับโทเค็น 32,000 หรือแม้แต่ 128,000 โทเค็น Gemini เป็นโมเดลแรกที่รับโทเค็นได้ 1 ล้านโทเค็น

ในทางปฏิบัติ โทเค็น 1 ล้านรายการจะมีลักษณะดังนี้

โค้ด 50,000 บรรทัด (มีอักขระมาตรฐาน 80 ตัวต่อบรรทัด)
ข้อความทั้งหมดที่คุณส่งในช่วง 5 ปีที่ผ่านมา
นวนิยายภาษาอังกฤษความยาวโดยเฉลี่ย 8 เล่ม
ข้อความถอดเสียงของตอนพอดแคสต์ที่มีความยาวโดยเฉลี่ยกว่า 200 ตอน

หน้าต่างบริบทที่จำกัดมากขึ้นซึ่งพบได้ทั่วไปในโมเดลอื่นๆ อีกมากมายมักต้องใช้กลยุทธ์ต่างๆ เช่น การทิ้งข้อความเก่าโดยพลการ การสรุปเนื้อหา การใช้ RAG กับฐานข้อมูลเวกเตอร์ หรือการกรองพรอมต์เพื่อประหยัดโทเค็น

แม้ว่าเทคนิคเหล่านี้จะยังคงมีประโยชน์ในบางสถานการณ์ แต่หน้าต่างบริบทที่กว้างขวางของ Gemini ก็ช่วยให้คุณใช้วิธีการที่ตรงไปตรงมามากขึ้นได้ นั่นคือการให้ข้อมูลที่เกี่ยวข้องทั้งหมด ตั้งแต่แรก เนื่องจากโมเดล Gemini สร้างขึ้นโดยมีวัตถุประสงค์เพื่อความสามารถด้านบริบทขนาดใหญ่ จึงแสดงให้เห็นถึงการเรียนรู้ในบริบทที่มีประสิทธิภาพ ตัวอย่างเช่น การใช้เฉพาะสื่อการเรียนการสอนในบริบท (ไวยากรณ์อ้างอิง 500 หน้า พจนานุกรม และประโยคคู่ขนานประมาณ 400 ประโยค) ทำให้ Gemini เรียนรู้ที่จะแปลจากภาษาอังกฤษเป็นภาษากาลามัง ซึ่งเป็นภาษาปาปัวที่มีผู้พูดน้อยกว่า 200 คน โดยมีคุณภาพคล้ายกับผู้เรียนที่เป็นมนุษย์ซึ่งใช้สื่อเดียวกัน ซึ่งแสดงให้เห็นถึงการเปลี่ยนแปลงกระบวนทัศน์ที่บริบทแบบยาวของ Gemini ช่วยให้เกิดขึ้นได้ โดยการเพิ่มความเป็นไปได้ใหม่ๆ ผ่านการเรียนรู้ในบริบทที่แข็งแกร่ง

กรณีการใช้งานบริบทแบบยาว

แม้ว่ากรณีการใช้งานมาตรฐานสำหรับโมเดล Generative ส่วนใหญ่ยังคงเป็นการป้อนข้อความ แต่กลุ่มโมเดล Gemini ก็เปิดตัวกระบวนทัศน์ใหม่ของกรณีการใช้งานแบบมัลติโมดัล โมเดลเหล่านี้เข้าใจข้อความ วิดีโอ เสียง และรูปภาพได้โดยกำเนิด โดยมาพร้อมกับ Gemini API ที่รับไฟล์มัลติโมดัลเพื่อความสะดวก

ข้อความแบบยาว

ข้อความพิสูจน์ให้เห็นว่าเป็นเลเยอร์ของข้อมูลอัจฉริยะที่รองรับโมเมนตัมส่วนใหญ่เกี่ยวกับ LLM ดังที่ได้กล่าวไปก่อนหน้านี้ ข้อจำกัดในทางปฏิบัติของ LLM ส่วนใหญ่เกิดจากการไม่มีหน้าต่างบริบทที่ใหญ่พอที่จะทำงานบางอย่างได้ ซึ่งนำไปสู่การนำการสร้างแบบดึงข้อมูลเสริม (RAG) และเทคนิคอื่นๆ มาใช้กันอย่างรวดเร็ว ซึ่งจะให้ข้อมูลเชิงบริบทที่เกี่ยวข้องแก่โมเดล แบบไดนามิก ปัจจุบันหน้าต่างบริบทมีขนาดใหญ่ขึ้นเรื่อยๆ จึงมีเทคนิคใหม่ๆ ที่พร้อมใช้งานซึ่งปลดล็อก Use Case ใหม่ๆ

กรณีการใช้งานที่กำลังมาแรงและมาตรฐานสำหรับบริบทขนาดยาวที่เป็นข้อความมีดังนี้

สรุปคลังข้อความขนาดใหญ่
- ตัวเลือกการสรุปก่อนหน้านี้ที่มีโมเดลบริบทขนาดเล็กกว่าจะต้องใช้ หน้าต่างแบบเลื่อนหรือเทคนิคอื่นๆ เพื่อรักษาสถานะของส่วนก่อนหน้า เมื่อมีการส่งโทเค็นใหม่ไปยังโมเดล
การถามและตอบ
- ในอดีต การดำเนินการนี้ทำได้ด้วย RAG เท่านั้น เนื่องจากบริบทมีจำนวนจำกัดและโมเดลเรียกคืนข้อเท็จจริงได้ต่ำ
เวิร์กโฟลว์ของเอเจนต์
- ข้อความเป็นรากฐานของวิธีที่เอเจนต์รักษาสถานะของสิ่งที่ทำไปแล้ว และสิ่งที่ต้องทำ การมีข้อมูลเกี่ยวกับโลก และเป้าหมายของเอเจนต์ไม่เพียงพอเป็นข้อจำกัดด้านความน่าเชื่อถือของเอเจนต์

การเรียนรู้ในบริบทแบบหลายตัวอย่างเป็นหนึ่งในความสามารถที่โดดเด่นที่สุดที่โมเดลบริบทแบบยาวปลดล็อก งานวิจัยแสดงให้เห็นว่า การใช้กระบวนทัศน์ตัวอย่าง "แบบช็อตเดียว" หรือ "แบบหลายช็อต" ทั่วไป ซึ่ง โมเดลจะได้รับตัวอย่างงาน 1-2 ตัวอย่าง และการขยายขนาดตัวอย่างนั้นเป็น หลายร้อย หลายพัน หรือแม้แต่หลายแสนตัวอย่าง อาจนำไปสู่ ความสามารถใหม่ๆ ของโมเดลได้ นอกจากนี้ แนวทางแบบหลายนัดยังแสดงให้เห็นว่ามีประสิทธิภาพ คล้ายกับโมเดลที่ได้รับการปรับแต่งสำหรับงานที่เฉพาะเจาะจง สำหรับกรณีการใช้งาน ที่ประสิทธิภาพของโมเดล Gemini ยังไม่เพียงพอสำหรับการเปิดตัว ในเวอร์ชันที่ใช้งานจริง คุณสามารถลองใช้แนวทางแบบหลายนัด ดังที่คุณอาจได้ศึกษาในส่วนการเพิ่มประสิทธิภาพบริบทแบบยาวในภายหลัง การแคชบริบททำให้ภาระงานของโทเค็นอินพุตสูงประเภทนี้มีความเป็นไปได้ทางเศรษฐศาสตร์มากขึ้น และแม้แต่ลดเวลาในการตอบสนองในบางกรณี

วิดีโอแบบยาว

ประโยชน์ของเนื้อหาวิดีโอถูกจำกัดมานานเนื่องจากสื่อเองขาดการเข้าถึง การข้ามเนื้อหาทำได้ยาก ข้อความถอดเสียงมักจับภาพความแตกต่างของวิดีโอไม่ได้ และเครื่องมือส่วนใหญ่ไม่ประมวลผลรูปภาพ ข้อความ และเสียงพร้อมกัน ความสามารถด้านข้อความที่มีบริบทขนาดยาวของ Gemini จะช่วยให้สามารถให้เหตุผลและตอบคำถามเกี่ยวกับอินพุตแบบมัลติโมดอลได้อย่างต่อเนื่อง

กรณีการใช้งานที่กำลังมาแรงและมาตรฐานสำหรับบริบทแบบยาวของวิดีโอมีดังนี้

การถามและตอบคำถามในวิดีโอ
หน่วยความจำวิดีโอ ดังที่แสดงใน Project Astra ของ Google
การใส่คำบรรยายแทนเสียงในวิดีโอ
ระบบวิดีโอแนะนำโดยการเพิ่มข้อมูลเมตาที่มีอยู่ด้วยความเข้าใจแบบมัลติโมดัลใหม่
การปรับแต่งวิดีโอโดยดูจากคลังข้อมูลและข้อมูลเมตาวิดีโอที่เกี่ยวข้อง แล้วนำส่วนของวิดีโอที่ไม่เกี่ยวข้องกับผู้ชมออก
การกลั่นกรองเนื้อหาวิดีโอ
การประมวลผลวิดีโอแบบเรียลไทม์

เมื่อทำงานกับวิดีโอ สิ่งสำคัญที่ควรพิจารณาคือวิดีโอจะ ได้รับการประมวลผลเป็นโทเค็นอย่างไร ซึ่งจะส่งผลต่อ การเรียกเก็บเงินและโควต้าการใช้งาน ดูข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งโดยใช้ไฟล์วิดีโอได้ในคำแนะนำในการแจ้ง

เสียงแบบยาว

โมเดล Gemini เป็นโมเดลภาษาขนาดใหญ่ที่ทำงานได้กับข้อมูลหลายรูปแบบแบบเนทีฟ รุ่นแรกที่เข้าใจเสียง โดยปกติแล้ว เวิร์กโฟลว์ของนักพัฒนาซอฟต์แวร์จะ เกี่ยวข้องกับการเชื่อมโยงโมเดลเฉพาะโดเมนหลายรายการเข้าด้วยกัน เช่น โมเดลเสียงพูดเป็นข้อความและโมเดลข้อความเป็นข้อความ เพื่อประมวลผลเสียง ซึ่งส่งผลให้เกิดเวลาในการตอบสนองเพิ่มเติมที่จำเป็นโดยการส่งคำขอแบบไปกลับหลายครั้ง และประสิทธิภาพลดลงซึ่งมักเกิดจากสถาปัตยกรรมที่ไม่ได้เชื่อมต่อของ การตั้งค่าโมเดลหลายรายการ

กรณีการใช้งานที่กำลังมาแรงและมาตรฐานสำหรับบริบทเสียงมีดังนี้

การถอดเสียงเป็นคำและการแปลภาษาแบบเรียลไทม์
การถามและตอบคำถามเกี่ยวกับพอดแคสต์ / วิดีโอ
การถอดเสียงเป็นคำและการสรุปการประชุม
ผู้ช่วยแบบเสียง

ดูข้อมูลเพิ่มเติมเกี่ยวกับการแจ้งด้วยไฟล์เสียงได้ในคำแนะนำ การแจ้ง

การเพิ่มประสิทธิภาพบริบทที่ยาว

การเพิ่มประสิทธิภาพหลักเมื่อทำงานกับบริบทแบบยาวและโมเดล Gemini คือการใช้แคชบริบท นอกจากข้อจำกัดก่อนหน้านี้ที่ ไม่สามารถประมวลผลโทเค็นจำนวนมากในคำขอเดียวได้แล้ว ข้อจำกัดหลักอีกอย่างก็คือ ค่าใช้จ่าย หากคุณมีแอป "แชทกับข้อมูลของคุณ" ที่ผู้ใช้ อัปโหลด PDF 10 รายการ วิดีโอ และเอกสารงานบางส่วน ในอดีตคุณจะต้อง ทำงานกับเครื่องมือ/เฟรมเวิร์กการสร้างการดึงข้อมูลที่เพิ่มประสิทธิภาพ (RAG) ที่ซับซ้อนมากขึ้น เพื่อประมวลผลคำขอเหล่านี้และจ่ายค่าโทเค็นจำนวนมาก ที่ย้ายไปยังหน้าต่างบริบท ตอนนี้คุณสามารถแคชไฟล์ที่ผู้ใช้ อัปโหลดและชำระเงินเพื่อจัดเก็บไฟล์เหล่านั้นตามอัตราต่อชั่วโมงได้แล้ว ตัวอย่างเช่น ต้นทุนอินพุต / เอาต์พุตต่อคำขอด้วย Gemini Flash จะน้อยกว่าต้นทุนอินพุต / เอาต์พุตมาตรฐานประมาณ 4 เท่า ดังนั้นหากผู้ใช้แชทกับข้อมูลของตนมากพอ คุณในฐานะนักพัฒนาซอฟต์แวร์ก็จะประหยัดค่าใช้จ่ายได้มาก

ข้อจำกัดของบริบทแบบยาว

ในส่วนต่างๆ ของคู่มือนี้ เราได้พูดถึงวิธีที่โมเดล Gemini บรรลุ ประสิทธิภาพสูงในการประเมินการดึงข้อมูลแบบเข็มในกองฟางต่างๆ การทดสอบเหล่านี้พิจารณาการตั้งค่าพื้นฐานที่สุด ซึ่งคุณมีเข็มเดียวที่กำลังมองหา ในกรณีที่คุณอาจมี "เข็ม" หลายเล่มหรือข้อมูลเฉพาะ ที่คุณกำลังมองหา โมเดลจะไม่ทำงานด้วยความแม่นยำเท่าเดิม ประสิทธิภาพอาจแตกต่างกันอย่างมากตามบริบท คุณควรพิจารณาเรื่องนี้เนื่องจากมีข้อแลกเปลี่ยนโดยธรรมชาติระหว่างการดึงข้อมูลที่ถูกต้องและการดึงข้อมูลที่คุ้มค่า คุณอาจได้รับผลลัพธ์ที่แม่นยำประมาณ 99% จากการค้นหาครั้งเดียว แต่ คุณต้องจ่ายค่าโทเค็นอินพุตทุกครั้งที่ส่งคำค้นหานั้น ดังนั้น หากต้องการดึงข้อมูล 100 รายการ และต้องการประสิทธิภาพ 99% คุณก็อาจต้องส่งคำขอ 100 รายการ นี่เป็นตัวอย่างที่ดีที่การแคชบริบท สามารถลดต้นทุนที่เกี่ยวข้องกับการใช้โมเดล Gemini ได้อย่างมาก ในขณะที่ยังคงรักษาประสิทธิภาพไว้ในระดับสูง

คำถามที่พบบ่อย

ฉันควรวางคำค้นหาไว้ที่ใดในหน้าต่างบริบท

ในกรณีส่วนใหญ่ โดยเฉพาะอย่างยิ่งหากบริบททั้งหมดมีความยาว โมเดลจะทำงานได้ดีขึ้นหากคุณวางคำค้นหา / คำถามไว้ที่ส่วนท้ายของพรอมต์ (หลังจากบริบทอื่นๆ ทั้งหมด)

ประสิทธิภาพของโมเดลจะลดลงไหมเมื่อฉันเพิ่มโทเค็นลงในคำค้นหา

โดยทั่วไป หากไม่จำเป็นต้องส่งโทเค็นไปยังโมเดล คุณควรหลีกเลี่ยงการส่งโทเค็น อย่างไรก็ตาม หากคุณมีโทเค็นจำนวนมากที่มีข้อมูลบางอย่างและต้องการถามคำถามเกี่ยวกับข้อมูลนั้น โมเดลจะมีความสามารถสูงในการดึงข้อมูลดังกล่าว (ความแม่นยำสูงสุด 99% ในหลายกรณี)

ฉันจะลดต้นทุนด้วยการค้นหาที่มีบริบทแบบยาวได้อย่างไร

หากคุณมีชุดโทเค็น / บริบทที่คล้ายกันซึ่งต้องการนำกลับมาใช้หลายครั้ง การแคชบริบทจะช่วยลดค่าใช้จ่ายที่เกี่ยวข้องกับการถามคำถามเกี่ยวกับข้อมูลนั้นได้

ความยาวบริบทส่งผลต่อเวลาในการตอบสนองของโมเดลไหม

คำขอใดก็ตามจะมีเวลาในการตอบสนองที่แน่นอนไม่มากก็น้อย ไม่ว่าคำขอนั้นจะมีขนาดเท่าใดก็ตาม แต่โดยทั่วไปแล้ว คำขอที่ยาวกว่าจะมีเวลาในการตอบสนองที่สูงกว่า (เวลาในการแสดงโทเค็นแรก)