Gemini 1.5 Flash มาพร้อมกับหน้าต่างบริบทขนาด 1 ล้านโทเค็น และ Gemini 1.5 Pro มาพร้อมหน้าต่างบริบทขนาด 2 ล้านโทเค็น ในอดีต มีขนาดใหญ่ โมเดลภาษา (LLM) ถูกจำกัดด้วยปริมาณข้อความ (หรือ โทเค็น) ที่จะส่งไปยังโมเดลได้ในครั้งเดียว Gemini ความยาว 1.5 หน้าต่างบริบทที่มีการดึงข้อมูลได้เกือบสมบูรณ์แบบ (มากกว่า 99%) ปลดล็อกกรณีการใช้งานและแนวคิดสำหรับนักพัฒนาซอฟต์แวร์ใหม่ๆ ได้มากมาย
โค้ดที่คุณใช้อยู่แล้วสำหรับกรณีต่างๆ เช่น text รุ่นหรือสื่อหลากรูปแบบ จะทำงานได้ทันทีโดยไม่มีบริบทแบบยาว
ในคู่มือนี้ คุณจะได้สำรวจพื้นฐานของหน้าต่างบริบทสั้นๆ ว่า ควรคำนึงถึงบริบทแบบยาวและกรณีการใช้งานต่างๆ ในชีวิตจริง บริบทแบบยาว และวิธีเพิ่มประสิทธิภาพการใช้งานบริบทแบบยาว
หน้าต่างบริบทคืออะไร
วิธีพื้นฐานที่คุณใช้โมเดล Gemini 1.5 ก็คือการส่งข้อมูล (บริบท) ไปยังโมเดล ซึ่งจะสร้างคำตอบในภายหลัง อุปมาอุปไมยสำหรับ หน้าต่างบริบทคือหน่วยความจําระยะสั้น ข้อมูลมีจำกัด ที่สามารถจัดเก็บไว้ในหน่วยความจำระยะสั้น ของคนอื่นๆ ได้เช่นเดียวกัน โมเดล Generative
อ่านข้อมูลเพิ่มเติมเกี่ยวกับวิธีการทำงานของโมเดลขั้นสูงได้ในโมเดล Generative ของเรา
เริ่มต้นใช้งานบริบทแบบยาว
โมเดล Generative ส่วนใหญ่ที่สร้างขึ้นในช่วง 2-3 ปีที่ผ่านมาทำได้เพียง ประมวลผลโทเค็นได้ครั้งละ 8,000 รายการ โมเดลใหม่ๆ ช่วยให้เรายกระดับการใช้งานไปอีกขั้นด้วยการยอมรับ โทเค็น 32,000 รายการหรือ 128,000 โทเค็น Gemini 1.5 เป็นรุ่นแรกที่สามารถ รับโทเค็น 1 ล้านโทเค็น และตอนนี้มีโทเค็น 2 ล้านโทเค็นที่มี Gemini 1.5 Pro
ในทางปฏิบัติ โทเค็น 1 ล้านโทเค็นจะมีลักษณะดังนี้
- โค้ด 50,000 บรรทัด (มาตรฐาน 80 อักขระต่อบรรทัด)
- ข้อความทั้งหมดที่คุณส่งในช่วง 5 ปีที่ผ่านมา
- นิยายภาษาอังกฤษความยาวเฉลี่ย 8 เรื่อง
- ข้อความถอดเสียงของพอดแคสต์ที่มีความยาวเฉลี่ยกว่า 200 ตอน
แม้ว่าโมเดลจะสามารถ รับบริบทเพิ่มขึ้นเรื่อยๆ แต่ ภูมิปัญญาตามแบบแผนเกี่ยวกับการใช้โมเดลภาษาขนาดใหญ่ถือว่า ข้อจำกัดเกี่ยวกับโมเดลดังกล่าว ซึ่งจะไม่เป็นเช่นนั้นในปี 2024
กลยุทธ์ทั่วไปบางประการในการจัดการกับข้อจำกัดของหน้าต่างบริบทขนาดเล็ก รวม:
- นำข้อความเก่า / ข้อความจากหน้าต่างบริบทเป็นข้อความใหม่โดยไม่มีกฎเกณฑ์ ส่งเข้ามา
- สรุปเนื้อหาก่อนหน้าและแทนที่ด้วยสรุปเมื่อ หน้าต่างบริบทใกล้ที่จะเต็ม
- การใช้ RAG กับการค้นหาความหมายเพื่อย้ายข้อมูลออกจากหน้าต่างบริบทและ ลงในฐานข้อมูลเวกเตอร์
- การใช้ตัวกรองเชิงกำหนดหรือตัวกรอง Generative เพื่อนำข้อความบางส่วนออก / อักขระจากพรอมต์เพื่อบันทึกโทเค็น
แม้ว่าหลายๆ อย่างนี้ยังคงเกี่ยวข้องอยู่ในบางกรณี แพลตฟอร์มเริ่มต้นในการ เริ่มต้นก็คือการใส่โทเค็นทั้งหมดลงในหน้าต่างบริบท เพราะ โมเดล Gemini 1.5 สร้างขึ้นมาเพื่อวัตถุประสงค์เฉพาะโดยมีหน้าต่างบริบทที่ยาว มีความสามารถมากขึ้นในการเรียนรู้ในบริบท เช่น มีเฉพาะการสอน เนื้อหา (ไวยากรณ์อ้างอิงความยาว 500 หน้า พจนานุกรม และแบบขนานเพิ่มเติม ≈ 400 หน้า ทั้งหมดที่มีอยู่ในบริบทแล้ว Gemini 1.5 Pro และ Gemini 1.5 Flash สามารถเรียนแปลภาษา จากภาษาอังกฤษเป็นภาษาคาลามัง ซึ่งเป็นภาษาปาปัวที่มีผู้พูดน้อยกว่า 200 คนและ ดังนั้น แทบจะไม่มีตัวตนบนโลกออนไลน์ ซึ่งมีคุณภาพคล้ายกับผู้ที่เรียนรู้ จากวัสดุเดียวกัน
ตัวอย่างนี้เน้นย้ำให้เห็นถึงวิธีที่คุณจะสามารถเริ่มคิดถึงสิ่งที่เป็นไปได้ด้วย บริบทแบบยาวและความสามารถในการเรียนรู้ในบริบทของ Gemini 1.5
Use Case ที่มีบริบทแบบยาว
แม้ว่ากรณีการใช้งานมาตรฐานสำหรับโมเดล Generative ส่วนใหญ่จะยังคงเป็นการป้อนข้อความ แต่ กลุ่มโมเดล Gemini 1.5 สร้างกระบวนทัศน์ใหม่ของกรณีการใช้งานแบบหลายโมดัล เหล่านี้ โมเดลสามารถเข้าใจข้อความ วิดีโอ เสียง และรูปภาพได้ตั้งแต่ต้น นั่นคือ มาพร้อมกับ Gemini API ที่อาศัยไฟล์แบบหลายโมดัล ประเภทสำหรับ เพื่อความสะดวก
ข้อความแบบยาว
ข้อความได้พิสูจน์ให้เห็นว่าเป็นชั้นเชิงปัญญาที่เป็นรากฐานสำคัญ แนวโน้มของ LLM ดังที่กล่าวไว้ก่อนหน้านี้ ข้อจำกัดในทางปฏิบัติส่วนใหญ่ของ LLM เกิดจากการไม่มีหน้าต่างบริบทขนาดใหญ่พอที่จะดำเนินการบางอย่าง งาน สิ่งนี้นำไปสู่การใช้ Augmented Generation สำหรับการดึงข้อมูล (RAG) อย่างรวดเร็ว และเทคนิคอื่นๆ ที่ทำให้โมเดลนี้มีความเกี่ยวข้องกับ ข้อมูลบริบท แต่ปัจจุบัน ด้วยหน้าต่างบริบทที่มีขนาดใหญ่และใหญ่ขึ้น (ปัจจุบัน มากถึง 2 ล้านคนบน Gemini 1.5 Pro) เรามีเทคนิคใหม่ๆ พร้อมใช้งาน ซึ่งจะช่วยปลดล็อกกรณีการใช้งานใหม่ๆ
กรณีการใช้งานมาตรฐานและกรณีการใช้งานมาตรฐานสําหรับบริบทแบบยาวที่อิงตามข้อความมีดังนี้
- สรุปคลังข้อความขนาดใหญ่
- จำเป็นต้องใช้ตัวเลือกการสรุปก่อนหน้าที่มีโมเดลบริบทขนาดเล็ก หน้าต่างเลื่อนหรือเทคนิคอื่นในการเก็บสถานะของส่วนก่อนหน้า เมื่อมีการส่งโทเค็นใหม่ไปยังโมเดล
- ถามและตอบ
- ก่อนหน้านี้ กรณีนี้ใช้ได้เฉพาะกับ RAG เนื่องจาก ของบริบทและโมเดล การจำข้อเท็จจริงได้ต่ำ
- เวิร์กโฟลว์แบบตัวแทน
- ข้อความเป็นรากฐานของวิธีที่ตัวแทนระบุสิ่งที่ได้ทำไป และสิ่งที่ต้องทำ การมีข้อมูลเรื่องโลกนี้ไม่เพียงพอ และเป้าหมายของตัวแทนคือข้อจำกัดเกี่ยวกับความน่าเชื่อถือของตัวแทน
การเรียนรู้ในบริบทของหลายฉากเป็นหนึ่งใน ความสามารถที่โดดเด่นที่สุดซึ่งปลดล็อก โดยโมเดลบริบทแบบยาว การวิจัยแสดงให้เห็นว่า ที่การถ่ายภาพ "ครั้งเดียว" ตามปกติ หรือ "มัลติช็อต" กระบวนทัศน์ตัวอย่าง ซึ่ง โมเดลจะแสดงตัวอย่างงานหนึ่งหรือ 2-3 ตัวอย่าง และปรับขนาดงานให้เป็น ตัวอย่างนับร้อย พัน หรือแม้กระทั่งหลายแสนตัวอย่าง ความสามารถโมเดลใหม่ๆ และแนวทางแบบหลายช็อตนี้ก็มีประสิทธิภาพ คล้ายกับโมเดลที่ปรับแต่งมาอย่างดีสำหรับงานที่เฉพาะเจาะจง สำหรับ Use Case ที่ประสิทธิภาพของโมเดล Gemini ยังไม่เพียงพอสำหรับเวอร์ชันที่ใช้งานจริง ก็ลองใช้กลยุทธ์แบบ Multi-shot คุณอาจสำรวจภายหลังใน การเพิ่มประสิทธิภาพบริบทแบบยาว การแคชบริบทจะทำให้ป้อนข้อมูลประเภทนี้ สามารถประหยัดภาระงานของโทเค็นได้มากขึ้นอย่างมาก และยิ่งใช้เวลาในการตอบสนองน้อยลงในบางโอกาส กรณี
วิดีโอแบบยาว
ยูทิลิตีของเนื้อหาวิดีโอถูกจำกัดเนื่องจากการขาดความสามารถเข้าถึงได้ง่าย ของสื่อโดยตรง การอ่านเนื้อหาคร่าวๆ เป็นเรื่องยาก การถอดเสียงก็มักจะล้มเหลว เพื่อบันทึกความแตกต่างของวิดีโอ และเครื่องมือส่วนใหญ่ก็จะไม่ประมวลผลรูปภาพ ข้อความ และ เข้าด้วยกัน ด้วย Gemini 1.5 ความสามารถด้านข้อความตามบริบทที่ยาวจะแปล ความสามารถในการให้เหตุผลและตอบคำถามเกี่ยวกับอินพุตหลายรูปแบบด้วย ประสิทธิภาพที่ยั่งยืน ฟีเจอร์ Flash ของ Gemini 1.5 เมื่อทดสอบการใช้งานในวิดีโออย่างเหมาะสม ปัญหาเกี่ยวกับ haystack ที่มีโทเค็น 1 ล้านโทเค็น ทำให้มีการจดจำวิดีโอได้ถึง 99.8% ใน และโมเดล 1.5 Pro ก็แสดงถึงประสิทธิภาพการทำงานศิลปะใน การเปรียบเทียบ Video-MME
กรณีการใช้งานมาตรฐานและกรณีการใช้งานมาตรฐานสําหรับบริบทวิดีโอแบบยาวมีดังนี้
- การถามและตอบในวิดีโอ
- หน่วยความจำวิดีโอ ดังที่แสดงด้วย Project Astra ของ Google
- คำบรรยายวิดีโอ
- ระบบการแนะนำวิดีโอ โดยเพิ่มข้อมูลเมตาที่มีอยู่ให้สมบูรณ์ยิ่งขึ้น ความเข้าใจในสื่อหลากรูปแบบ
- การปรับแต่งวิดีโอ โดยดูที่คลังข้อมูลและวิดีโอที่เกี่ยวข้อง ข้อมูลเมตา และนำส่วนที่ไม่เกี่ยวข้องกับวิดีโอออก ผู้มีสิทธิ์อ่าน
- การดูแลเนื้อหาวิดีโอ
- การประมวลผลวิดีโอแบบเรียลไทม์
เมื่อทำงานกับวิดีโอ สิ่งสำคัญคือต้องพิจารณาว่าวิดีโอ ได้รับการประมวลผลเป็นโทเค็น ซึ่งจะส่งผลต่อ การเรียกเก็บเงินและการใช้งานสูงสุด คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการแจ้งด้วยไฟล์วิดีโอใน การแสดงข้อความแจ้ง
เสียงแบบยาว
โมเดล Gemini 1.5 เป็นโมเดลภาษาขนาดใหญ่แบบหลายโมดัลในเครื่องแรก ที่เข้าใจเสียง ในอดีต เวิร์กโฟลว์ทั่วไปของนักพัฒนาซอฟต์แวร์ จะรวมถึงการเชื่อมโยงรูปแบบเฉพาะโดเมนหลายรายการเข้าด้วยกัน เช่น โมเดลการแปลงคำพูดเป็นข้อความและโมเดลการแปลงข้อความเป็นข้อความเพื่อประมวลผลเสียง ช่วงเวลานี้ ทำให้ต้องมีเวลาในการตอบสนองเพิ่มขึ้นจากการส่งคำขอไป-กลับหลายครั้ง และประสิทธิภาพที่ลดลงซึ่งมักเกิดจากสถาปัตยกรรมที่ตัดการเชื่อมต่อของ การตั้งค่าหลายรูปแบบ
ในการประเมินพื้นที่เก็บข้อมูลเสียงแบบมาตรฐาน Gemini 1.5 Pro สามารถหา เสียงที่ซ่อนอยู่ในการทดสอบ 100% และ Gemini 1.5 Flash สามารถค้นหาเสียงนั้นได้ใน 98.7% ของ การทดสอบ Gemini 1.5 Flash รองรับเสียงสูงสุด 9.5 ชั่วโมงใน 1 เดียว request และ Gemini 1.5 Pro รองรับเสียงสูงสุด 19 ชั่วโมงด้วยโทเค็น 2 ล้านโทเค็น บริบท นอกจากนี้ จากชุดทดสอบคลิปเสียงความยาว 15 นาที Gemini 1.5 Pro เก็บอัตราข้อผิดพลาดของคำ (WER) ไว้ที่ประมาณ 5.5% ซึ่งต่ำกว่าที่เคยเป็นแบบเฉพาะทางมาก โมเดลการแปลงคำพูดเป็นข้อความที่ไม่มีความซับซ้อนเพิ่มเติมของการแบ่งกลุ่มอินพุต และการประมวลผลข้อมูลล่วงหน้า
กรณีการใช้งานมาตรฐานใหม่และกรณีการใช้งานสำหรับบริบทของเสียงมีดังนี้
- การถอดเสียงเป็นคำและการแปลภาษาแบบเรียลไทม์
- คำถามและคำตอบเกี่ยวกับพอดแคสต์ / วิดีโอ
- การถอดเสียงเป็นคำและการสรุปการประชุม
- ผู้ช่วยแบบเสียง
คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับการส่งข้อความแจ้งด้วยไฟล์เสียงได้ในข้อความแจ้ง
การเพิ่มประสิทธิภาพบริบทแบบยาว
การเพิ่มประสิทธิภาพหลักเมื่อทำงานกับบริบทแบบยาวและ Gemini 1.5 โมเดลคือการใช้บริบท การแคช ย้อนไปก่อนหน้า การประมวลผลโทเค็นจำนวนมากในคำขอเดียว โทเค็นหลักอื่นๆ คือต้นทุน หากคุณมี "แชทกับข้อมูลของคุณ" แอปที่ผู้ใช้ อัปโหลดไฟล์ PDF 10 ไฟล์ วิดีโอ และเอกสารงานบางส่วน ซึ่งคุณต้องมี ในการทำงานกับเครื่องมือ Augmented Generation (RAG) ที่ซับซ้อนมากขึ้น / เพื่อดำเนินการตามคำขอเหล่านี้และจ่ายเงินจำนวนมากสำหรับ โทเค็นที่ย้ายไปไว้ในหน้าต่างบริบท คุณสามารถแคชไฟล์ที่ผู้ใช้ ที่อัปโหลดและจ่ายเงินเพื่อจัดเก็บเป็นรายชั่วโมง ต้นทุนต่ออินพุต / เอาต์พุต คำขอจาก Gemini ตัวอย่าง Flash 1.5 นั้นต่ำกว่าต้นทุนอินพุต / เอาต์พุตมาตรฐานประมาณ 4 เท่า ดังนั้นหาก การที่ผู้ใช้แชทกับข้อมูลของตนมากพอ ก็จะช่วยประหยัดค่าใช้จ่ายได้มาก นักพัฒนาซอฟต์แวร์
ข้อจำกัดบริบทแบบยาว
เราพูดถึงความสำเร็จของโมเดล Gemini 1.5 ในหัวข้อต่างๆ ของคู่มือนี้ ประสิทธิภาพสูงในการดึงข้อมูลแบบไม่ต้องลงแรงมากมาย เหล่านี้ การทดสอบจะพิจารณาจากการตั้งค่าขั้นพื้นฐานที่สุด โดยคุณจะต้องมีเพียงเข็มเดียว ต้องการ ในกรณีที่คุณอาจมี "เข็ม" หลายเข็ม หรือชิ้นส่วนที่เฉพาะเจาะจง ของข้อมูลที่คุณกำลังมองหา โมเดลไม่ได้ทำงานกับ ความแม่นยำ ประสิทธิภาพอาจแตกต่างกันไปในระดับต่างๆ ตามบริบท ช่วงเวลานี้ ที่ต้องคำนึงถึง เนื่องจากจะต้องแลกกับ ข้อมูลที่ดึงมาและต้นทุนที่ถูกต้อง คุณอาจได้รับ ~99% สำหรับข้อความค้นหา 1 ข้อความ แต่ คุณจะต้องชำระค่าใช้จ่ายโทเค็นอินพุตทุกครั้งที่คุณส่งข้อความค้นหานั้น ดังนั้นสำหรับ 100 ข้อมูลที่ต้องดึงมาใช้ หากคุณต้องการประสิทธิภาพ 99% คุณควร จะต้องส่งคำขอ 100 รายการ นี่เป็นตัวอย่างที่ดีของตำแหน่งที่บริบท การแคชสามารถลดค่าใช้จ่ายที่เกี่ยวข้องกับการใช้โมเดล Gemini ได้อย่างมาก และในขณะเดียวกันก็รักษาประสิทธิภาพให้สูงอยู่เสมอ
คำถามที่พบบ่อย
ฉันจะสูญเสียประสิทธิภาพของโมเดลไหมเมื่อเพิ่มโทเค็นไปยังคำค้นหา
โดยทั่วไป หากคุณไม่จำเป็นต้องส่งโทเค็นไปยังโมเดล วิธีที่ดีที่สุด หลีกเลี่ยงการส่งผ่าน แต่ถ้าคุณมีโทเค็นจำนวนมาก ข้อมูล และต้องการถามคำถามเกี่ยวกับข้อมูลนั้น โมเดลคือ มีความสามารถในการดึงข้อมูลนั้นสูง (ความแม่นยำถึง 99% ใน กรณี)
Gemini 1.5 Pro มีประสิทธิภาพเป็นอย่างไรในการทดสอบ needle-in-a-haystack มาตรฐาน
Gemini 1.5 Pro เรียกคืนโทเค็นได้สูงสุด 530,000 รายการและเรียกคืนได้มากกว่า 99.7%สูงสุด 1 ล้าน โทเค็น
ฉันจะลดต้นทุนด้วยการค้นหาที่มีบริบทยาวได้อย่างไร
หากคุณมีชุดโทเค็น / บริบทที่คล้ายกันซึ่งคุณต้องการใช้หลายรายการ การแคชบริบทจะช่วยลดค่าใช้จ่าย ที่เกี่ยวข้องกับการถามคำถามเกี่ยวกับข้อมูลนั้น
ฉันจะเข้าถึงหน้าต่างบริบทที่มีโทเค็น 2 ล้านโทเค็นได้อย่างไร
ตอนนี้นักพัฒนาแอปทุกรายมีสิทธิ์เข้าถึงหน้าต่างบริบทที่มีโทเค็น 2 ล้านโทเค็นด้วย Gemini แล้ว 1.5 Pro
ความยาวของบริบทมีผลต่อเวลาในการตอบสนองของโมเดลไหม
คำขอหนึ่งๆ จะมีจำนวนเวลาในการตอบสนองที่แน่นอน โดยไม่คำนึงถึง แต่โดยทั่วไป คำค้นหาที่ยาวจะมีเวลาในการตอบสนองสูงกว่า (เวลาไปหาก่อน โทเค็น)
ความสามารถด้านบริบทแบบยาวแตกต่างกันระหว่าง Gemini 1.5 Flash กับ Gemini 1.5 Pro ไหม
ใช่ ตัวเลขบางส่วนกล่าวถึงในส่วนต่างๆ ของคู่มือนี้ แต่ โดยทั่วไป Gemini 1.5 Pro จะมีประสิทธิภาพมากกว่าใน Use Case บริบทที่ยาวนานส่วนใหญ่