Konteks panjang

Gemini 1.5 Flash hadir dalam versi standar dengan jendela konteks 1 juta token, dan Gemini 1.5 Pro dilengkapi dengan jendela konteks 2 juta token. Secara historis, besar model bahasa besar (LLM) sangat dibatasi oleh jumlah teks (atau token) yang dapat diteruskan ke model pada satu waktu. Versi Gemini 1.5 jendela konteks, dengan pengambilan yang hampir sempurna (>99%), membuka banyak kasus penggunaan dan paradigma developer baru.

Kode yang sudah Anda gunakan untuk kasus seperti teks generasi atau multimodal input akan langsung berfungsi jika disertai konteks yang panjang.

Sepanjang panduan ini, Anda menjelajahi secara singkat dasar-dasar jendela konteks, bagaimana pengembang harus memikirkan konteks panjang, berbagai kasus penggunaan dunia nyata untuk konteks panjang, dan cara mengoptimalkan penggunaan konteks panjang.

Apa itu jendela konteks?

Cara dasar Anda menggunakan model Gemini 1.5 adalah dengan meneruskan informasi (konteks) pada model, yang selanjutnya akan menghasilkan respons. Analogi untuk dan jendela konteks adalah memori jangka pendek. Ada sejumlah informasi yang terbatas yang dapat disimpan dalam memori jangka pendek seseorang, dan hal yang sama berlaku untuk model generatif.

Anda dapat membaca selengkapnya tentang cara kerja model di balik layar dalam model generatif panduan kami.

Mulai dengan konteks panjang

Sebagian besar model generatif yang dibuat dalam beberapa tahun terakhir hanya mampu memproses 8.000 token sekaligus. Model yang lebih baru mendorong pencapaian ini lebih lanjut dengan menerima 32.000 token atau 128.000 token. Gemini 1.5 adalah model pertama yang menerima 1 juta token, dan sekarang 2 juta token dengan Gemini 1.5 Kelebihan.

Dalam praktiknya, 1 juta token akan terlihat seperti ini:

  • 50.000 baris kode (dengan standar 80 karakter per baris)
  • Semua pesan teks yang telah Anda kirim dalam 5 tahun terakhir
  • 8 novel bahasa Inggris dengan durasi rata-rata
  • Transkrip lebih dari 200 episode podcast dengan durasi rata-rata

Meskipun model dapat memahami lebih banyak konteks, sebagian besar kebijakan konvensional tentang penggunaan model bahasa besar mengasumsikan bahwa mulai tahun 2024, masalah ini tidak lagi terjadi.

Beberapa strategi umum untuk menangani keterbatasan jendela konteks kecil termasuk:

  • Secara acak menghapus pesan / teks lama dari jendela konteks sebagai teks baru masuk
  • Meringkas konten sebelumnya dan menggantinya dengan ringkasan saat jendela konteks hampir penuh
  • Menggunakan RAG dengan penelusuran semantik untuk memindahkan data dari jendela konteks dan ke dalam database vektor
  • Menggunakan filter determenistik atau generatif untuk menghapus teks tertentu / karakter dari prompt untuk menyimpan token

Meskipun banyak di antaranya masih relevan dalam kasus tertentu, {i>default<i} untuk start adalah menempatkan semua token ke jendela konteks. Karena Model Gemini 1.5 dirancang khusus dengan jendela konteks panjang, sehingga lebih mumpuni untuk belajar dalam konteks. Misalnya, dengan hanya materi materi (tata bahasa referensi 500 halaman, kamus, dan ≈ 400 paralel ekstra kalimat) yang disediakan sesuai konteks, Gemini 1.5 Pro dan Gemini 1.5 Flash adalah mampu belajar menerjemahkan dari bahasa Inggris ke Kalamang—bahasa Papua dengan kurang dari 200 penutur dan oleh karena itu hampir tidak ada eksistensi {i>online<i}—dengan kualitas serupa dengan seseorang yang dari bahan yang sama.

Contoh ini menggarisbawahi bagaimana Anda dapat mulai memikirkan tentang apa yang mungkin konteks panjang dan kemampuan pembelajaran dalam konteks Gemini 1.5.

Kasus penggunaan konteks panjang

Meskipun kasus penggunaan standar untuk sebagian besar model generatif masih berupa input teks, Kelompok model Gemini 1.5 memungkinkan paradigma baru untuk kasus penggunaan multimodal. Ini model bahasa bisa memahami teks, video, audio, dan gambar secara native. Mereka adalah disertai dengan Gemini API yang mengambil file multimodal jenis untuk kemudahan.

Teks panjang

Teks telah terbukti menjadi lapisan kecerdasan yang mendasari banyak momentum di sekitar LLM. Seperti yang disebutkan sebelumnya, banyak batasan praktis dari LLM disebabkan oleh tidak adanya jendela konteks yang cukup besar untuk melakukan tugas klasifikasi. Hal ini menyebabkan adopsi cepat dari Retrieval-Augmented Generation (RAG) serta teknik lain yang secara dinamis menyediakan model informasi kontekstual. Sekarang, dengan jendela konteks yang lebih besar dan lebih besar (saat ini hingga 2 juta di Gemini 1.5 Pro), ada teknik-teknik baru yang tersedia yang membuka kasus penggunaan baru.

Beberapa kasus penggunaan yang muncul dan standar untuk konteks panjang berbasis teks meliputi:

  • Meringkas korpus teks dalam jumlah besar
    • Opsi ringkasan sebelumnya dengan model konteks yang lebih kecil akan memerlukan jendela geser atau teknik lain untuk mempertahankan status bagian sebelumnya saat token baru diteruskan ke model.
  • Tanya jawab
    • Secara historis ini hanya mungkin dilakukan dengan RAG mengingat jumlah yang terbatas konteks dan model ingatan faktual rendah
  • Alur kerja agentik
    • Teks adalah landasan dari bagaimana agen menjaga status apa yang telah mereka lakukan dan apa yang harus mereka lakukan; tidak memiliki cukup informasi tentang dunia dan tujuan agen adalah batasan pada keandalan agen

Pembelajaran dalam konteks banyak-shot adalah salah satu sebagian besar kemampuan unik yang diperoleh oleh model konteks panjang. Penelitian telah menunjukkan yang melakukan "satu pukulan" umum atau "multi-shot" contoh paradigma ini, di mana disajikan dengan satu atau beberapa contoh tugas, dan meningkatkannya hingga ratusan, ribuan, atau bahkan ratusan ribu contoh, dapat menyebabkan kemampuan model baru. Pendekatan {i>many-shot<i} ini juga telah terbukti menghasilkan mirip dengan model yang di-fine-tune untuk tugas tertentu. Untuk kasus penggunaan saat performa model Gemini belum memadai untuk produksi peluncuran, Anda dapat mencoba pendekatan {i>many-shot<i}. Seperti yang mungkin akan Anda pelajari nanti di bagian optimasi konteks panjang, caching konteks membuat jenis input tinggi workload token jauh lebih layak secara ekonomis dan bahkan latensi lebih rendah dalam beberapa penggunaan.

Video panjang

Utilitas konten video telah lama terhambat oleh kurangnya aksesibilitas medium itu sendiri. Sulit untuk membaca sekilas konten, transkrip sering kali gagal untuk menangkap nuansa video, dan sebagian besar alat tidak memproses gambar, teks, dan audio bersama-sama. Dengan Gemini 1.5, kemampuan teks konteks panjang di kemampuan untuk menalar dan menjawab pertanyaan tentang input multimodal dengan performa yang berkelanjutan. Gemini 1.5 Flash, saat diuji secara otomatis dalam sebuah video masalah haystack dengan 1 juta token, memperoleh perolehan >99,8% video di khusus, dan 1.5 Pro mencapai performa tercanggih pada Tolok ukur video-MME.

Beberapa kasus penggunaan yang baru muncul dan standar untuk konteks panjang video meliputi:

  • Tanya jawab video
  • Memori video, seperti yang ditunjukkan pada Project Astra Google
  • Pemberian teks pada video
  • Sistem rekomendasi video, dengan memperkaya metadata yang ada dengan pemahaman multimodal
  • Penyesuaian video, dengan melihat korpus data dan video terkait metadata dan kemudian menghapus bagian video yang tidak relevan dengan pelihat
  • Moderasi konten video
  • Pemrosesan video real-time

Saat menangani video, penting untuk mempertimbangkan bagaimana video yang diproses menjadi token, yang akan memengaruhi batas penagihan dan penggunaan. Anda dapat mempelajari lebih lanjut cara meminta dengan file video di Prompting panduan kami.

Audio panjang

Model Gemini 1.5 adalah model bahasa besar multimodal native pertama yang dapat memahami audio. Secara historis, alur kerja pengembang umumnya melibatkan penggabungan beberapa model domain tertentu, seperti model speech-to-text dan model text-to-text untuk memproses audio. Ini menyebabkan latensi tambahan yang diperlukan dengan melakukan beberapa permintaan bolak-balik dan penurunan kinerja yang biasanya dikaitkan dengan arsitektur yang terputus dari pengaturan beberapa model.

Pada evaluasi standar audio-haystack, Gemini 1.5 Pro dapat menemukan audio tersembunyi pada 100% pengujian dan Gemini 1.5 Flash dapat menemukannya di 98,7% dari pengujian. Gemini 1.5 Flash menerima audio hingga 9,5 jam dalam satu permintaan dan Gemini 1.5 Pro dapat menerima audio hingga 19 jam menggunakan 2 juta token jendela konteks tambahan. Selanjutnya, pada set pengujian klip audio berdurasi 15 menit, Gemini 1.5 Pro mengarsipkan rasio kesalahan kata (WER) sebesar ~5,5%, jauh lebih rendah daripada model speech-to-text tanpa menambah kerumitan segmentasi input tambahan dan pra-pemrosesan yang sesuai.

Beberapa kasus penggunaan baru dan standar untuk konteks audio mencakup:

  • Transkripsi dan terjemahan real-time
  • Pertanyaan dan jawaban podcast / video
  • Transkripsi dan perangkuman rapat
  • Asisten suara

Anda dapat mempelajari lebih lanjut cara membuat perintah dengan file audio di bagian Prompting panduan kami.

Pengoptimalan konteks panjang

Pengoptimalan utama saat bekerja dengan konteks panjang dan penggunaan Gemini 1.5 model adalah menggunakan konteks dalam cache. Lebih dari yang sebelumnya ketidakmungkinan pemrosesan banyak token dalam satu permintaan, masalah lainnya kendala adalah biayanya. Jika Anda melakukan "chat dengan data Anda" aplikasi tempat pengguna mengunggah 10 PDF, video, dan beberapa dokumen kerja, secara historis Anda hanya memiliki untuk bekerja dengan alat Retrieval-Augmented Generation (RAG) yang lebih kompleks / untuk memproses permintaan ini dan membayar dengan jumlah yang signifikan untuk token yang dipindahkan ke jendela konteks. Sekarang, Anda dapat meng-{i>cache<i} file yang dimiliki pengguna upload dan membayar untuk menyimpannya per jam. Biaya input / output per minta dengan Gemini 1.5 Flash misalnya ~4x kurang dari biaya input / output standar, jadi jika ketika pengguna melakukan obrolan dengan data mereka, hal itu menjadi penghematan biaya yang sangat besar bagi Anda sebagai pengembang.

Batasan konteks panjang

Di berbagai bagian panduan ini, kita telah membahas cara model Gemini 1.5 mencapai performa tinggi di berbagai evaluasi pengambilan needle-in-a-haystack. Ini tes mempertimbangkan pengaturan paling dasar, di mana Anda memiliki satu jarum cari. Jika Anda memiliki banyak "jarum" atau bagian tertentu informasi yang Anda cari, model ini tidak berfungsi dengan tingkat akurasi. Performa dapat sangat bervariasi bergantung pada konteksnya. Ini penting untuk dipertimbangkan karena ada imbal balik yang inheren antara mendapatkan informasi yang tepat diambil dan biayanya. Anda bisa mendapatkan ~99% pada satu kueri, tetapi Anda harus membayar biaya token input setiap kali Anda mengirim kueri itu. Jadi untuk 100 informasi yang harus diambil. Jika Anda membutuhkan kinerja 99%, Anda akan mungkin perlu mengirim 100 permintaan. Ini adalah contoh yang baik di mana konteks penyimpanan di cache dapat mengurangi biaya penggunaan model Gemini secara signifikan sekaligus memastikan performanya tetap tinggi.

FAQ

Apakah saya kehilangan performa model saat menambahkan lebih banyak token ke kueri?

Umumnya, jika Anda tidak perlu token untuk diteruskan ke model, sebaiknya jangan sampai melewatkannya. Namun, jika Anda memiliki banyak token dengan beberapa informasi dan ingin mengajukan pertanyaan tentang informasi tersebut, model ini sangat mampu mengekstrak informasi tersebut (akurasi hingga 99% dalam banyak kasus).

Bagaimana performa Gemini 1.5 Pro dalam pengujian needle-in-a-haystack standar?

Gemini 1.5 Pro mencapai recall 100% hingga 530 ribu token dan >99,7% recall hingga 1 jt token.

Bagaimana cara menurunkan biaya dengan kueri konteks panjang?

Jika Anda memiliki kumpulan token / konteks serupa yang ingin Anda gunakan kembali waktu, cache konteks dapat membantu mengurangi biaya yang terkait dengan pengajuan pertanyaan tentang informasi itu.

Bagaimana cara mendapatkan akses ke jendela konteks 2 juta token?

Semua developer kini memiliki akses ke jendela konteks 2 juta token dengan Gemini 1,5 Pro.

Apakah panjang konteks memengaruhi latensi model?

Ada sejumlah latensi tetap dalam setiap permintaan, terlepas dari tapi umumnya kueri yang lebih panjang akan memiliki latensi lebih tinggi (waktu ke kueri sebelumnya).

Apakah kemampuan konteks panjang berbeda antara Gemini 1.5 Flash dan Gemini 1.5 Pro?

Ya, beberapa angka telah disebutkan di bagian berbeda dalam panduan ini, tetapi umumnya Gemini 1.5 Pro lebih berperforma tinggi pada sebagian besar kasus penggunaan konteks yang panjang.