Konteks panjang

Banyak model Gemini dilengkapi dengan jendela konteks besar sebesar 1 juta token atau lebih. Sebelumnya, model bahasa besar (LLM) sangat dibatasi oleh jumlah teks (atau token) yang dapat diteruskan ke model dalam satu waktu. Jendela konteks panjang Gemini membuka banyak kasus penggunaan dan paradigma developer baru.

Kode yang sudah Anda gunakan untuk kasus seperti pembuatan teks atau input multimodal akan berfungsi tanpa perubahan apa pun dengan konteks panjang.

Dokumen ini memberi Anda ringkasan tentang hal yang dapat Anda capai menggunakan model dengan jendela konteks 1 juta token dan lebih. Halaman ini memberikan ringkasan singkat tentang jendela konteks, dan mempelajari cara developer harus memikirkan konteks panjang, berbagai kasus penggunaan dunia nyata untuk konteks panjang, dan cara mengoptimalkan penggunaan konteks panjang.

Untuk ukuran jendela konteks model tertentu, lihat halaman Model.

Apa itu jendela konteks?

Cara dasar Anda menggunakan model Gemini adalah dengan meneruskan informasi (konteks) ke model, yang selanjutnya akan menghasilkan respons. Analogi untuk jendela konteks adalah memori jangka pendek. Ada sejumlah informasi terbatas yang dapat disimpan dalam memori jangka pendek seseorang, dan hal yang sama berlaku untuk model generatif.

Anda dapat membaca lebih lanjut cara kerja model di balik layar dalam panduan model generatif kami.

Mulai menggunakan konteks panjang

Versi model generatif sebelumnya hanya dapat memproses 8.000 token sekaligus. Model yang lebih baru mendorong batas ini lebih jauh dengan menerima 32.000 atau bahkan 128.000 token. Gemini adalah model pertama yang mampu menerima 1 juta token.

Dalam praktiknya, 1 juta token akan terlihat seperti:

  • 50.000 baris kode (dengan 80 karakter per baris standar)
  • Semua pesan teks yang telah Anda kirim dalam 5 tahun terakhir
  • 8 novel berbahasa Inggris dengan panjang rata-rata
  • Transkrip lebih dari 200 episode podcast dengan durasi rata-rata

Jendela konteks yang lebih terbatas yang umum di banyak model lain sering kali memerlukan strategi seperti menghapus pesan lama secara acak, meringkas konten, menggunakan RAG dengan database vektor, atau memfilter perintah untuk menghemat token.

Meskipun teknik ini tetap berharga dalam skenario tertentu, jendela konteks Gemini yang luas mendorong pendekatan yang lebih langsung: memberikan semua informasi yang relevan di awal. Karena model Gemini dibuat khusus dengan kemampuan konteks yang sangat besar, model ini menunjukkan pembelajaran dalam konteks yang efektif. Misalnya, dengan hanya menggunakan materi pengajaran dalam konteks (tata bahasa referensi 500 halaman, kamus, dan ≈400 kalimat paralel), Gemini belajar menerjemahkan dari bahasa Inggris ke Kalamang—bahasa Papua dengan kurang dari 200 penutur—dengan kualitas yang serupa dengan pelajar manusia yang menggunakan materi yang sama. Hal ini menggambarkan perubahan paradigma yang dimungkinkan oleh konteks panjang Gemini, yang membuka kemungkinan baru melalui pembelajaran dalam konteks yang andal.

Kasus penggunaan konteks panjang

Meskipun kasus penggunaan standar untuk sebagian besar model generatif masih berupa input teks, serangkaian model Gemini memungkinkan paradigma baru kasus penggunaan multimodal. Model ini dapat memahami teks, video, audio, dan gambar secara native. File tersebut disertai dengan Gemini API yang menerima jenis file multimodal untuk memudahkan.

Teks panjang

Teks telah terbukti menjadi lapisan kecerdasan yang mendasari sebagian besar momentum seputar LLM. Seperti yang disebutkan sebelumnya, sebagian besar batasan praktis LLM disebabkan oleh tidak adanya jendela konteks yang cukup besar untuk melakukan tugas tertentu. Hal ini menyebabkan adopsi cepat retrieval augmented generation (RAG) dan teknik lainnya yang secara dinamis memberikan informasi kontekstual yang relevan kepada model. Sekarang, dengan jendela konteks yang semakin besar, ada teknik baru yang tersedia dan membuka kasus penggunaan baru.

Beberapa kasus penggunaan baru dan standar untuk konteks panjang berbasis teks meliputi:

  • Meringkas korpus teks yang besar
    • Opsi ringkasan sebelumnya dengan model konteks yang lebih kecil akan memerlukan jendela geser atau teknik lain untuk mempertahankan status bagian sebelumnya saat token baru diteruskan ke model
  • Tanya jawab
    • Sebelumnya, hal ini hanya dapat dilakukan dengan RAG mengingat jumlah konteks yang terbatas dan ingatan faktual model yang rendah
  • Alur kerja agentic
    • Teks adalah dasar dari cara agen mempertahankan status tentang apa yang telah mereka lakukan dan apa yang perlu mereka lakukan; tidak memiliki cukup informasi tentang dunia dan tujuan agen adalah batasan pada keandalan agen

Pembelajaran dalam konteks beberapa contoh adalah salah satu kemampuan paling unik yang dihadirkan oleh model konteks panjang. Riset telah menunjukkan bahwa mengambil paradigma contoh "sekali coba" atau "beberapa kali coba" yang umum, dengan model diberi satu atau beberapa contoh tugas, dan menskalakannya hingga ratusan, ribuan, atau bahkan ratusan ribu contoh, dapat menghasilkan kemampuan model baru. Pendekatan multi-shot ini juga terbukti berperforma serupa dengan model yang disesuaikan untuk tugas tertentu. Untuk kasus penggunaan yang performa model Gemini-nya belum cukup untuk peluncuran produksi, Anda dapat mencoba pendekatan banyak contoh. Seperti yang mungkin Anda pelajari nanti di bagian pengoptimalan konteks panjang, penyiapan cache konteks membuat jenis beban kerja token input tinggi ini jauh lebih layak secara ekonomis dan bahkan memiliki latensi yang lebih rendah dalam beberapa kasus.

Video panjang

Kegunaan konten video telah lama dibatasi oleh kurangnya aksesibilitas media itu sendiri. Konten sulit dibaca sekilas, transkrip sering gagal menangkap nuansa video, dan sebagian besar alat tidak memproses gambar, teks, dan audio secara bersamaan. Dengan Gemini, kemampuan teks berkonteks panjang diterjemahkan menjadi kemampuan untuk memahami dan menjawab pertanyaan tentang input multimodal dengan performa yang berkelanjutan.

Beberapa kasus penggunaan baru dan standar untuk konteks panjang video mencakup:

  • Pertanyaan dan jawaban video
  • Memori video, seperti yang ditunjukkan dengan Project Astra Google
  • Teks video
  • Sistem rekomendasi video, dengan memperkaya metadata yang ada dengan pemahaman multimodal baru
  • Penyesuaian video, dengan melihat korpus data dan metadata video terkait, lalu menghapus bagian video yang tidak relevan bagi penonton
  • Moderasi konten video
  • Pemrosesan video real-time

Saat bekerja dengan video, penting untuk mempertimbangkan cara video diproses menjadi token, yang memengaruhi penagihan dan batas penggunaan. Anda dapat mempelajari lebih lanjut cara membuat perintah dengan file video di panduan Perintah.

Audio panjang

Model Gemini adalah model bahasa besar multimodal pertama yang secara native dapat memahami audio. Sebelumnya, alur kerja developer yang umum akan melibatkan penggabungan beberapa model khusus domain, seperti model speech-to-text dan model text-to-text, untuk memproses audio. Hal ini menyebabkan latensi tambahan yang diperlukan dengan melakukan beberapa permintaan round-trip dan penurunan performa yang biasanya disebabkan oleh arsitektur yang terputus dari beberapa penyiapan model.

Beberapa kasus penggunaan baru dan standar untuk konteks audio mencakup:

  • Transkripsi dan terjemahan real-time
  • Tanya jawab podcast / video
  • Transkripsi dan ringkasan rapat
  • Asisten suara

Anda dapat mempelajari lebih lanjut cara memberikan perintah dengan file audio di panduan Perintah.

Pengoptimalan konteks panjang

Pengoptimalan utama saat bekerja dengan konteks panjang dan model Gemini adalah menggunakan penyimpanan dalam cache konteks. Selain tidak mungkinnya memproses banyak token dalam satu permintaan, batasan utama lainnya adalah biaya. Jika Anda memiliki aplikasi "chat dengan data Anda" tempat pengguna mengupload 10 PDF, satu video, dan beberapa dokumen kerja, Anda biasanya harus menggunakan alat/framework pembuatan dengan bantuan pengambilan (RAG) yang lebih kompleks untuk memproses permintaan ini dan membayar sejumlah besar token yang dipindahkan ke jendela konteks. Sekarang, Anda dapat menyimpan dalam cache file yang diupload pengguna dan membayar untuk menyimpannya per jam. Biaya input / output per permintaan dengan Gemini Flash, misalnya, ~4x lebih rendah daripada biaya input / output standar. Jadi, jika pengguna cukup sering melakukan percakapan dengan datanya, Anda sebagai developer akan menghemat biaya yang sangat besar.

Batasan konteks panjang

Di berbagai bagian panduan ini, kami membahas cara model Gemini mencapai performa tinggi di berbagai evaluasi pengambilan informasi jarum dalam tumpukan jerami. Pengujian ini mempertimbangkan penyiapan paling dasar, yaitu Anda memiliki satu jarum yang Anda cari. Jika Anda memiliki beberapa "jarum" atau informasi spesifik yang Anda cari, model tidak akan memiliki akurasi yang sama. Performa dapat sangat bervariasi, bergantung pada konteksnya. Hal ini penting untuk dipertimbangkan karena ada pertukaran yang melekat antara mendapatkan informasi yang tepat yang diambil dan biaya. Anda bisa mendapatkan akurasi ~99% pada satu kueri, tetapi Anda harus membayar biaya token input setiap kali Anda mengirim kueri tersebut. Jadi, untuk mengambil 100 informasi, jika Anda memerlukan performa 99%, Anda mungkin perlu mengirim 100 permintaan. Ini adalah contoh yang baik tentang tempat penyimpanan cache konteks dapat secara signifikan mengurangi biaya yang terkait dengan penggunaan model Gemini sekaligus menjaga performa tetap tinggi.

FAQ

Di mana tempat terbaik untuk menempatkan kueri saya di jendela konteks?

Dalam sebagian besar kasus, terutama jika total konteksnya panjang, performa model akan lebih baik jika Anda menempatkan kueri / pertanyaan di akhir perintah (setelah semua konteks lainnya).

Apakah performa model akan menurun saat saya menambahkan lebih banyak token ke kueri?

Secara umum, jika Anda tidak memerlukan token untuk diteruskan ke model, sebaiknya hindari meneruskannya. Namun, jika Anda memiliki sejumlah besar token dengan beberapa informasi dan ingin mengajukan pertanyaan tentang informasi tersebut, model ini sangat mampu mengekstrak informasi tersebut (hingga akurasi 99% dalam banyak kasus).

Bagaimana cara menurunkan biaya dengan kueri konteks panjang?

Jika Anda memiliki kumpulan token / konteks serupa yang ingin digunakan kembali berkali-kali, penyimpanan cache konteks dapat membantu mengurangi biaya yang terkait dengan mengajukan pertanyaan tentang informasi tersebut.

Apakah panjang konteks memengaruhi latensi model?

Ada sejumlah latensi tetap dalam setiap permintaan tertentu, terlepas dari ukurannya, tetapi umumnya kueri yang lebih panjang akan memiliki latensi yang lebih tinggi (waktu untuk token pertama).