Konteks panjang

Banyak model Gemini dilengkapi dengan jendela konteks besar yang berisi 1 juta token atau lebih. Secara historis, model bahasa besar (LLM) dibatasi secara signifikan oleh jumlah teks (atau token) yang dapat diteruskan ke model sekaligus. Jendela konteks panjang Gemini membuka banyak kasus penggunaan dan paradigma developer baru.

Kode yang sudah Anda gunakan untuk kasus seperti pembuatan teks atau input multimodal akan berfungsi tanpa perubahan apa pun dengan konteks yang panjang.

Dokumen ini memberikan ringkasan tentang hal yang dapat Anda capai menggunakan model dengan jendela konteks 1 juta token dan lebih. Halaman ini memberikan ringkasan singkat tentang jendela konteks, dan mengeksplorasi cara developer harus memikirkan konteks panjang, berbagai kasus penggunaan di dunia nyata untuk konteks panjang, dan cara mengoptimalkan penggunaan konteks panjang.

Untuk ukuran jendela konteks model tertentu, lihat halaman Model.

Apa itu jendela konteks?

Cara dasar Anda menggunakan model Gemini adalah dengan meneruskan informasi (konteks) ke model, yang kemudian akan menghasilkan respons. Analogi untuk jendela konteks adalah memori jangka pendek. Ada jumlah informasi terbatas yang dapat disimpan dalam memori jangka pendek seseorang, dan hal yang sama berlaku untuk model generatif.

Anda dapat membaca selengkapnya tentang cara kerja model di balik layar dalam panduan model generatif kami.

Mulai menggunakan konteks panjang

Model generatif versi sebelumnya hanya dapat memproses 8.000 token dalam satu waktu. Model yang lebih baru mendorong hal ini lebih jauh dengan menerima 32.000 atau bahkan 128.000 token. Gemini adalah model pertama yang dapat menerima 1 juta token.

Dalam praktiknya, 1 juta token akan terlihat seperti:

  • 50.000 baris kode (dengan standar 80 karakter per baris)
  • Semua pesan teks yang telah Anda kirim dalam 5 tahun terakhir
  • 8 novel berbahasa Inggris dengan panjang rata-rata
  • Transkrip lebih dari 200 episode podcast dengan durasi rata-rata

Jendela konteks yang lebih terbatas yang umum di banyak model lain sering kali memerlukan strategi seperti menghapus pesan lama secara sewenang-wenang, meringkas konten, menggunakan RAG dengan database vektor, atau memfilter perintah untuk menyimpan token.

Meskipun teknik ini tetap berharga dalam skenario tertentu, jendela konteks Gemini yang luas mendorong pendekatan yang lebih langsung: memberikan semua informasi yang relevan di awal. Karena model Gemini dibuat khusus dengan kemampuan konteks yang besar, model ini menunjukkan pembelajaran dalam konteks yang efektif. Misalnya, hanya dengan menggunakan materi instruksional dalam konteks (tata bahasa referensi 500 halaman, kamus, dan ≈400 kalimat paralel), Gemini belajar menerjemahkan dari bahasa Inggris ke Kalamang—bahasa Papua dengan kurang dari 200 penutur—dengan kualitas yang mirip dengan pelajar manusia yang menggunakan materi yang sama. Hal ini menggambarkan pergeseran paradigma yang dimungkinkan oleh konteks panjang Gemini, yang mendorong kemungkinan baru melalui pembelajaran dalam konteks yang andal.

Kasus penggunaan konteks panjang

Meskipun kasus penggunaan standar untuk sebagian besar model generatif masih berupa input teks, keluarga model Gemini memungkinkan paradigma baru kasus penggunaan multimodal. Model ini secara native dapat memahami teks, video, audio, dan gambar. Model ini disertai dengan Gemini API yang menggunakan jenis file multimodal untuk kemudahan.

Teks panjang

Teks telah terbukti menjadi lapisan kecerdasan yang mendukung sebagian besar momentum seputar LLM. Seperti yang disebutkan sebelumnya, sebagian besar batasan praktis LLM disebabkan oleh tidak adanya jendela konteks yang cukup besar untuk melakukan tugas tertentu. Hal ini menyebabkan adopsi retrieval augmented generation (RAG) dan teknik lainnya yang secara dinamis memberikan informasi kontekstual yang relevan ke model. Sekarang, dengan jendela konteks yang semakin besar, ada teknik baru yang tersedia dan membuka kasus penggunaan baru.

Beberapa kasus penggunaan standar dan yang baru muncul untuk konteks panjang berbasis teks mencakup:

  • Meringkas korpus teks yang besar
    • Opsi ringkasan sebelumnya dengan model konteks yang lebih kecil akan memerlukan jendela geser atau teknik lain untuk mempertahankan status bagian sebelumnya saat token baru diteruskan ke model
  • Pertanyaan dan jawaban
    • Secara historis, hal ini hanya dapat dilakukan dengan RAG mengingat jumlah konteks yang terbatas dan mengingat kembali fakta model yang rendah
  • Alur kerja agentic
    • Teks adalah dasar dari cara agen menyimpan status tentang apa yang telah dilakukan dan apa yang perlu dilakukan; tidak memiliki cukup informasi tentang dunia dan sasaran agen adalah batasan pada keandalan agen

Pembelajaran dalam konteks dengan banyak contoh adalah salah satu kemampuan paling unik yang dibuka oleh model konteks panjang. Riset telah menunjukkan bahwa mengambil paradigma contoh "single shot" atau "multi-shot" yang umum, dengan model yang ditampilkan dengan satu atau beberapa contoh tugas, dan menskalakannya hingga ratusan, ribuan, atau bahkan ratusan ribu contoh, dapat menghasilkan kemampuan model yang baru. Pendekatan many-shot ini juga telah terbukti berperforma serupa dengan model yang disesuaikan untuk tugas tertentu. Untuk kasus penggunaan saat performa model Gemini belum memadai untuk peluncuran produksi, Anda dapat mencoba pendekatan banyak pengambilan. Seperti yang mungkin Anda pelajari nanti di bagian pengoptimalan konteks panjang, caching konteks membuat jenis beban kerja token input tinggi ini jauh lebih ekonomis dan bahkan latensi yang lebih rendah dalam beberapa kasus.

Video panjang

Kegunaan konten video telah lama dibatasi oleh kurangnya aksesibilitas media itu sendiri. Sulit untuk membaca sekilas konten, transkrip sering kali gagal menangkap nuansa video, dan sebagian besar alat tidak memproses gambar, teks, dan audio secara bersamaan. Dengan Gemini, kemampuan teks konteks panjang diterjemahkan menjadi kemampuan untuk bernalar dan menjawab pertanyaan tentang input multimodal dengan performa yang berkelanjutan.

Beberapa kasus penggunaan standar dan yang baru muncul untuk konteks video panjang mencakup:

  • Tanya jawab video
  • Memori video, seperti yang ditunjukkan dengan Project Astra Google
  • Teks video
  • Sistem rekomendasi video, dengan memperkaya metadata yang ada dengan pemahaman multimodal baru
  • Penyesuaian video, dengan melihat korpus data dan metadata video terkait, lalu menghapus bagian video yang tidak relevan bagi penonton
  • Moderasi konten video
  • Pemrosesan video real-time

Saat menangani video, penting untuk mempertimbangkan cara video diproses menjadi token, yang memengaruhi pembatasan penagihan dan penggunaan. Anda dapat mempelajari lebih lanjut perintah dengan file video di Panduan perintah.

Audio berdurasi panjang

Model Gemini adalah model bahasa besar multimodal native pertama yang dapat memahami audio. Secara historis, alur kerja developer standar akan melibatkan penggabungan beberapa model khusus domain, seperti model speech-to-text dan model text-to-text, untuk memproses audio. Hal ini menyebabkan latensi tambahan yang diperlukan dengan melakukan beberapa permintaan bolak-balik dan penurunan performa yang biasanya diatribusikan ke arsitektur yang terputus dari penyiapan beberapa model.

Beberapa kasus penggunaan standar dan yang baru muncul untuk konteks audio mencakup:

  • Transkripsi dan terjemahan real-time
  • Tanya jawab podcast / video
  • Transkripsi dan ringkasan rapat
  • Asisten suara

Anda dapat mempelajari lebih lanjut cara memberikan perintah dengan file audio di Panduan perintah.

Pengoptimalan konteks panjang

Pengoptimalan utama saat menggunakan konteks panjang dan model Gemini adalah menggunakan caching konteks. Selain ketidakmampuan sebelumnya untuk memproses banyak token dalam satu permintaan, batasan utama lainnya adalah biaya. Jika Anda memiliki aplikasi "chat dengan data Anda" tempat pengguna mengupload 10 PDF, video, dan beberapa dokumen kerja, Anda secara historis harus menggunakan alat/framework retrieval augmented generation (RAG) yang lebih kompleks untuk memproses permintaan ini dan membayar jumlah yang signifikan untuk token yang dipindahkan ke jendela konteks. Sekarang, Anda dapat meng-cache file yang diupload pengguna dan membayar untuk menyimpannya per jam. Misalnya, biaya input / output per permintaan dengan Gemini Flash ~4x lebih murah daripada biaya input / output standar, sehingga jika pengguna cukup sering melakukan chat dengan datanya, hal ini akan menjadi penghematan biaya yang besar bagi Anda sebagai developer.

Batasan konteks panjang

Di berbagai bagian panduan ini, kita telah membahas cara model Gemini mencapai performa tinggi di berbagai evaluasi pengambilan needle-in-a-haystack. Pengujian ini mempertimbangkan penyiapan paling dasar, dengan satu jarum yang Anda cari. Jika Anda mungkin memiliki beberapa "jarum" atau informasi tertentu yang Anda cari, model tidak akan berperforma dengan akurasi yang sama. Performa dapat bervariasi dalam tingkat yang luas, bergantung pada konteksnya. Hal ini penting untuk dipertimbangkan karena ada kompromi yang melekat antara mendapatkan informasi yang tepat dan biaya. Anda bisa mendapatkan ~99% pada satu kueri, tetapi Anda harus membayar biaya token input setiap kali mengirim kueri tersebut. Jadi, untuk mengambil 100 informasi, jika Anda memerlukan performa 99%, Anda mungkin perlu mengirim 100 permintaan. Ini adalah contoh yang baik tentang tempat cache konteks dapat secara signifikan mengurangi biaya yang terkait dengan penggunaan model Gemini sekaligus menjaga performa tetap tinggi.

FAQ

Di mana tempat terbaik untuk menempatkan kueri saya di jendela konteks?

Dalam sebagian besar kasus, terutama jika total konteks panjang, performa model akan lebih baik jika Anda menempatkan kueri / pertanyaan di akhir perintah (setelah semua konteks lainnya).

Apakah performa model akan menurun jika saya menambahkan lebih banyak token ke kueri?

Secara umum, jika Anda tidak perlu token diteruskan ke model, sebaiknya hindari meneruskannya. Namun, jika Anda memiliki banyak token dengan beberapa informasi dan ingin mengajukan pertanyaan tentang informasi tersebut, model ini sangat mampu mengekstrak informasi tersebut (akurasi hingga 99% dalam banyak kasus).

Bagaimana cara menurunkan biaya dengan kueri konteks panjang?

Jika Anda memiliki kumpulan token / konteks serupa yang ingin digunakan kembali beberapa kali, caching konteks dapat membantu mengurangi biaya yang terkait dengan mengajukan pertanyaan tentang informasi tersebut.

Apakah panjang konteks memengaruhi latensi model?

Ada sejumlah latensi tetap dalam permintaan tertentu, terlepas dari ukurannya, tetapi umumnya kueri yang lebih panjang akan memiliki latensi yang lebih tinggi (waktu untuk token pertama).