Alat memperluas kemampuan model Gemini, sehingga memungkinkan model mengambil tindakan di dunia, mengakses informasi real-time, dan melakukan tugas komputasi yang kompleks. Model dapat menggunakan alat dalam interaksi respons permintaan standar dan sesi streaming real-time menggunakan Live API.
Alat adalah kemampuan tertentu (seperti Google Penelusuran atau Eksekusi Kode) yang dapat digunakan model untuk menjawab kueri. Gemini API menyediakan rangkaian alat bawaan yang dikelola sepenuhnya , atau Anda dapat menentukan alat kustom menggunakan Panggilan Fungsi.
Untuk membuat sistem multi-langkah yang berorientasi pada tujuan, lihat Ringkasan Agen.
Alat bawaan yang tersedia
| Alat | Deskripsi | Kasus Penggunaan |
|---|---|---|
| Google Penelusuran | Mendasarkan respons pada peristiwa dan fakta terkini dari web untuk mengurangi halusinasi. | \- Menjawab pertanyaan tentang peristiwa terbaru \- Memverifikasi fakta dengan berbagai sumber |
| Google Maps | Membuat asisten yang mengetahui lokasi dan dapat menemukan tempat, mendapatkan rute, serta memberikan konteks lokal yang lengkap. | \- Merencanakan itinerari perjalanan dengan beberapa perhentian \- Menemukan bisnis lokal berdasarkan kriteria pengguna |
| Eksekusi Kode | Memungkinkan model menulis dan menjalankan kode Python untuk menyelesaikan masalah matematika atau memproses data secara akurat. | \- Menyelesaikan persamaan matematika yang kompleks \- Memproses dan menganalisis data teks secara akurat |
| Konteks URL | Mengarahkan model untuk membaca dan menganalisis konten dari halaman web atau dokumen tertentu. | \- Menjawab pertanyaan berdasarkan URL atau dokumen tertentu \- Mengambil informasi di berbagai halaman web |
| Penggunaan Komputer (Pratinjau) | Memungkinkan Gemini melihat layar dan membuat tindakan untuk berinteraksi dengan UI browser web (Eksekusi sisi klien). | \- Mengotomatiskan alur kerja berbasis web yang berulang \- Menguji antarmuka pengguna aplikasi web |
| Penelusuran File | Mengindeks dan menelusuri dokumen Anda sendiri untuk mengaktifkan Retrieval Augmented Generation (RAG). | \- Menelusuri panduan teknis \- Menjawab pertanyaan tentang data eksklusif |
Lihat halaman Harga untuk mengetahui detail biaya yang terkait dengan alat tertentu.
Cara kerja eksekusi alat
Alat memungkinkan model meminta tindakan selama percakapan. Alurnya berbeda bergantung pada apakah alat tersebut bawaan (dikelola oleh Google) atau kustom (dikelola oleh Anda).
Alur alat bawaan
Untuk alat bawaan (Google Penelusuran, Google Maps, Konteks URL, Penelusuran File, Eksekusi Kode), seluruh proses terjadi dalam satu panggilan API:
- Anda mengirim perintah: "Berapa akar kuadrat dari harga saham GOOG terbaru?"
- Gemini memutuskan bahwa model memerlukan alat dan menjalankannya di server Google (misalnya, menelusuri harga saham, lalu menjalankan kode Python untuk menghitung akar kuadrat).
- Gemini mengirim kembali jawaban akhir yang didasarkan pada hasil alat.
Alur alat kustom (Panggilan fungsi)
Untuk alat kustom dan Penggunaan Komputer, aplikasi Anda menangani eksekusi:
- Anda mengirim perintah beserta deklarasi fungsi (alat).
- Gemini dapat mengirim kembali JSON terstruktur untuk memanggil fungsi tertentu
(misalnya,
{"name": "get_order_status", "args": {"order_id": "123"}}), selalu denganidunik. - Anda menjalankan fungsi di aplikasi atau lingkungan Anda.
- Anda mengirim hasil fungsi, dengan
idyang sama dengan panggilan fungsi, kembali ke Gemini. - Gemini menggunakan hasil untuk membuat respons akhir atau panggilan alat lainnya.
Pelajari lebih lanjut dalam panduan Panggilan fungsi.
Menggabungkan alur alat bawaan dan alat kustom
- Anda mengirim perintah dan mendeklarasikan alat bawaan dan fungsi kustom yang ingin diaktifkan, dengan menetapkan flag untuk mengaktifkan dukungan kombinasi.
- Gemini menjalankan alat bawaan dan memberikan hasil kepada pengguna jika ada panggilan fungsi sisi klien yang dibuat (yang dijalankan terlebih dahulu bergantung pada perintah dan keputusan model). Model akan mengirim kembali respons dengan:
- Konfirmasi panggilan alat
- Hasil respons alat (ini mungkin muncul setelah JSON jika model membuat dua panggilan fungsi paralel)
- JSON terstruktur untuk memanggil fungsi Anda
- Tanda tangan pemikiran terenkripsi untuk mempertahankan konteks
- Anda menjalankan fungsi di aplikasi atau lingkungan Anda.
- Anda menampilkan semua bagian respons Gemini, ditambah hasil panggilan fungsi Anda.
- Gemini membuat respons akhir menggunakan semua konteks gabungan.
Baca panduan Kombinasi alat untuk mempelajari cara mengaktifkan dukungan untuk kombinasi alat bawaan dan alat kustom serta contoh sirkulasi konteks.
Output terstruktur vs. panggilan fungsi
Gemini menawarkan dua metode untuk membuat output terstruktur. Gunakan Panggilan fungsi jika model perlu melakukan langkah perantara dengan menghubungkan ke alat atau sistem data Anda sendiri. Gunakan Output Terstruktur jika Anda benar-benar memerlukan respons akhir model untuk mematuhi skema tertentu, seperti untuk merender UI kustom.
Output terstruktur dengan alat
Anda dapat menggabungkan Output Terstruktur dengan alat bawaan untuk memastikan bahwa respons model yang didasarkan pada data atau komputasi eksternal tetap mematuhi skema yang ketat.
Lihat Output terstruktur dengan alat untuk contoh kode.