Menggunakan Alat & Agen dengan Gemini API

Alat dan Agen memperluas kemampuan model Gemini, sehingga memungkinkannya mengambil tindakan di dunia, mengakses informasi real-time, dan melakukan tugas komputasi yang kompleks. Model dapat menggunakan alat dalam interaksi permintaan-respons standar dan sesi streaming real-time menggunakan Live API.

  • Alat adalah kemampuan spesifik (seperti Google Penelusuran atau Eksekusi Kode) yang dapat digunakan model untuk menjawab kueri.
  • Agen adalah sistem yang dapat merencanakan, menjalankan, dan menyintesis tugas multi-langkah untuk mencapai sasaran pengguna.

Gemini API menyediakan serangkaian alat dan agen bawaan yang terkelola sepenuhnya dan dioptimalkan untuk model Gemini. Anda juga dapat menentukan alat kustom menggunakan Panggilan Fungsi.

Alat bawaan yang tersedia

Alat Deskripsi Kasus Penggunaan
Google Penelusuran Men-grounding respons pada peristiwa terkini dan fakta dari web untuk mengurangi halusinasi. - Menjawab pertanyaan tentang peristiwa baru-baru ini
- Memverifikasi fakta dengan berbagai sumber
Google Maps Buat asisten yang mampu menentukan lokasi yang dapat menemukan tempat, mendapatkan rute, dan memberikan konteks lokal yang kaya. - Merencanakan itinerari perjalanan dengan beberapa tujuan
- Menemukan bisnis lokal berdasarkan kriteria pengguna
Eksekusi Kode Izinkan model menulis dan menjalankan kode Python untuk menyelesaikan masalah matematika atau memproses data secara akurat. - Menyelesaikan persamaan matematika yang kompleks
- Memproses dan menganalisis data teks secara akurat
Konteks URL Mengarahkan model untuk membaca dan menganalisis konten dari halaman web atau dokumen tertentu. - Menjawab pertanyaan berdasarkan URL atau dokumen tertentu
- Mengambil informasi di berbagai halaman web
Penggunaan Komputer (Pratinjau) Mengizinkan Gemini melihat layar dan membuat tindakan untuk berinteraksi dengan UI browser web (Eksekusi sisi klien). - Mengotomatiskan alur kerja berbasis web yang berulang
- Menguji antarmuka pengguna aplikasi web
Penelusuran File Mengindeks dan menelusuri dokumen Anda sendiri untuk mengaktifkan Retrieval Augmented Generation (RAG). - Menelusuri manual teknis
- Menjawab pertanyaan tentang data eksklusif

Lihat halaman Harga untuk mengetahui detail biaya yang terkait dengan alat tertentu.

Agen yang Tersedia

Agen Deskripsi Kasus Penggunaan
Deep Research Merencanakan, menjalankan, dan menyintesis tugas riset multilangkah secara mandiri. - Analisis pasar
- Uji tuntas
- Tinjauan pustaka

Cara kerja eksekusi alat

Alat memungkinkan model meminta tindakan selama percakapan. Alurnya berbeda-beda, bergantung pada apakah alat tersebut bawaan (dikelola oleh Google) atau kustom (dikelola oleh Anda).

Alur alat bawaan

Untuk alat bawaan (Google Penelusuran, Google Maps, Konteks URL, Penelusuran File, Eksekusi Kode), seluruh proses terjadi dalam satu panggilan API:

  1. Anda mengirim perintah: "Berapa akar kuadrat dari harga saham terbaru GOOG?"
  2. Gemini memutuskan bahwa ia memerlukan alat dan menjalankannya di server Google (misalnya, menelusuri harga saham, lalu menjalankan kode Python untuk menghitung akar kuadrat).
  3. Gemini mengirim kembali jawaban akhir yang didasarkan pada hasil alat.

Alur alat kustom (Panggilan fungsi)

Untuk alat kustom dan Penggunaan Komputer, aplikasi Anda menangani eksekusi:

  1. Anda mengirim perintah beserta deklarasi fungsi (alat).
  2. Gemini dapat mengirim kembali JSON terstruktur untuk memanggil fungsi tertentu (misalnya, {"name": "get_order_status", "args": {"order_id": "123"}}), selalu dengan id unik.
  3. Anda menjalankan fungsi di aplikasi atau lingkungan Anda.
  4. Anda mengirimkan hasil fungsi, dengan id yang sama seperti panggilan fungsi, kembali ke Gemini.
  5. Gemini menggunakan hasil tersebut untuk membuat respons akhir atau panggilan alat lainnya.

Pelajari lebih lanjut di Panduan panggilan fungsi.

Menggabungkan alur alat bawaan dan kustom

Untuk permintaan yang menggabungkan alat bawaan dan alat kustom (panggilan fungsi), model menggunakan sirkulasi konteks alat untuk mengoordinasikan eksekusi di berbagai lingkungan:

  1. Anda mengirim perintah dan mendeklarasikan alat bawaan dan fungsi kustom yang ingin diaktifkan, dengan menetapkan tanda untuk mengaktifkan dukungan kombinasi.
  2. Gemini menjalankan alat bawaan dan memberikan hasil kepada pengguna jika ada panggilan fungsi sisi klien yang dihasilkan (yang dijalankan terlebih dahulu bergantung pada perintah dan apa yang diputuskan model). API ini akan mengirimkan kembali respons dengan:
    • Konfirmasi panggilan alat
    • Hasil respons alat (ini mungkin muncul setelah JSON jika model membuat dua panggilan fungsi paralel)
    • JSON terstruktur untuk memanggil fungsi Anda
    • Tanda tangan pemikiran terenkripsi untuk mempertahankan konteks
  3. Anda menjalankan fungsi di aplikasi atau lingkungan Anda.
  4. Anda menampilkan semua bagian respons Gemini, ditambah hasil panggilan fungsi Anda.
  5. Gemini menghasilkan respons akhir menggunakan semua konteks yang digabungkan.

Baca Panduan kombinasi alat untuk mempelajari cara mengaktifkan dukungan untuk kombinasi alat bawaan dan kustom serta contoh sirkulasi konteks.

Output terstruktur vs. panggilan fungsi

Gemini menawarkan dua metode untuk menghasilkan output terstruktur. Gunakan Panggilan fungsi saat model perlu melakukan langkah perantara dengan terhubung ke alat atau sistem data Anda sendiri. Gunakan Output Terstruktur jika Anda benar-benar memerlukan respons akhir model untuk mematuhi skema tertentu, seperti untuk merender UI kustom.

Output terstruktur dengan alat

Anda dapat menggabungkan Output Terstruktur dengan alat bawaan untuk memastikan bahwa respons model yang didasarkan pada data atau komputasi eksternal tetap mematuhi skema yang ketat.

Lihat Output terstruktur dengan alat untuk contoh kode.

Membangun agen

Agen adalah sistem yang menggunakan model dan alat untuk menyelesaikan tugas multi-langkah. Meskipun Gemini menyediakan kemampuan penalaran (otak) dan alat penting (tangan), Anda sering kali memerlukan framework orkestrasi untuk mengelola memori agen, loop rencana, dan melakukan rangkaian alat yang kompleks.

Untuk memaksimalkan keandalan dalam alur kerja multi-langkah, Anda harus membuat petunjuk yang secara eksplisit mengontrol cara model bernalar dan membuat rencana. Meskipun Gemini memberikan penalaran umum yang kuat, agen yang kompleks akan mendapatkan manfaat dari perintah yang menerapkan perilaku tertentu seperti kegigihan dalam menghadapi masalah, penilaian risiko, dan perencanaan proaktif.

Lihat Alur kerja agentik untuk mengetahui strategi dalam mendesain perintah ini. Berikut adalah contoh instruksi sistem yang meningkatkan performa pada beberapa tolok ukur berbasis agen sekitar 5%.

Framework agen

Gemini terintegrasi dengan framework agen open source terkemuka seperti:

  • LangChain / LangGraph: Bangun alur aplikasi yang kompleks dan memiliki status serta sistem multi-agen menggunakan struktur grafik.
  • LlamaIndex: Menghubungkan agen Gemini ke data pribadi Anda untuk alur kerja yang ditingkatkan RAG.
  • CrewAI: Mengatur agen AI otonom yang kolaboratif dan memainkan peran.
  • Vercel AI SDK: Buat antarmuka pengguna dan agen yang didukung AI di JavaScript/TypeScript.
  • Google ADK: Framework open source untuk membangun dan mengatur agen AI yang dapat beroperasi.