Menggunakan alat dengan Gemini API

Alat memperluas kemampuan model Gemini, sehingga model dapat mengambil tindakan di dunia, mengakses informasi real-time, dan melakukan tugas komputasi yang kompleks. Model dapat menggunakan alat dalam interaksi permintaan-respons standar dan sesi streaming real-time melalui Live API.

Gemini API menyediakan serangkaian alat bawaan yang terkelola sepenuhnya dan dioptimalkan untuk model Gemini atau Anda dapat menentukan alat kustom menggunakan Panggilan Fungsi.

Alat bawaan yang tersedia

Alat Deskripsi Kasus Penggunaan
Google Penelusuran Men-grounding respons pada peristiwa terkini dan fakta dari web untuk mengurangi halusinasi. - Menjawab pertanyaan tentang peristiwa terbaru
- Memverifikasi fakta dengan berbagai sumber
Google Maps Buat asisten yang mampu menentukan lokasi yang dapat menemukan tempat, mendapatkan rute, dan memberikan konteks lokal yang kaya. - Merencanakan itinerari perjalanan dengan beberapa tujuan
- Menemukan bisnis lokal berdasarkan kriteria pengguna
Eksekusi Kode Izinkan model menulis dan menjalankan kode Python untuk menyelesaikan masalah matematika atau memproses data secara akurat. - Menyelesaikan persamaan matematika yang kompleks
- Memproses dan menganalisis data teks secara akurat
Konteks URL Mengarahkan model untuk membaca dan menganalisis konten dari halaman web atau dokumen tertentu. - Menjawab pertanyaan berdasarkan URL atau dokumen tertentu
- Mengambil informasi di berbagai halaman web
Penggunaan Komputer (Pratinjau) Mengizinkan Gemini melihat layar dan membuat tindakan untuk berinteraksi dengan UI browser web (Eksekusi sisi klien). - Mengotomatiskan alur kerja berbasis web yang berulang
- Menguji antarmuka pengguna aplikasi web
Penelusuran File Mengindeks dan menelusuri dokumen Anda sendiri untuk mengaktifkan Retrieval Augmented Generation (RAG). - Menelusuri panduan teknis
- Menjawab pertanyaan tentang data eksklusif

Lihat Halaman harga untuk mengetahui detail biaya yang terkait dengan alat tertentu.

Cara kerja eksekusi alat

Alat memungkinkan model meminta tindakan selama percakapan. Alurnya berbeda-beda, bergantung pada apakah alat tersebut bawaan (dikelola oleh Google) atau kustom (dikelola oleh Anda).

Alur alat bawaan

Untuk alat bawaan seperti Google Penelusuran atau Eksekusi Kode, seluruh proses terjadi dalam satu panggilan API:

  1. Anda mengirim perintah: "Berapa akar kuadrat dari harga saham GOOG terbaru?"
  2. Gemini memutuskan bahwa ia memerlukan alat dan menjalankannya di server Google (misalnya, menelusuri harga saham, lalu menjalankan kode Python untuk menghitung akar kuadrat).
  3. Gemini mengirim kembali jawaban akhir yang didasarkan pada hasil alat.

Alur alat kustom (Panggilan Fungsi)

Untuk alat kustom dan Penggunaan Komputer, aplikasi Anda menangani eksekusi:

  1. Anda mengirim perintah beserta deklarasi fungsi (alat).
  2. Gemini dapat mengirim kembali JSON terstruktur untuk memanggil fungsi tertentu (misalnya, {"name": "get_order_status", "args": {"order_id": "123"}}).
  3. Anda menjalankan fungsi di aplikasi atau lingkungan Anda.
  4. Anda mengirimkan hasil fungsi kembali ke Gemini.
  5. Gemini menggunakan hasil tersebut untuk membuat respons akhir atau panggilan alat lainnya.

Pelajari lebih lanjut di Panduan panggilan fungsi.

Output terstruktur vs. Panggilan Fungsi

Gemini menawarkan dua metode untuk menghasilkan output terstruktur. Gunakan Panggilan fungsi saat model perlu melakukan langkah perantara dengan terhubung ke alat atau sistem data Anda sendiri. Gunakan Output Terstruktur jika Anda benar-benar memerlukan respons akhir model untuk mematuhi skema tertentu, seperti untuk merender UI kustom.

Membangun agen

Agen adalah sistem yang menggunakan model dan alat untuk menyelesaikan tugas multi-langkah. Meskipun Gemini menyediakan kemampuan penalaran (otak) dan alat penting (tangan), Anda sering kali memerlukan framework orkestrasi untuk mengelola memori agen, loop rencana, dan melakukan rangkaian alat yang kompleks.

Gemini terintegrasi dengan framework agen open source terkemuka:

  • LangChain / LangGraph: Bangun alur aplikasi yang kompleks dan sistem multi-agen yang memiliki status menggunakan struktur grafik.
  • LlamaIndex: Hubungkan agen Gemini ke data pribadi Anda untuk alur kerja yang ditingkatkan RAG.
  • CrewAI: Atur agen AI otonom yang kolaboratif dan memainkan peran.
  • Vercel AI SDK: Buat antarmuka pengguna dan agen yang didukung AI di JavaScript/TypeScript.
  • ADK Google: Framework open source untuk membangun dan mengatur agen AI yang dapat beroperasi.