12 DES 2025
Ava: Membangun alur kerja berbasis agen dengan Gemini 2.5 Flash dan Live API
Ava adalah “sistem operasi keluarga berteknologi AI” yang dirancang untuk mengelola logistik kehidupan keluarga dengan mengantisipasi kebutuhan dan mengotomatiskan tugas.
Informasi yang dikelola orang tua jarang terstruktur; informasi tersebut diterima melalui email sekolah yang tidak konsisten, screenshot selebaran, lampiran PDF, rangkaian pesan WhatsApp yang panjang, dan catatan suara. Ava harus memahami konteks dan berinteraksi dengan layanan eksternal secara lancar.
Untuk menangani input tidak terstruktur yang berantakan di dunia nyata, tim Ava menerapkan arsitektur bertingkat menggunakan model Gemini 2.5 Flash untuk berbagai tahap pipeline agentik mereka dan Live API untuk menyediakan antarmuka percakapan.
Mengoptimalkan performa dan efisiensi
Permintaan masuk pertama-tama akan menemukan perute agen ringan untuk membuat pengalaman pengguna terasa responsif. Router ini bertindak sebagai sistem triase, mengklasifikasikan prioritas input, mengekstrak slot kunci (siapa, kapan, di mana), dan memutuskan alat khusus atau model berikutnya yang diperlukan.
Menurut Joe Alicata, salah satu pendiri dan CTO Ava, “Gemini 2.5 Flash-Lite sangat unggul untuk pemeriksaan yang sangat ringan”, menangani deteksi maksud dan ringkasan bentuk pendek sekaligus memberikan respons dalam waktu kurang dari satu detik.
Menangani perencanaan dan eksekusi yang kompleks
Setelah maksud ditetapkan, tugas sering kali memerlukan penalaran yang lebih mendalam. Misalnya, mengurai kalender sekolah, menormalisasi tanggal yang tidak konsisten, dan menyarankan acara yang benar memerlukan pemahaman yang mendalam. Gemini 2.5 Flash memungkinkan Ava berfungsi sebagai “COO rumah tangga” yang kompeten dengan memenuhi persyaratan teknis yang ketat:
- Pemahaman multimodal: Memproses teks, gambar, dan audio dalam satu langkah
- Peningkatan akurasi dalam situasi ambigu: Menafsirkan komunikasi sekolah yang tidak konsisten dengan benar
- Panggilan fungsi yang andal: Memastikan bahwa tindakan, seperti memanggil Gmail dan Calendar API, menggunakan data terstruktur dan tepercaya
Keluarga dapat mengelola tugas rumah tangga sepenuhnya melalui interaksi suara yang diaktifkan oleh Live API. Alicata mencatat bahwa mereka memiliki “persyaratan ketat terkait audio native” sehingga Ava terasa seperti alat yang tepat untuk digunakan.
Pendekatan matang untuk membangun sistem agentic
Tim menggunakan Google AI Studio secara ekstensif selama pengembangan untuk melakukan iterasi pada perintah dan skema alat dengan cepat serta melakukan pengujian A/B pada model kandidat, sehingga memperpendek siklus ide-ke-pengujian dari beberapa hari menjadi beberapa jam.
Hasilnya menunjukkan efikasi pendekatan multi-model mereka. Mereka mengamati akurasi lintasan pertama yang lebih tinggi pada input yang bising seperti rangkaian email dan foto selebaran. Selama sprint alfa, 80% pengguna Ava adalah pengguna aktif harian, dan ribuan acara yang telah dikategorikan disetujui dan ditambahkan ke kalender.
Dengan menggunakan model yang sangat efisien untuk pembacaan cepat dan mencadangkan model yang lebih intensif resource untuk analisis yang kompleks, sistem agen dapat bekerja secepat kehidupan nyata.
Untuk mempelajari cara model Gemini dan Live API dapat menyederhanakan alur kerja berbasis agen, tinjau dokumentasi API kami.