12. DEZEMBER 2025
Ava: Agentenbasierte Workflows mit Gemini 2.5 Flash und der Live API erstellen
Ava ist ein „KI-basiertes Familienbetriebssystem“, das die Logistik des Familienlebens verwalten soll, indem es Bedürfnisse vorhersieht und Aufgaben automatisiert.
Die Informationen, die Eltern verwalten, sind selten strukturiert. Sie werden über uneinheitliche E‑Mails der Schule, Screenshots von Flyern, PDF-Anhänge, lange WhatsApp-Threads und Sprachnotizen empfangen. Ava muss den Kontext verstehen und nahtlos mit externen Diensten interagieren können.
Um die unstrukturierten Eingaben der realen Welt zu verarbeiten, implementierte das Ava-Team eine mehrstufige Architektur mit Gemini 2.5 Flash-Modellen für verschiedene Phasen der Agent-Pipeline und der Live API für eine dialogorientierte Schnittstelle.
Leistung und Effizienz optimieren
Eingehende Anfragen werden zuerst an einen einfachen Agent-Router weitergeleitet, damit die Nutzererfahrung reaktionsschnell ist. Dieser Router fungiert als Triage-System, das die Priorität der Eingabe klassifiziert, wichtige Slots (wer, wann, wo) extrahiert und entscheidet, welches spezielle Tool oder nachfolgende Modell erforderlich ist.
Laut Joe Alicata, Mitbegründer und CTO von Ava, eignet sich Gemini 2.5 Flash-Lite hervorragend für extrem einfache Prüfungen. Es übernimmt die Absichtserkennung und die Zusammenfassung in Kurzform und liefert Antworten in weniger als einer Sekunde.
Umgang mit komplexer Planung und Ausführung
Sobald die Intention ermittelt wurde, erfordern Aufgaben oft eine detailliertere Argumentation. Das Parsen eines Schulkalenders, das Normalisieren inkonsistenter Datumsangaben und das Vorschlagen des richtigen Termins erfordern beispielsweise ein differenziertes Verständnis. Gemini 2.5 Flash ermöglicht es Ava, als leistungsstarke „COO des Haushalts“ zu fungieren, indem es anspruchsvolle technische Anforderungen erfüllt:
- Multimodales Verständnis: Text, Bilder und Audio in einem einzigen Durchgang verarbeiten
- Höhere Genauigkeit bei Unklarheiten: Inkonsistente Mitteilungen von Bildungseinrichtungen richtig interpretieren
- Zuverlässiger Funktionsaufruf: Aktionen wie das Aufrufen der Gmail- und Calendar API basieren auf strukturierten und vertrauenswürdigen Daten.
Familien können ihre Haushaltsaufgaben vollständig über Sprachinteraktionen verwalten, die durch die Live API ermöglicht werden. Alicata wies darauf hin, dass „native Audio-Unterstützung eine wichtige Anforderung“ war, weshalb Ava ein naheliegendes Tool war.
Ein ausgereifter Ansatz für die Entwicklung von Agentensystemen
Das Team nutzte Google AI Studio während der Entwicklung intensiv, um schnell Prompts und Tool-Schemas zu iterieren und Kandidatenmodelle per A/B-Test zu testen. So konnte der Zyklus von der Idee bis zum Test von Tagen auf Stunden verkürzt werden.
Die Ergebnisse belegten die Wirksamkeit des Multi-Modell-Ansatzes. Bei verrauschten Eingaben wie E-Mail-Konversationen und Fotos von Flyern wurde eine höhere Genauigkeit beim ersten Durchlauf beobachtet. Während des Alpha-Sprints waren 80% der Ava-Nutzer täglich aktiv. Tausende von priorisierten Ereignissen wurden genehmigt und Kalendern hinzugefügt.
Durch die Verwendung hocheffizienter Modelle für schnelle Lesevorgänge und die Reservierung ressourcenintensiverer Modelle für komplexe Analysen können Agentensysteme in Echtzeit arbeiten.
In unserer API-Dokumentation erfahren Sie, wie Sie mit Gemini-Modellen und der Live API Agent-Workflows optimieren können.