공유

2025년 12월 12일

Ava: Gemini 2.5 Flash 및 Live API를 사용하여 에이전트 워크플로 빌드

조 알리카타

Ava 공동 설립자 겸 CTO

Vishal Dharmadhikari

개발자 솔루션 엔지니어

Ava 쇼케이스 히어로

Ava는 필요를 예측하고 작업을 자동화하여 가족 생활의 물류를 관리하도록 설계된 'AI 기반 가족 운영체제'입니다.

부모가 관리하는 정보는 구조화되어 있지 않은 경우가 많습니다. 학교에서 보내는 일관성 없는 이메일, 전단지 스크린샷, PDF 첨부파일, 긴 WhatsApp 대화목록, 음성 메모를 통해 정보가 전달됩니다. Ava는 컨텍스트를 이해하고 외부 서비스와 원활하게 상호작용해야 합니다.

실제 세계의 지저분하고 구조화되지 않은 입력을 처리하기 위해 Ava팀은 에이전트 파이프라인의 다양한 단계에 Gemini 2.5 Flash 모델을 사용하고 Live API를 사용하여 대화형 인터페이스를 제공하는 계층화된 아키텍처를 구현했습니다.

Ava 쇼케이스

성능 및 효율성 최적화

들어오는 요청은 먼저 경량 에이전트 라우터를 만나 사용자 환경이 반응형으로 느껴지도록 합니다. 이 라우터는 트리아지 시스템 역할을 하여 입력의 우선순위를 분류하고, 주요 슬롯 (누가, 언제, 어디서)을 추출하고, 어떤 전문 도구나 후속 모델이 필요한지 결정합니다.

Ava의 공동 창립자이자 CTO인 Joe Alicata에 따르면 'Gemini 2.5 Flash-Lite는 초경량 검사에서 빛을 발합니다'. 의도 감지 및 짧은 형식 요약을 처리하면서 1초 미만의 응답을 제공합니다.

복잡한 계획 및 실행 처리

의도가 설정되면 작업에는 더 깊은 추론이 필요한 경우가 많습니다. 예를 들어 학교 캘린더를 파싱하고, 일관되지 않은 날짜를 정규화하고, 올바른 일정을 제안하려면 미묘한 이해가 필요합니다. Gemini 2.5 Flash는 Ava가 엄격한 기술 요구사항을 충족하여 유능한 '가정 COO' 역할을 할 수 있도록 지원합니다.

  • 멀티모달 이해: 텍스트, 이미지, 오디오를 한 번에 처리
  • 모호한 상황에서의 정확도 향상: 일관되지 않은 학교 커뮤니케이션을 올바르게 해석
  • 신뢰할 수 있는 함수 호출: Gmail 및 Calendar API 호출과 같은 작업에서 구조화되고 신뢰할 수 있는 데이터를 사용하도록 보장


가족은 Live API로 지원되는 음성 상호작용을 통해 집안일을 완전히 관리할 수 있습니다. Alicata는 '네이티브 오디오에 관한 엄격한 요구사항'이 있으므로 Ava가 활용하기에 자연스러운 도구라고 언급했습니다.

에이전트형 시스템 빌드를 위한 성숙한 접근 방식

개발팀은 개발 중에 Google AI Studio를 광범위하게 사용하여 프롬프트와 도구 스키마를 빠르게 반복하고 후보 모델을 A/B 테스트하여 아이디어에서 테스트까지의 루프를 며칠에서 몇 시간으로 단축했습니다.

결과를 통해 멀티 모델 접근 방식의 효과가 입증되었습니다. 이메일 대화목록, 전단지 사진과 같은 노이즈가 많은 입력에서 첫 번째 패스 정확도가 더 높게 나타났습니다. 알파 스프린트 기간 동안 Ava 사용자의 80% 가 일일 활성 사용자였으며, 분류된 수천 개의 이벤트가 승인되어 캘린더에 추가되었습니다.

빠른 읽기를 위해 효율성이 높은 모델을 사용하고 복잡한 분석을 위해 리소스 집약적인 모델을 예약함으로써 에이전트 시스템은 실제와 같은 속도로 작동할 수 있습니다.

Gemini 모델과 Live API로 에이전트 워크플로를 간소화하는 방법을 알아보려면 API 문서를 검토하세요.