에이전트 개요

에이전트는 Gemini 모델, 도구 모음, 추론 기능을 활용하여 복잡한 다단계 작업을 수행하고 특정 목표를 달성하는 시스템입니다. 단일 모델 호출과 달리 에이전트는 사용자의 요청을 충족하기 위해 일련의 작업을 계획하고 실행하고, 외부 시스템과 상호작용하고, 정보를 합성할 수 있습니다.

Gemini API를 사용하면 다음과 같은 기능을 활용하여 강력한 에이전트를 빌드할 수 있습니다.

  • Gemini 모델: 추론 및 언어 이해를 제공하는 핵심 인텔리전스입니다.
  • 도구: 모델을 실제 정보 및 작업에 연결하는 기능입니다. 기본 제공 도구 (예: Google 검색, 지도, 코드 실행) 또는 맞춤 도구일 수 있습니다.
  • 함수 호출: 자체 맞춤 도구와 API를 정의하고 Gemini 모델에 연결하는 메커니즘입니다.
  • 사고: 모델의 추론 및 복잡한 작업 계획 능력을 향상하는 기능입니다.
  • 긴 컨텍스트: 에이전트가 긴 상호작용에서 상태와 정보를 유지할 수 있습니다.

연락 가능한 상담사

  • Deep Research Agent: 시장 분석, 실사, 문헌 검토와 같은 사용 사례를 위해 여러 단계로 구성된 조사 작업을 계획, 실행, 종합하는 자율 에이전트입니다.

에이전트 빌드

에이전트는 모델과 도구를 사용하여 다단계 작업을 완료합니다. Gemini는 추론 기능('두뇌')과 필수 도구('손')를 제공하지만, 에이전트의 메모리를 관리하고, 루프를 계획하고, 복잡한 도구 체인을 실행하려면 오케스트레이션 프레임워크가 필요한 경우가 많습니다.

다단계 워크플로의 안정성을 극대화하려면 모델이 추론하고 계획하는 방식을 명시적으로 제어하는 안내를 작성해야 합니다. Gemini는 강력한 일반 추론을 제공하지만, 복잡한 에이전트는 문제 발생 시 지속성, 위험 평가, 사전 계획과 같은 특정 동작을 강제하는 프롬프트의 이점을 누릴 수 있습니다.

이러한 프롬프트를 설계하는 전략은 에이전트 워크플로를 참고하세요. 다음은 여러 에이전트 벤치마크에서 성능을 약 5% 향상한 시스템 명령의 예입니다.

에이전트 프레임워크

Gemini는 다음과 같은 주요 오픈소스 에이전트 프레임워크와 통합됩니다.

  • LangChain / LangGraph: 그래프 구조를 사용하여 상태가 있는 복잡한 애플리케이션 흐름과 멀티 에이전트 시스템을 빌드합니다.
  • LlamaIndex: RAG가 강화된 워크플로를 위해 Gemini 에이전트를 비공개 데이터에 연결합니다.
  • CrewAI: 공동작업, 롤플레잉 자율 AI 에이전트를 조정합니다.
  • Vercel AI SDK: JavaScript/TypeScript로 AI 기반 사용자 인터페이스 및 에이전트를 빌드합니다.
  • Google ADK: 상호 운용 가능한 AI 에이전트를 빌드하고 조정하기 위한 오픈소스 프레임워크입니다.