휴대기기에 Gemma 배포

이 문서에서는 Google AI Edge Gallery 앱과 MediaPipe LLM 추론 API를 사용하는 등 모바일 기기에 Gemma 모델을 배포하고 실행하는 다양한 방법과 도구를 설명합니다.

미세 조정된 Gemma 모델을 LiteRT 버전으로 변환하는 방법에 관한 자세한 내용은 변환 가이드를 참고하세요.

LLM 추론 API가 작동하는 것을 확인하고 태스크 번들 모델을 테스트하려면 Google AI Edge 갤러리 앱을 사용하면 됩니다. 이 앱은 온디바이스 LLM과 상호작용하기 위한 사용자 인터페이스를 제공하여 다음 작업을 할 수 있습니다.

  • 모델 가져오기: 맞춤 .task 모델을 앱에 로드합니다.
  • 매개변수 구성: 온도 및 상위 k와 같은 설정을 조정합니다.
  • 텍스트 생성: 프롬프트를 입력하고 모델의 응답을 확인합니다.
  • 성능 테스트: 모델의 속도와 정확성을 평가합니다.

자체 모델 가져오기 안내를 비롯하여 Google AI Edge Gallery 앱 사용 방법에 관한 자세한 가이드는 앱의 문서를 참고하세요.

MediaPipe LLM

MediaPipe LLM 추론 API를 사용하여 휴대기기에서 Gemma 모델을 실행할 수 있습니다. LLM 추론 API는 대규모 언어 모델의 래퍼 역할을 하므로 정보 검색, 이메일 초안 작성, 문서 요약과 같은 일반적인 텍스트-텍스트 생성 작업을 위해 온디바이스에서 Gemma 모델을 실행할 수 있습니다.

LLM 추론 API는 다음 모바일 플랫폼에서 사용할 수 있습니다.

자세한 내용은 MediaPipe LLM 추론 문서를 참고하세요.