휴대기기에 Gemma 배포

이 문서에서는 Google AI Edge Gallery 앱과 MediaPipe LLM 추론 API를 사용하는 등 모바일 기기에 Gemma 모델을 배포하고 실행하는 다양한 방법과 도구를 설명합니다.

미세 조정된 Gemma 모델을 LiteRT 버전으로 변환하는 방법에 관한 자세한 내용은 변환 가이드를 참고하세요.

Google AI Edge 갤러리 앱

LLM 추론 API가 작동하는 것을 확인하고 태스크 번들 모델을 테스트하려면 Google AI Edge 갤러리 앱을 사용하면 됩니다. 이 앱은 온디바이스 LLM과 상호작용하기 위한 사용자 인터페이스를 제공하여 다음 작업을 할 수 있습니다.

모델 가져오기: 맞춤 .task 모델을 앱에 로드합니다.
매개변수 구성: 온도 및 상위 k와 같은 설정을 조정합니다.
텍스트 생성: 프롬프트를 입력하고 모델의 응답을 확인합니다.
성능 테스트: 모델의 속도와 정확성을 평가합니다.

자체 모델 가져오기 안내를 비롯하여 Google AI Edge Gallery 앱 사용 방법에 관한 자세한 가이드는 앱의 문서를 참고하세요.

MediaPipe LLM

MediaPipe LLM 추론 API를 사용하여 휴대기기에서 Gemma 모델을 실행할 수 있습니다. LLM 추론 API는 대규모 언어 모델의 래퍼 역할을 하므로 정보 검색, 이메일 초안 작성, 문서 요약과 같은 일반적인 텍스트-텍스트 생성 작업을 위해 온디바이스에서 Gemma 모델을 실행할 수 있습니다.

LLM 추론 API는 다음 모바일 플랫폼에서 사용할 수 있습니다.

Android
iOS

자세한 내용은 MediaPipe LLM 추론 문서를 참고하세요.