LiteRT-LM 개요

LiteRT-LM은 에지 기기에서 고성능 크로스 플랫폼 LLM 배포를 제공하도록 설계된 프로덕션 지원 오픈소스 추론 프레임워크입니다.

주요 기능

  • 크로스 플랫폼 지원: Android, iOS, 웹, 데스크톱에서 실행
  • 하드웨어 가속:
    • GPU: ML 드리프트로 구동되며 ML 및 생성형 AI 모델을 모두 지원합니다.
    • NPU: Qualcomm 및 MediaTek 칩셋이 탑재된 기기에서 추론을 가속화합니다 (사전 체험판).
  • 멀티모달: 시각 및 오디오 입력 지원
  • 도구 사용: 에이전트형 워크플로를 위한 함수 호출 지원
  • 광범위한 모델 지원: Gemma, Llama, Phi-4, Qwen 등을 실행합니다.

지원되는 백엔드 및 플랫폼

플랫폼 CPU 지원 GPU 지원 NPU 지원
Android
iOS -
macOS -
Windows -
Linux -
삽입됨 - -

빠른 시작

먼저 사용해 보시겠어요? 전체 설정을 진행하기 전에 데스크톱용 사전 빌드된 바이너리 또는 모바일용 Google AI Edge Gallery 앱을 사용하여 LiteRT-LM을 즉시 실행할 수 있습니다.

모바일 앱

Google AI Edge Gallery는 LiteRT-LM으로 구동되는 최첨단 생성형 AI 모델의 강력한 기능을 직접 사용할 수 있도록 지원하는 데모 앱입니다.

데스크톱 CLI

lit 바이너리를 다운로드한 후 lit을 실행하여 옵션을 확인하면 됩니다.

플랫폼 선택

언어 상태 적합한 사용 사례 문서
Kotlin
안정화 버전
네이티브 Android 앱 및 JVM 기반 데스크톱 도구 코루틴에 최적화되어 있습니다. Kotlin API 참조
C++
안정화 버전
고성능 크로스 플랫폼 핵심 로직 및 임베디드 시스템 C++ API 참조
Swift 🚀
개발 중
전문 Metal 지원을 통한 기본 iOS 및 macOS 통합 출시 예정
Python 🚀
개발 중
신속한 프로토타입 제작, 개발, 데스크톱 측 스크립팅 출시 예정

지원되는 모델

다음 표에는 LiteRT-LM으로 완전히 지원되고 테스트된 모델의 샘플이 나와 있습니다.

참고: 'Chat Ready'는 채팅에 맞게 조정된 모델 (명령어 조정)을 나타냅니다. '기본' 모델은 특정 완성에 사용되지 않는 한 최적의 채팅 성능을 위해 미세 조정이 필요한 경우가 많습니다.

모델 유형 양자화 컨텍스트 길이 크기(MB) 다운로드
Gemma
Gemma3-1B Chat Ready(채팅 준비됨) 채널당 4비트 4096 557 다운로드
Gemma-3n-E2B Chat Ready(채팅 준비됨) 채널당 4비트 4096 2965 다운로드
Gemma-3n-E4B Chat Ready(채팅 준비됨) 채널당 4비트 4096 4235 다운로드
FunctionGemma-270M Base (미세 조정 필요) 채널당 8비트 1024 288 미세 조정 가이드
↪ TinyGarden-270M 데모 채널당 8비트 1024 288 다운로드 / 앱 사용해 보기
Llama
Llama-3.2-1B-Instruct Chat Ready(채팅 준비됨) 채널당 8비트 8192 1162 다운로드
Llama-3.2-3B-Instruct Chat Ready(채팅 준비됨) 채널당 8비트 8192 2893 다운로드
파이
phi-4-mini Chat Ready(채팅 준비됨) 채널당 8비트 4096 3728 다운로드
Qwen
qwen2.5-1.5b Chat Ready(채팅 준비됨) 채널당 8비트 4096 1524 다운로드

성능

다음은 다양한 기기에서 각 모델을 실행한 성능 수치입니다. 벤치마크는 1024개 토큰 사전 입력과 256개 토큰 디코드로 측정됩니다(Android 기기에서 성능 잠금 사용).

모델 기기 백엔드 사전 입력 (토큰/초) 디코딩 (토큰/초) 컨텍스트 크기
Gemma3-1B MacBook Pro
(2023 M3)
CPU 423 67 4096
Gemma3-1B Samsung S24
(Ultra)
CPU 243 44 4096
Gemma3-1B Samsung S24
(Ultra)
GPU 1877 45 4096
Gemma3-1B Samsung S25
(Ultra)
NPU 5837 85 1280
Gemma-3n-E2B MacBook Pro
(2023 M3)
CPU 233 28 4096
Gemma-3n-E2B Samsung S24
(Ultra)
CPU 111 16 4096
Gemma-3n-E2B Samsung S24
(Ultra)
GPU 816 16 4096
Gemma-3n-E4B MacBook Pro
(2023 M3)
CPU 170 20 4096
Gemma-3n-E4B Samsung S24
(Ultra)
CPU 74 9 4096
Gemma-3n-E4B Samsung S24
(Ultra)
GPU 548 9 4096
FunctionGemma Samsung S25
(Ultra)
CPU 1718 126 1024

참고: 특정 기기에서 특정 모델을 처음 로드할 때는 가중치가 최적화되므로 로드하는 데 시간이 더 오래 걸립니다. 캐싱으로 인해 이후 로드가 더 빨라집니다.

모델 호스팅 및 배포

모델이 '무선' 다운로드 한도 (일반적으로 약 1.5GB)를 초과하는 경우 원격 가져오기 전략이 필요합니다.

  • Firebase: AndroidiOS에서 큰 파일을 다운로드하는 데 권장됩니다.
  • HuggingFace API: HuggingFace API를 사용하여 모델을 직접 가져옵니다.

문제 신고

버그가 발생하거나 기능 요청이 있는 경우 LiteRT-LM GitHub 문제 페이지를 사용하세요.