LiteRT-LM은 에지 기기에서 고성능 크로스 플랫폼 LLM 배포를 제공하도록 설계된 프로덕션 지원 오픈소스 추론 프레임워크입니다.
주요 기능
- 크로스 플랫폼 지원: Android, iOS, 웹, 데스크톱에서 실행
- 하드웨어 가속:
- GPU: ML 드리프트로 구동되며 ML 및 생성형 AI 모델을 모두 지원합니다.
- NPU: Qualcomm 및 MediaTek 칩셋이 탑재된 기기에서 추론을 가속화합니다 (사전 체험판).
- 멀티모달: 시각 및 오디오 입력 지원
- 도구 사용: 에이전트형 워크플로를 위한 함수 호출 지원
- 광범위한 모델 지원: Gemma, Llama, Phi-4, Qwen 등을 실행합니다.
지원되는 백엔드 및 플랫폼
| 플랫폼 | CPU 지원 | GPU 지원 | NPU 지원 |
|---|---|---|---|
| Android | ✅ | ✅ | ✅ |
| iOS | ✅ | ✅ | - |
| macOS | ✅ | ✅ | - |
| Windows | ✅ | ✅ | - |
| Linux | ✅ | ✅ | - |
| 삽입됨 | ✅ | - | - |
빠른 시작
먼저 사용해 보시겠어요? 전체 설정을 진행하기 전에 데스크톱용 사전 빌드된 바이너리 또는 모바일용 Google AI Edge Gallery 앱을 사용하여 LiteRT-LM을 즉시 실행할 수 있습니다.
모바일 앱
Google AI Edge Gallery는 LiteRT-LM으로 구동되는 최첨단 생성형 AI 모델의 강력한 기능을 직접 사용할 수 있도록 지원하는 데모 앱입니다.
데스크톱 CLI
lit 바이너리를 다운로드한 후 lit을 실행하여 옵션을 확인하면 됩니다.
플랫폼 선택
| 언어 | 상태 | 적합한 사용 사례 | 문서 |
|---|---|---|---|
| Kotlin | ✅ 안정화 버전 |
네이티브 Android 앱 및 JVM 기반 데스크톱 도구 코루틴에 최적화되어 있습니다. | Kotlin API 참조 |
| C++ | ✅ 안정화 버전 |
고성능 크로스 플랫폼 핵심 로직 및 임베디드 시스템 | C++ API 참조 |
| Swift | 🚀 개발 중 |
전문 Metal 지원을 통한 기본 iOS 및 macOS 통합 | 출시 예정 |
| Python | 🚀 개발 중 |
신속한 프로토타입 제작, 개발, 데스크톱 측 스크립팅 | 출시 예정 |
지원되는 모델
다음 표에는 LiteRT-LM으로 완전히 지원되고 테스트된 모델의 샘플이 나와 있습니다.
참고: 'Chat Ready'는 채팅에 맞게 조정된 모델 (명령어 조정)을 나타냅니다. '기본' 모델은 특정 완성에 사용되지 않는 한 최적의 채팅 성능을 위해 미세 조정이 필요한 경우가 많습니다.
| 모델 | 유형 | 양자화 | 컨텍스트 길이 | 크기(MB) | 다운로드 |
|---|---|---|---|---|---|
| Gemma | |||||
| Gemma3-1B | Chat Ready(채팅 준비됨) | 채널당 4비트 | 4096 | 557 | 다운로드 |
| Gemma-3n-E2B | Chat Ready(채팅 준비됨) | 채널당 4비트 | 4096 | 2965 | 다운로드 |
| Gemma-3n-E4B | Chat Ready(채팅 준비됨) | 채널당 4비트 | 4096 | 4235 | 다운로드 |
| FunctionGemma-270M | Base (미세 조정 필요) | 채널당 8비트 | 1024 | 288 | 미세 조정 가이드 |
| ↪ TinyGarden-270M | 데모 | 채널당 8비트 | 1024 | 288 | 다운로드 / 앱 사용해 보기 |
| Llama | |||||
| Llama-3.2-1B-Instruct | Chat Ready(채팅 준비됨) | 채널당 8비트 | 8192 | 1162 | 다운로드 |
| Llama-3.2-3B-Instruct | Chat Ready(채팅 준비됨) | 채널당 8비트 | 8192 | 2893 | 다운로드 |
| 파이 | |||||
| phi-4-mini | Chat Ready(채팅 준비됨) | 채널당 8비트 | 4096 | 3728 | 다운로드 |
| Qwen | |||||
| qwen2.5-1.5b | Chat Ready(채팅 준비됨) | 채널당 8비트 | 4096 | 1524 | 다운로드 |
성능
다음은 다양한 기기에서 각 모델을 실행한 성능 수치입니다. 벤치마크는 1024개 토큰 사전 입력과 256개 토큰 디코드로 측정됩니다(Android 기기에서 성능 잠금 사용).
| 모델 | 기기 | 백엔드 | 사전 입력 (토큰/초) | 디코딩 (토큰/초) | 컨텍스트 크기 |
|---|---|---|---|---|---|
| Gemma3-1B | MacBook Pro (2023 M3) |
CPU | 423 | 67 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
CPU | 243 | 44 | 4096 |
| Gemma3-1B | Samsung S24 (Ultra) |
GPU | 1877 | 45 | 4096 |
| Gemma3-1B | Samsung S25 (Ultra) |
NPU | 5837 | 85 | 1280 |
| Gemma-3n-E2B | MacBook Pro (2023 M3) |
CPU | 233 | 28 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
CPU | 111 | 16 | 4096 |
| Gemma-3n-E2B | Samsung S24 (Ultra) |
GPU | 816 | 16 | 4096 |
| Gemma-3n-E4B | MacBook Pro (2023 M3) |
CPU | 170 | 20 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
CPU | 74 | 9 | 4096 |
| Gemma-3n-E4B | Samsung S24 (Ultra) |
GPU | 548 | 9 | 4096 |
| FunctionGemma | Samsung S25 (Ultra) |
CPU | 1718 | 126 | 1024 |
참고: 특정 기기에서 특정 모델을 처음 로드할 때는 가중치가 최적화되므로 로드하는 데 시간이 더 오래 걸립니다. 캐싱으로 인해 이후 로드가 더 빨라집니다.
모델 호스팅 및 배포
모델이 '무선' 다운로드 한도 (일반적으로 약 1.5GB)를 초과하는 경우 원격 가져오기 전략이 필요합니다.
- Firebase: Android 및 iOS에서 큰 파일을 다운로드하는 데 권장됩니다.
- HuggingFace API: HuggingFace API를 사용하여 모델을 직접 가져옵니다.
문제 신고
버그가 발생하거나 기능 요청이 있는 경우 LiteRT-LM GitHub 문제 페이지를 사용하세요.