LiteRT는 모바일, 데스크톱, 웹 플랫폼 전반에서 생성형 AI 모델을 위한 고성능 배포를 제공합니다. CPU, GPU, NPU의 하드웨어 가속을 원활하게 활용하는 LiteRT는 온디바이스 생성형 AI 추론을 위한 최첨단 성능을 제공합니다.
다음 통합 기술 스택을 사용하여 복잡한 생성형 AI 모델을 배포할 수 있습니다.
Torch Generative API: PyTorch 생성형 AI 모델을 작성하고 변환하기 위한 AI Edge Torch 라이브러리 내의 Python 모듈입니다. 이 프레임워크는 기기에서 고성능 실행을 보장하는 최적화된 빌딩 블록을 제공합니다. 자세한 내용은 PyTorch 생성형 AI 모델 변환을 참고하세요.
LiteRT-LM: 세션 클로닝, kv-cache 관리, 프롬프트 캐싱/스코어링, 상태 저장 추론과 같은 LLM 관련 복잡성을 관리하기 위해 LiteRT를 기반으로 빌드된 전문 오케스트레이션 레이어입니다. 자세한 내용은 LiteRT-LM GitHub 저장소를 참고하세요.
LiteRT 변환기 및 런타임: 효율적인 모델 변환, 런타임 실행, 최적화를 제공하여 CPU, GPU, NPU 전반에서 고급 하드웨어 가속을 지원하는 기본 엔진입니다.
LiteRT 생성형 AI 모델 주
LiteRT는 LiteRT Hugging Face 커뮤니티에서 점점 늘어나는 인기 있는 공개 가중치 모델을 지원합니다. 이러한 모델은 즉시 배포할 수 있도록 사전 변환되고 조정되므로 CPU, GPU, NPU에서 기본적으로 최고 성능을 활용할 수 있습니다.
- Gemma 제품군
- Gemma3 270M
- Gemma 3 1B
- Gemma 3n E2B/E4B
- EmbeddingGemma 300M
- Function Gemma 270M
- Qwen Family
- Llama
- 파이
- SmoLM
- FastVLM