Google AI Edge Portal 소개: 대규모로 엣지 AI를 벤치마킹합니다. 비공개 미리보기 기간에 액세스 권한을 요청하려면 가입하세요.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

LiteRT로 생성형 AI 모델 배포

LiteRT는 모바일, 데스크톱, 웹 플랫폼 전반에서 생성형 AI 모델을 위한 고성능 배포를 제공합니다. CPU, GPU, NPU의 하드웨어 가속을 원활하게 활용하는 LiteRT는 온디바이스 생성형 AI 추론을 위한 최첨단 성능을 제공합니다.

다음 통합 기술 스택을 사용하여 복잡한 생성형 AI 모델을 배포할 수 있습니다.

Torch Generative API: PyTorch 생성형 AI 모델을 작성하고 변환하기 위한 LiteRT Torch 라이브러리 내 Python 모듈입니다. 이 프레임워크는 기기에서 고성능 실행을 보장하는 최적화된 빌딩 블록을 제공합니다. 자세한 내용은 PyTorch 생성형 AI 모델 변환을 참고하세요.
LiteRT-LM: 세션 클로닝, kv-캐시 관리, 프롬프트 캐싱/스코어링, 상태 저장 추론과 같은 LLM 관련 복잡성을 관리하기 위해 LiteRT를 기반으로 빌드된 전문 오케스트레이션 레이어입니다. 자세한 내용은 LiteRT-LM GitHub 저장소를 참고하세요.
LiteRT 변환기 및 런타임: 효율적인 모델 변환, 런타임 실행, 최적화를 제공하여 CPU, GPU, NPU 전반에서 고급 하드웨어 가속을 지원하는 기본 엔진입니다.

LiteRT 생성형 AI 모델 동물원

LiteRT는 LiteRT Hugging Face 커뮤니티에서 점점 늘어나는 인기 있는 공개 가중치 모델을 지원합니다. 이러한 모델은 즉시 배포할 수 있도록 사전 변환되고 조정되므로 CPU, GPU, NPU에서 기본적으로 최고 성능을 활용할 수 있습니다.