Implantar modelos de IA generativa com o LiteRT

O LiteRT oferece implantação de alto desempenho para modelos de IA generativa em plataformas móveis, de computador e da Web. Ao aproveitar a aceleração de hardware de CPUs, GPUs e NPUs, o LiteRT oferece desempenho de ponta para inferência de IA generativa no dispositivo.

É possível implantar modelos complexos de IA generativa usando a seguinte pilha de tecnologia integrada:

  • API Torch Generative: um módulo Python na biblioteca AI Edge Torch para criar e converter modelos de IA generativa do PyTorch. Ele oferece blocos de construção otimizados que garantem execução de alto desempenho em dispositivos. Consulte Converter modelos de IA generativa do PyTorch para mais detalhes.

  • LiteRT-LM: uma camada de orquestração especializada criada com base no LiteRT para gerenciar complexidades específicas de LLMs, como clonagem de sessão, gerenciamento de cache de valor-chave, cache/pontuação de comandos e inferência com estado. Consulte o repositório do GitHub LiteRT-LM para mais detalhes.

  • Conversor e ambiente de execução LiteRT: o mecanismo fundamental que oferece conversão, execução e otimização eficientes de modelos, permitindo aceleração avançada de hardware em CPUs, GPUs e NPUs.

Model Zoo de IA generativa LiteRT

O LiteRT é compatível com uma coleção crescente de modelos de peso aberto conhecidos na comunidade do LiteRT Hugging Face. Esses modelos são pré-convertidos e ajustados para implantação imediata, permitindo que você aproveite o desempenho máximo em CPUs, GPUs e NPUs assim que eles são disponibilizados.

  • Família Gemma
    • Gemma 3 270M
    • Gemma 3 1B
    • Gemma 3n E2B/E4B
    • EmbeddingGemma 300M
    • Função Gemma 270M
  • Família Qwen
  • Llama
  • Phi
  • SmoLM
  • FastVLM

Insights em destaque