Triển khai các mô hình AI tạo sinh bằng LiteRT

LiteRT mang đến khả năng triển khai hiệu suất cao cho các mô hình AI tạo sinh trên các nền tảng di động, máy tính và web. Bằng cách tận dụng liền mạch tính năng tăng tốc phần cứng từ CPU, GPU và NPU, LiteRT mang đến hiệu suất hiện đại cho suy luận AI tạo sinh trên thiết bị.

Bạn có thể triển khai các mô hình AI tạo sinh phức tạp bằng cách sử dụng ngăn xếp công nghệ tích hợp sau:

  • Torch Generative API: Một mô-đun Python trong Thư viện AI Edge Torch để tạo và chuyển đổi các mô hình GenAI PyTorch. Nó cung cấp các khối dựng được tối ưu hoá, đảm bảo việc thực thi hiệu suất cao trên các thiết bị. Hãy xem phần Chuyển đổi các mô hình AI tạo sinh PyTorch để biết thêm thông tin chi tiết.

  • LiteRT-LM: Một lớp điều phối chuyên biệt được xây dựng trên LiteRT để quản lý các điểm phức tạp dành riêng cho LLM, chẳng hạn như sao chép phiên, quản lý bộ nhớ đệm kv, lưu vào bộ nhớ đệm/chấm điểm lời nhắc, suy luận có trạng thái. Hãy xem kho lưu trữ LiteRT-LM trên GitHub để biết thêm thông tin chi tiết.

  • Trình chuyển đổi và thời gian chạy LiteRT: Công cụ cơ bản cung cấp quy trình chuyển đổi mô hình, thực thi thời gian chạy và tối ưu hoá hiệu quả, hỗ trợ tính năng tăng tốc phần cứng nâng cao trên CPU, GPU và NPU.

Kho mô hình GenAI LiteRT

LiteRT hỗ trợ một bộ sưu tập ngày càng lớn gồm các mô hình nguồn mở phổ biến trên Cộng đồng Hugging Face của LiteRT. Các mô hình này được chuyển đổi trước và điều chỉnh để triển khai ngay, cho phép bạn tận dụng hiệu suất cao nhất trên CPU, GPU và NPU ngay khi xuất xưởng.

  • Gemma Family
    • Gemma 3 270M
    • Gemma 3 1B
    • Gemma 3n E2B/E4B
    • EmbeddingGemma 300M
    • Hàm Gemma 270M
  • Qwen Family
  • Llama
  • Phi
  • SmoLM
  • FastVLM

Thông tin chi tiết nổi bật