PaliGemma

PaliGemma là một mô hình ngôn ngữ bằng tầm nhìn (VLM) mở gọn nhẹ lấy cảm hứng từ PaLI-3 và dựa trên các thành phần mở như mô hình tầm nhìn SigLIPMô hình ngôn ngữ Gemma. PaliGemma lấy cả hình ảnh và văn bản làm dữ liệu đầu vào, đồng thời có thể trả lời các câu hỏi về hình ảnh một cách chi tiết và kèm theo bối cảnh, tức là PaliGemma có thể phân tích sâu hơn về hình ảnh và đưa ra thông tin chi tiết hữu ích, chẳng hạn như tạo phụ đề cho hình ảnh và video ngắn, phát hiện đối tượng cũng như đọc văn bản nhúng trong hình ảnh.

Có hai bộ mô hình PaliGemma, một bộ mô hình dùng cho mục đích chung và một bộ mô hình hướng đến nghiên cứu:

  • PaliGemma – Các mô hình được huấn luyện sẵn cho mục đích chung, có thể tinh chỉnh cho nhiều tác vụ.
  • PaliGemma-FT – Các mô hình hướng đến nghiên cứu được tinh chỉnh trên các tập dữ liệu nghiên cứu cụ thể.

Các lợi ích chính bao gồm:

  • Đồng thời hiểu cả hình ảnh và văn bản.
  • Có thể tinh chỉnh cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác.
  • Đi kèm với một điểm kiểm tra được tinh chỉnh trên kết hợp các nhiệm vụ để sử dụng ngay cho việc nghiên cứu.

Tìm hiểu thêm

Thẻ mô hình của PaliGemma chứa thông tin chi tiết về mô hình, thông tin triển khai, thông tin đánh giá, cách sử dụng và hạn chế của mô hình và nhiều thông tin khác.
Xem thêm mã, sổ tay Colab, thông tin và nội dung thảo luận về PaliGemma trên Kaggle.
Chạy một ví dụ hoạt động để tinh chỉnh PaliGemma bằng JAX trong Colab.