PaliGemma

PaliGemma là một mô hình ngôn ngữ thị giác (VLM) nhẹ, lấy cảm hứng từ PaLI-3, và dựa trên các thành phần mở như SigLIP mô hình tầm nhìnngôn ngữ Gemma người mẫu. PaliGemma lấy cả hình ảnh và văn bản làm dữ liệu đầu vào và có thể trả lời các câu hỏi về hình ảnh chi tiết và ngữ cảnh, nghĩa là PaliGemma có thể thực hiện phân tích sâu hơn về hình ảnh và cung cấp thông tin chi tiết hữu ích, chẳng hạn như chú thích cho hình ảnh và video ngắn, phát hiện vật thể và đọc văn bản nhúng trong hình ảnh.

Có hai bộ mô hình PaliGemma, một bộ dùng cho mục đích chung và một bộ dành cho nghiên cứu:

  • PaliGemma – Các mô hình được huấn luyện trước dùng cho mục đích chung, có thể được tinh chỉnh trong nhiều nhiệm vụ.
  • PaliGemma-FT – Các mô hình định hướng nghiên cứu được tinh chỉnh trên các tập dữ liệu nghiên cứu cụ thể.

Các lợi ích chính bao gồm:

  • Đồng thời hiểu cả hình ảnh và văn bản.
  • Có thể tinh chỉnh cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác.
  • Đi kèm với một điểm kiểm tra được tinh chỉnh trên kết hợp các nhiệm vụ để sử dụng ngay cho việc nghiên cứu.

Tìm hiểu thêm

Thẻ mô hình của PaliGemma chứa thông tin chi tiết về mô hình, thông tin triển khai, thông tin đánh giá, cách sử dụng và hạn chế của mô hình và nhiều thông tin khác.
Xem thêm mã, sổ tay Colab, thông tin và nội dung thảo luận về PaliGemma trên Kaggle.
Chạy một ví dụ hoạt động để tinh chỉnh PaliGemma bằng JAX trong Colab.