PaliGemma

PaliGemma 2 và PaliGemma là các mô hình ngôn ngữ thị giác (VLM) mở, nhẹ, lấy cảm hứng từ PaLI-3 và dựa trên các thành phần mở như mô hình thị giác SigLIPmô hình ngôn ngữ Gemma. PaliGemma sử dụng cả hình ảnh và văn bản làm dữ liệu đầu vào, đồng thời có thể trả lời các câu hỏi về hình ảnh một cách chi tiết và theo bối cảnh. Điều này có nghĩa là PaliGemma có thể phân tích hình ảnh sâu hơn và cung cấp thông tin chi tiết hữu ích, chẳng hạn như chú thích cho hình ảnh và video ngắn, phát hiện đối tượng và đọc văn bản được nhúng trong hình ảnh.

PaliGemma 2 có các kích thước tham số 3B, 10B và 28B, tương ứng dựa trên các mô hình Gemma 2 2B, 9B và 27B. Các mô hình PaliGemma ban đầu có sẵn ở kích thước 3B. Để biết thêm thông tin về các biến thể mô hình Gemma, hãy xem danh sách mô hình Gemma. Các biến thể mô hình PaliGemma hỗ trợ nhiều độ phân giải pixel cho dữ liệu đầu vào hình ảnh, bao gồm cả 224 x 224, 448 x 448 và 896 x 896 pixel.

Bạn có thể xem và tải các mô hình PaliGemma xuống từ các trang web sau:

Có ba loại mô hình PaliGemma:

  • PaliGemma PT – Các mô hình được huấn luyện trước cho mục đích chung có thể được tinh chỉnh cho nhiều tác vụ.
  • PaliGemma FT – Các mô hình nghiên cứu được tinh chỉnh trên các tập dữ liệu nghiên cứu cụ thể.
  • PaliGemma mix – Các mô hình được điều chỉnh cho phù hợp với một tổ hợp các tác vụ có thể sử dụng ngay cho các trường hợp sử dụng phổ biến.

Các lợi ích chính bao gồm:

  • Đồng thời xử lý cả hình ảnh và dữ liệu đầu vào văn bản.
  • Có thể tinh chỉnh cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác.
  • Đi kèm với một điểm kiểm tra được tinh chỉnh trên nhiều tác vụ để sử dụng cho mục đích nghiên cứu ngay lập tức.

Tìm hiểu thêm

Dùng thử các tính năng phát hiện và tạo nội dung bằng PaliGemma trong Colab.
Tinh chỉnh mô hình PaliGemma bằng dữ liệu hình ảnh bằng JAX trong Colab.
Xem thêm mã, sổ tay Colab, thông tin và nội dung thảo luận về PaliGemma trên Kaggle.