PaliGemma
PaliGemma là một mô hình ngôn ngữ thị giác (VLM) nhẹ, lấy cảm hứng từ PaLI-3, và dựa trên các thành phần mở như SigLIP mô hình tầm nhìn và ngôn ngữ Gemma người mẫu. PaliGemma lấy cả hình ảnh và văn bản làm dữ liệu đầu vào và có thể trả lời các câu hỏi về hình ảnh chi tiết và ngữ cảnh, nghĩa là PaliGemma có thể thực hiện phân tích sâu hơn về hình ảnh và cung cấp thông tin chi tiết hữu ích, chẳng hạn như chú thích cho hình ảnh và video ngắn, phát hiện vật thể và đọc văn bản nhúng trong hình ảnh.
Có hai bộ mô hình PaliGemma, một bộ dùng cho mục đích chung và một bộ dành cho nghiên cứu:
- PaliGemma – Các mô hình được huấn luyện trước dùng cho mục đích chung, có thể được tinh chỉnh trong nhiều nhiệm vụ.
- PaliGemma-FT – Các mô hình định hướng nghiên cứu được tinh chỉnh trên các tập dữ liệu nghiên cứu cụ thể.
Các lợi ích chính bao gồm:
-
Hiểu đa phương thức
Đồng thời hiểu cả hình ảnh và văn bản. -
Mô hình cơ sở linh hoạt
Có thể tinh chỉnh cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác. -
Khám phá sẵn có
Đi kèm với một điểm kiểm tra được tinh chỉnh trên kết hợp các nhiệm vụ để sử dụng ngay cho việc nghiên cứu.