PaliGemma
PaliGemma là một mô hình ngôn ngữ bằng tầm nhìn (VLM) mở gọn nhẹ lấy cảm hứng từ PaLI-3 và dựa trên các thành phần mở như mô hình tầm nhìn SigLIP và Mô hình ngôn ngữ Gemma. PaliGemma lấy cả hình ảnh và văn bản làm dữ liệu đầu vào, đồng thời có thể trả lời các câu hỏi về hình ảnh một cách chi tiết và kèm theo bối cảnh, tức là PaliGemma có thể phân tích sâu hơn về hình ảnh và đưa ra thông tin chi tiết hữu ích, chẳng hạn như tạo phụ đề cho hình ảnh và video ngắn, phát hiện đối tượng cũng như đọc văn bản nhúng trong hình ảnh.
Có hai bộ mô hình PaliGemma, một bộ mô hình dùng cho mục đích chung và một bộ mô hình hướng đến nghiên cứu:
- PaliGemma – Các mô hình được huấn luyện sẵn cho mục đích chung, có thể tinh chỉnh cho nhiều tác vụ.
- PaliGemma-FT – Các mô hình hướng đến nghiên cứu được tinh chỉnh trên các tập dữ liệu nghiên cứu cụ thể.
Các lợi ích chính bao gồm:
-
Hiểu đa phương thức
Đồng thời hiểu cả hình ảnh và văn bản. -
Mô hình cơ sở linh hoạt
Có thể tinh chỉnh cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác. -
Khám phá sẵn có
Đi kèm với một điểm kiểm tra được tinh chỉnh trên kết hợp các nhiệm vụ để sử dụng ngay cho việc nghiên cứu.