PaliGemma

Gemma 4 ra mắt với đầu vào văn bản, âm thanh và hình ảnh, đồng thời có cửa sổ ngữ cảnh dài lên đến 256 nghìn token! Tìm hiểu thêm

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PaliGemma 2 và PaliGemma là các mô hình ngôn ngữ thị giác (VLM) mở, nhẹ, lấy cảm hứng từ PaLI-3 và dựa trên các thành phần mở như mô hình thị giác SigLIP và mô hình ngôn ngữ Gemma. PaliGemma sử dụng cả hình ảnh và văn bản làm dữ liệu đầu vào, đồng thời có thể trả lời các câu hỏi về hình ảnh một cách chi tiết và theo bối cảnh. Điều này có nghĩa là PaliGemma có thể phân tích hình ảnh sâu hơn và cung cấp thông tin chi tiết hữu ích, chẳng hạn như chú thích cho hình ảnh và video ngắn, phát hiện đối tượng và đọc văn bản được nhúng trong hình ảnh.

PaliGemma 2 có các kích thước tham số 3B, 10B và 28B, tương ứng dựa trên các mô hình Gemma 2 2B, 9B và 27B. Các mô hình PaliGemma ban đầu có sẵn ở kích thước 3B. Để biết thêm thông tin về các biến thể mô hình Gemma, hãy xem danh sách mô hình Gemma. Các biến thể mô hình PaliGemma hỗ trợ nhiều độ phân giải pixel cho dữ liệu đầu vào hình ảnh, bao gồm cả 224 x 224, 448 x 448 và 896 x 896 pixel.

Bạn có thể xem và tải các mô hình PaliGemma xuống từ các trang web sau:

Tải xuống từ Kaggle.
Tải xuống từ Hugging Face.

Có ba loại mô hình PaliGemma:

PaliGemma PT – Các mô hình được huấn luyện trước cho mục đích chung có thể được tinh chỉnh cho nhiều tác vụ.
PaliGemma FT – Các mô hình nghiên cứu được tinh chỉnh trên các tập dữ liệu nghiên cứu cụ thể.
PaliGemma mix – Các mô hình được điều chỉnh cho phù hợp với một tổ hợp các tác vụ có thể sử dụng ngay cho các trường hợp sử dụng phổ biến.

Các lợi ích chính bao gồm:

Khả năng đa phương thức

Đồng thời xử lý cả hình ảnh và dữ liệu đầu vào văn bản.
Mô hình cơ sở linh hoạt

Có thể tinh chỉnh cho nhiều nhiệm vụ liên quan đến ngôn ngữ thị giác.
Khám phá sẵn có

Đi kèm với một điểm kiểm tra được tinh chỉnh trên nhiều tác vụ để sử dụng cho mục đích nghiên cứu ngay lập tức.

PaliGemma

Khả năng đa phương thức

Mô hình cơ sở linh hoạt

Khám phá sẵn có

Tìm hiểu thêm

Chạy trong Colab

Dò kênh trong Colab

Xem trên Kaggle