API Gemini hỗ trợ nhập PDF, bao gồm cả tài liệu dài (tối đa 3.600 trang).
Các mô hình Gemini xử lý tệp PDF bằng công nghệ thị giác gốc, nhờ đó có thể hiểu được cả nội dung văn bản và hình ảnh bên trong tài liệu. Với tính năng hỗ trợ thị giác PDF gốc, các mô hình Gemini có thể:
Phân tích sơ đồ, biểu đồ và bảng trong tài liệu
Trích xuất thông tin thành các định dạng đầu ra có cấu trúc
Trả lời câu hỏi về nội dung hình ảnh và văn bản trong tài liệu
Tóm tắt tài liệu
Bản chép lời nội dung tài liệu (ví dụ: sang HTML) giữ nguyên bố cục và định dạng để sử dụng trong các ứng dụng tiếp theo
Hướng dẫn này minh hoạ một số cách có thể sử dụng API Gemini để xử lý tài liệu PDF.
Bước tiếp theo
Để tìm hiểu thêm, hãy xem các tài nguyên sau:
Chiến lược nhắc tệp: Gemini API hỗ trợ nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video, còn gọi là nhắc đa phương thức.
Hướng dẫn hệ thống: Hướng dẫn hệ thống cho phép bạn điều hướng hành vi của mô hình dựa trên các nhu cầu và trường hợp sử dụng cụ thể.
[[["Dễ hiểu","easyToUnderstand","thumb-up"],["Giúp tôi giải quyết được vấn đề","solvedMyProblem","thumb-up"],["Khác","otherUp","thumb-up"]],[["Thiếu thông tin tôi cần","missingTheInformationINeed","thumb-down"],["Quá phức tạp/quá nhiều bước","tooComplicatedTooManySteps","thumb-down"],["Đã lỗi thời","outOfDate","thumb-down"],["Vấn đề về bản dịch","translationIssue","thumb-down"],["Vấn đề về mẫu/mã","samplesCodeIssue","thumb-down"],["Khác","otherDown","thumb-down"]],["Cập nhật lần gần đây nhất: 2025-04-28 UTC."],[],[]]