Khám phá các chức năng hỗ trợ thị giác với Gemini API

API Gemini có thể xử lý hình ảnh và video, cho phép nhiều trường hợp sử dụng thú vị cho nhà phát triển. Một số tính năng thị giác của Gemini bao gồm khả năng:

  • Chú thích và trả lời các câu hỏi về hình ảnh
  • Bản chép lời và lý luận trên tệp PDF, bao gồm cả tài liệu dài có cửa sổ ngữ cảnh lên đến 2 triệu mã thông báo
  • Mô tả, phân đoạn và trích xuất thông tin từ video, bao gồm cả khung hình và âm thanh, dài tối đa 90 phút
  • Phát hiện các đối tượng trong hình ảnh và trả về toạ độ hộp giới hạn cho các đối tượng đó

Hướng dẫn này minh hoạ một số cách có thể dùng để nhắc Gemini API bằng hình ảnh và đầu vào video, cung cấp ví dụ về mã và trình bày các phương pháp hay nhất để nhắc bằng khả năng thị giác đa phương thức. Tất cả đầu ra đều chỉ ở dạng văn bản.

Bước tiếp theo

Hướng dẫn này cho biết cách tải tệp hình ảnh và video lên bằng File API, sau đó tạo đầu ra văn bản từ dữ liệu đầu vào hình ảnh và video. Để tìm hiểu thêm, hãy xem các tài nguyên sau:

  • Chiến lược nhắc tệp: Gemini API hỗ trợ nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video, còn gọi là nhắc đa phương thức.
  • Hướng dẫn hệ thống: Hướng dẫn hệ thống cho phép bạn điều hướng hành vi của mô hình dựa trên các nhu cầu và trường hợp sử dụng cụ thể.
  • Hướng dẫn an toàn: Đôi khi, các mô hình AI tạo sinh tạo ra kết quả không mong muốn, chẳng hạn như kết quả không chính xác, thiên vị hoặc phản cảm. Quy trình xử lý hậu kỳ và đánh giá của con người là điều cần thiết để hạn chế rủi ro gây hại từ những kết quả như vậy.