Khám phá các chức năng hỗ trợ thị giác với Gemini API

Xem trên ai.google.dev Chạy trong Google Colab Xem nguồn trên GitHub

Gemini API có thể tiến hành suy luận dựa trên hình ảnh và video được chuyển tới API Gemini. Khi chuyển một hình ảnh, một loạt hình ảnh hoặc video, Gemini có thể:

  • Mô tả hoặc trả lời các câu hỏi về nội dung
  • Tóm tắt nội dung
  • Ngoại suy từ nội dung

Hướng dẫn này minh hoạ một số cách có thể áp dụng để nhắc Gemini API bằng hình ảnh và dữ liệu đầu vào video. Tất cả dữ liệu đầu ra đều chỉ có văn bản.

Bước tiếp theo

Hướng dẫn này cho biết cách sử dụng generateContent và để tạo đầu ra văn bản từ đầu vào hình ảnh và video. Để tìm hiểu thêm, hãy xem các tài nguyên sau:

  • Nhắc nhở bằng các tệp nội dung nghe nhìn: Gemini API hỗ trợ câu lệnh bằng dữ liệu văn bản, hình ảnh, âm thanh và video, còn được gọi là câu lệnh đa phương thức.
  • Hướng dẫn hệ thống: Hướng dẫn hệ thống cho phép bạn định hướng hành vi của mô hình dựa trên nhu cầu và trường hợp sử dụng cụ thể của bạn.
  • Hướng dẫn về an toàn: Đôi khi, các mô hình AI tạo sinh tạo ra kết quả không mong muốn, chẳng hạn như kết quả không chính xác, thiên vị hoặc phản cảm. Quy trình hậu xử lý và quy trình đánh giá thủ công là cần thiết để hạn chế rủi ro thiệt hại từ những dữ liệu đầu ra đó.