Khám phá các chức năng hỗ trợ thị giác với Gemini API

Gemini API có thể tiến hành suy luận dựa trên hình ảnh và video được chuyển tới API Gemini. Khi vượt qua một hình ảnh, một loạt hình ảnh hoặc một video, Gemini có thể:

  • Mô tả hoặc trả lời các câu hỏi về nội dung
  • Tóm tắt nội dung
  • Suy luận nội dung

Hướng dẫn này trình bày một số cách có thể áp dụng để nhắc Gemini API bằng đầu vào hình ảnh và video. Tất cả dữ liệu đầu ra đều chỉ có văn bản.

Các bước tiếp theo

Hướng dẫn này trình bày cách sử dụng generateContent và để tạo đầu ra văn bản từ đầu vào hình ảnh và video. Để tìm hiểu thêm, hãy xem các tài nguyên sau:

  • Lời nhắc bằng tệp nội dung nghe nhìn: Gemini API hỗ trợ tính năng nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video, đồng thời được gọi là nhắc đa phương thức.
  • Hướng dẫn về hệ thống: Hệ thống cho phép bạn định hướng hành vi của mô hình dựa trên và trường hợp sử dụng.
  • Hướng dẫn an toàn: Đôi khi có thể sử dụng AI tạo sinh các mô hình tạo ra kết quả không mong muốn, chẳng hạn như kết quả đầu ra không chính xác, thiên kiến hoặc phản cảm. Quy trình hậu xử lý và quy trình đánh giá thủ công có vai trò thiết yếu đối với việc hạn chế rủi ro thiệt hại từ các dữ liệu đầu ra đó.