Khám phá các chức năng hỗ trợ thị giác với Gemini API
Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Gemini API có thể tiến hành suy luận dựa trên hình ảnh và video được chuyển tới API Gemini. Khi vượt qua
một hình ảnh, một loạt hình ảnh hoặc một video, Gemini có thể:
Mô tả hoặc trả lời các câu hỏi về nội dung
Tóm tắt nội dung
Suy luận nội dung
Hướng dẫn này trình bày một số cách có thể áp dụng để nhắc Gemini API bằng
đầu vào hình ảnh và video. Tất cả dữ liệu đầu ra đều chỉ có văn bản.
Các bước tiếp theo
Hướng dẫn này trình bày cách sử dụng
generateContent và
để tạo đầu ra văn bản từ đầu vào hình ảnh và video. Để tìm hiểu thêm,
hãy xem các tài nguyên sau:
Lời nhắc bằng tệp nội dung nghe nhìn:
Gemini API hỗ trợ tính năng nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video, đồng thời
được gọi là nhắc đa phương thức.
Hướng dẫn về hệ thống: Hệ thống
cho phép bạn định hướng hành vi của mô hình dựa trên
và trường hợp sử dụng.
Hướng dẫn an toàn: Đôi khi có thể sử dụng AI tạo sinh
các mô hình tạo ra kết quả không mong muốn, chẳng hạn như kết quả đầu ra không chính xác,
thiên kiến hoặc phản cảm. Quy trình hậu xử lý và quy trình đánh giá thủ công có vai trò thiết yếu đối với việc
hạn chế rủi ro thiệt hại từ các dữ liệu đầu ra đó.