Nhắc bằng tệp nội dung nghe nhìn


Xem trên ai.google.dev Chạy trong Google Colab Xem nguồn trên GitHub

API Gemini hỗ trợ lời nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video (còn gọi là lời nhắc đa phương thức), nghĩa là bạn có thể đưa các loại tệp nội dung nghe nhìn đó vào câu lệnh của mình. Đối với các tệp nhỏ, bạn có thể trỏ mô hình Gemini trực tiếp vào một tệp cục bộ khi đưa ra lời nhắc. Tải các tệp lớn hơn lên bằng API Tệp trước khi đưa các tệp đó vào lời nhắc.

API Tệp cho phép bạn lưu trữ tối đa 20 GB tệp cho mỗi dự án, trong đó mỗi tệp không vượt quá kích thước 2 GB. Các tệp được lưu trữ trong 48 giờ và có thể được truy cập bằng khoá API để tạo trong khoảng thời gian đó. Bạn không thể tải các tệp xuống từ API. API Files được cung cấp miễn phí ở mọi khu vực có API Gemini.

API Tệp xử lý dữ liệu đầu vào có thể dùng để tạo nội dung bằng model.generateContent hoặc model.streamGenerateContent. Để biết thông tin về các định dạng tệp hợp lệ (loại MIME) và mô hình được hỗ trợ, hãy xem phần Các định dạng tệp được hỗ trợ.

Hướng dẫn này cho biết cách sử dụng API Tệp để tải tệp nội dung nghe nhìn lên và đưa các tệp đó vào lệnh gọi GenerateContent đến API Gemini. Để biết thêm thông tin, hãy xem mã mẫu.

Các định dạng tệp được hỗ trợ

Các mô hình Gemini hỗ trợ lời nhắc bằng nhiều định dạng tệp. Phần này giải thích những điểm cần cân nhắc khi sử dụng các định dạng nội dung nghe nhìn chung cho câu lệnh, cụ thể là tệp hình ảnh, âm thanh, video và văn bản thuần tuý. Bạn chỉ có thể sử dụng tệp nội dung nghe nhìn để nhắc với các phiên bản mẫu cụ thể, như minh hoạ trong bảng sau.

Kiểu máy Hình ảnh Âm thanh Video Chữ thường
Gemini 1.5 Pro (bản phát hành 008 trở lên) ✔ (tệp hình ảnh tối đa 3600)
Tầm nhìn chuyên nghiệp của Gemini ✔ (tối đa 16 tệp hình ảnh)

Định dạng hình ảnh

Bạn có thể sử dụng dữ liệu hình ảnh để đặt câu lệnh bằng mô hình gemini-pro-visiongemini-1.5-pro. Khi bạn sử dụng hình ảnh để nhắc, các hình ảnh này phải tuân thủ các giới hạn và yêu cầu sau:

  • Hình ảnh phải thuộc một trong các loại MIME dữ liệu sau:
    • PNG - image/png
    • JPEG - image/jpeg
    • WEBP - hình ảnh/webp
    • HEIC – hình ảnh/heic
    • HEIF – hình ảnh/heif
  • Tối đa 16 hình ảnh riêng lẻ cho gemini-pro-vision và 3600 hình ảnh cho gemini-1.5-pro
  • Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh. Tuy nhiên, các hình ảnh lớn hơn được thu nhỏ để vừa với độ phân giải tối đa là 3072 x 3072 mà vẫn giữ nguyên tỷ lệ khung hình gốc.

Định dạng âm thanh

Bạn có thể sử dụng dữ liệu âm thanh để đặt câu lệnh bằng mẫu gemini-1.5-pro. Khi bạn sử dụng âm thanh để đưa ra lời nhắc, các yêu cầu này phải tuân thủ các giới hạn và yêu cầu sau:

  • Dữ liệu âm thanh được hỗ trợ ở các loại MIME định dạng âm thanh phổ biến sau đây:
    • WAV – âm thanh/wav
    • MP3 - âm thanh/mp3
    • AIFF – âm thanh/âm thanh
    • AAC – âm thanh/aac
    • OGG Vorbis – âm thanh/ogg
    • FLAC – âm thanh/flac
  • Thời lượng dữ liệu âm thanh tối đa được hỗ trợ trong một câu lệnh là 9,5 giờ.
  • Các tệp âm thanh được lấy mẫu lại xuống độ phân giải dữ liệu 16 Kb/giây và nhiều kênh âm thanh được kết hợp thành một kênh duy nhất.
  • Không có giới hạn cụ thể về số lượng tệp âm thanh trong một câu lệnh.Tuy nhiên, tổng thời lượng kết hợp của tất cả tệp âm thanh trong một câu lệnh không được vượt quá 9,5 giờ.

Định dạng video

Bạn có thể sử dụng dữ liệu video để đặt câu lệnh bằng mô hình gemini-1.5-pro.

  • Dữ liệu video được hỗ trợ theo các loại MIME phổ biến sau đây của định dạng video:

    • video/mp4
    • video/mpeg
    • video/di chuyển
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/wmv
    • video/3gpp
  • Dịch vụ API Tệp lấy mẫu video thành hình ảnh với tốc độ 1 khung hình/giây (FPS) và có thể thay đổi để cung cấp chất lượng suy luận tốt nhất. Mỗi hình ảnh sẽ sử dụng 258 mã thông báo bất kể độ phân giải và chất lượng.

Định dạng văn bản thường

API Tệp hỗ trợ việc tải các tệp văn bản thuần tuý có các loại MIME sau:

  • văn bản/đơn giản
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • văn bản/x-typescript
  • ứng dụng/x-typescript
  • văn bản/csv
  • văn bản/đánh dấu
  • văn bản/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • ứng dụng/rtf
  • văn bản/rtf

Đối với các tệp văn bản thuần tuý có loại MIME không có trong danh sách, bạn có thể thử chỉ định theo cách thủ công một trong các loại MIME trên.