Nhắc bằng tệp nội dung nghe nhìn


Xem trên ai.google.dev Chạy trong Google Colab Xem nguồn trên GitHub

Gemini API hỗ trợ lời nhắc bằng dữ liệu văn bản, hình ảnh, âm thanh và video, còn gọi là lời nhắc đa phương thức, tức là bạn có thể đưa các loại tệp nội dung nghe nhìn đó vào câu lệnh của mình. Đối với các tệp nhỏ, bạn có thể trỏ trực tiếp mô hình Gemini vào một tệp trên máy khi đưa ra câu lệnh. Tải các tệp lớn hơn lên bằng File API trước khi đưa vào lời nhắc.

File API cho phép bạn lưu trữ tối đa 20 GB tệp cho mỗi dự án, với mỗi tệp có kích thước không vượt quá 2 GB. Các tệp được lưu trữ trong 48 giờ và có thể được truy cập bằng khoá API để tạo trong khoảng thời gian đó, đồng thời không thể tải xuống từ API. Bạn có thể sử dụng Files API mà không tốn phí ở mọi khu vực có Gemini API.

File API xử lý dữ liệu đầu vào có thể dùng để tạo nội dung bằng model.generateContent hoặc model.streamGenerateContent. Để biết thông tin về các định dạng tệp hợp lệ (loại MIME) và các mô hình được hỗ trợ, hãy xem phần Các định dạng tệp được hỗ trợ.

Hướng dẫn này cho biết cách sử dụng File API để tải các tệp đa phương tiện lên và đưa các tệp đó vào lệnh gọi GenerateContent đến API Gemini. Để biết thêm thông tin, hãy xem mã mẫu.

Các định dạng tệp được hỗ trợ

Các mô hình Gemini hỗ trợ tính năng nhắc bằng nhiều định dạng tệp. Phần này giải thích những điều cần cân nhắc khi sử dụng các định dạng nội dung nghe nhìn chung để nhắc, cụ thể là hình ảnh, âm thanh, video và tệp văn bản thuần tuý. Bạn chỉ có thể sử dụng tệp nội dung nghe nhìn để nhắc với các phiên bản mô hình cụ thể, như minh hoạ trong bảng sau.

Mô hình Hình ảnh Âm thanh Video Văn bản thuần tuý
Gemini 1.5 Pro (bản phát hành 008 trở lên) ✔ (tệp hình ảnh tối đa 3600)

Định dạng hình ảnh

Bạn có thể sử dụng dữ liệu hình ảnh để nhắc bằng các mô hình Gemini 1.5. Khi bạn sử dụng hình ảnh để nhắc, hình ảnh phải tuân theo các giới hạn và yêu cầu sau:

  • Hình ảnh phải thuộc một trong các loại MIME dữ liệu hình ảnh sau đây:
    • PNG - hình ảnh/png
    • JPEG – hình ảnh/jpeg
    • WEBP – hình ảnh/webp
    • HEIC – hình ảnh/heic
    • HEIF – hình ảnh/heif
  • Tối đa 3.600 hình ảnh cho các mô hình Gemini 1.5.
  • Không có giới hạn cụ thể về số lượng pixel trong một hình ảnh. Tuy nhiên, những hình ảnh lớn hơn sẽ được giảm kích thước để phù hợp với độ phân giải tối đa là 3072 x 3072 mà vẫn giữ nguyên tỷ lệ khung hình gốc.

Định dạng âm thanh

Bạn có thể sử dụng dữ liệu âm thanh để đưa ra câu lệnh thông qua các mô hình Gemini 1.5. Khi bạn sử dụng âm thanh để nhắc, chúng phải tuân theo các giới hạn và yêu cầu sau:

  • Dữ liệu âm thanh được hỗ trợ ở các loại MIME định dạng âm thanh phổ biến sau đây:
    • WAV – âm thanh/wav
    • MP3 - âm thanh/mp3
    • AIFF – âm thanh/aiff
    • AAC – âm thanh/aac
    • OGG Vorbis – âm thanh/ogg
    • FLAC – âm thanh/flac
  • Thời lượng tối đa được hỗ trợ của dữ liệu âm thanh trong một câu lệnh là 9,5 giờ.
  • Các tệp âm thanh được lấy mẫu lại ở độ phân giải dữ liệu 16 Kb/giây và nhiều kênh âm thanh được kết hợp thành một kênh duy nhất.
  • Không có giới hạn cụ thể về số lượng tệp âm thanh trong một câu lệnh; tuy nhiên, tổng thời lượng kết hợp của tất cả tệp âm thanh trong một câu lệnh không được vượt quá 9,5 giờ.

Định dạng video

Bạn có thể sử dụng dữ liệu video để đưa ra câu lệnh bằng các mô hình Gemini 1.5.

  • Dữ liệu video được hỗ trợ ở các loại MIME định dạng video phổ biến sau đây:

    • video/mp4
    • video/mpeg
    • video/mov
    • video/avi
    • video/x-flv
    • video/mpg
    • video/webm
    • video/WMV
    • video/3gpp
  • Dịch vụ API tệp lấy mẫu video thành hình ảnh với tốc độ 1 khung hình/giây (FPS) và có thể thay đổi để đưa ra chất lượng suy luận tốt nhất. Từng hình ảnh riêng lẻ chiếm 258 mã thông báo bất kể độ phân giải và chất lượng.

Định dạng văn bản thuần túy

API tệp hỗ trợ tải lên tệp văn bản thuần tuý với các loại MIME sau:

  • văn bản/đơn thuần
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • văn bản/chữ số x
  • ứng dụng/x-typescript
  • văn bản/csv
  • văn bản/đánh dấu
  • văn bản/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • ứng dụng/rtf
  • văn bản/rtf

Đối với các tệp văn bản thuần tuý có loại MIME không có trong danh sách, bạn có thể thử chỉ định thủ công một trong các loại MIME ở trên.