Pytania dotyczące plików multimedialnych


Wyświetl na ai.google.dev Uruchom w Google Colab Wyświetl źródło w GitHubie

Interfejs Gemini API obsługuje prompty zawierające dane tekstowe, graficzne, dźwiękowe i wideo, nazywane też promptami multimodalnymi, co oznacza, że możesz uwzględniać w promptach takie typy plików multimedialnych. W przypadku małych plików, podając prompt, możesz wskazać modelowi Gemini bezpośrednio plik lokalny. Zanim umieścisz większe pliki w promptach, prześlij je za pomocą interfejsu File API.

Interfejs File API umożliwia przechowywanie do 20 GB plików na projekt, przy czym rozmiar każdego pliku nie przekracza 2 GB. Pliki są przechowywane przez 48 godzin i można uzyskać do nich dostęp za pomocą klucza interfejsu API i wygenerować je w tym okresie. Nie można ich pobrać z interfejsu API. Interfejs Files API jest dostępny bezpłatnie we wszystkich regionach, w których dostępny jest interfejs Gemini API.

Interfejs File API obsługuje dane wejściowe, których można używać do generowania treści za pomocą funkcji model.generateContent lub model.streamGenerateContent. Informacje o prawidłowych formatach plików (typach MIME) i obsługiwanych modelach znajdziesz w artykule Obsługiwane formaty plików.

Z tego przewodnika dowiesz się, jak przesyłać pliki multimedialne za pomocą interfejsu File API i uwzględniać je w wywołaniu GenerateContent do interfejsu Gemini API. Więcej informacji znajdziesz w przykładowym kodzie.

Obsługiwane formaty plików

Modele Gemini obsługują prompty w różnych formatach plików. W tej sekcji omawiamy aspekty używania ogólnych formatów multimedialnych do tworzenia promptów, w szczególności w plikach graficznych, audio, wideo i zwykłych tekstach. Plików multimedialnych możesz używać do wyświetlania promptów tylko w przypadku określonych wersji modelu, jak pokazano w tabeli poniżej.

Model Obrazy, Dźwięk Film Zwykły tekst
Gemini 1.5 Pro (wersja 008 i nowsze) ✔ (pliki graficzne obsługujące maks. 3600 pikseli)

Formaty graficzne

Do tworzenia promptów w modelach Gemini 1.5 możesz używać danych graficznych. Gdy używasz obrazów do tworzenia promptów, obowiązują te ograniczenia i wymagania:

 • Obrazy muszą być zapisane w jednym z tych typów MIME danych obrazu:
  • PNG – obraz/png
  • JPEG – obraz/jpeg
  • WEBP – obraz/webp
  • HEIC – image/heic
  • HEIF – obraz/heif
 • Maksymalnie 3600 obrazów w przypadku modeli Gemini 1.5.
 • Nie ma konkretnych ograniczeń co do liczby pikseli na obrazie. Jednak większe obrazy są skalowane w dół, by pasowały do maksymalnej rozdzielczości 3072 x 3072 piksele, zachowując jednocześnie oryginalne proporcje.

Formaty audio

Do tworzenia promptów w modelach Gemini 1.5 możesz używać danych dźwiękowych. Jeśli do wyświetlania promptów używasz dźwięku, podlegają one tym ograniczeniom i wymaganiom:

 • Dane audio są obsługiwane w następujących typach audio:
  • WAV – audio/WAV
  • MP3 – audio/mp3
  • AIFF – audio/aiff
  • AAC – audio/AAC
  • OGG Vorbis – audio/ogg
  • FLAC – audio/flac
 • Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny.
 • Pliki audio są przeformatowane do 16 kb/s w rozdzielczości danych, a wiele kanałów audio jest połączonych w jeden kanał.
 • Nie ma konkretnego limitu liczby plików audio w jednym promptie, jednak łączna długość wszystkich plików audio w jednym promptie nie może przekraczać 9,5 godziny.

Formaty reklam w kampaniach wideo

Do wyświetlania promptów w modelach Gemini 1.5 możesz używać danych wideo.

 • Dane wideo są obsługiwane w następujących typach MIME wideo:

  • video/mp4
  • film/mpeg
  • wideo/ruchome
  • wideo/avi
  • video/x-flv
  • film/mpg
  • wideo/webm
  • wideo/wmv
  • wideo/3GPP
 • Usługa File API próbkuje filmy w obrazy z szybkością 1 klatki na sekundę (FPS) i może ulec zmianie w celu zapewnienia najlepszej jakości wnioskowania. Pojedyncze obrazy zajmują 258 tokenów niezależnie od rozdzielczości i jakości.

Formaty zwykłego tekstu

Interfejs File API obsługuje przesyłanie zwykłych plików tekstowych w tych typach MIME:

 • tekstowa/zwykły
 • text/html
 • text/css
 • text/javascript
 • application/x-javascript
 • text/x-typescript
 • aplikacja/x-typescript
 • tekst/csv
 • tekst/znaczniki
 • tekst/x-python
 • application/x-python-code
 • application/json
 • text/xml
 • aplikacja/rtf
 • tekst/rtf

W przypadku plików tekstowych, których typ MIME nie znajduje się na liście, możesz spróbować ręcznie określić jeden z powyższych typów MIME.