Pytania dotyczące plików multimedialnych


Wyświetl na ai.google.dev Uruchom w Google Colab Wyświetl źródło w GitHubie

Interfejs Gemini API obsługuje prompty zawierające dane tekstowe, graficzne, dźwiękowe i wideo, nazywane też promptami multimodalnymi, co oznacza, że możesz uwzględniać w promptach takie typy plików multimedialnych. W przypadku małych plików, podając prompt, możesz wskazać modelowi Gemini bezpośrednio plik lokalny. Zanim umieścisz większe pliki w promptach, prześlij je za pomocą interfejsu File API.

Interfejs File API umożliwia przechowywanie do 20 GB plików na projekt, przy czym rozmiar każdego pliku nie przekracza 2 GB. Pliki są przechowywane przez 48 godzin i można uzyskać do nich dostęp za pomocą klucza interfejsu API i wygenerować je w tym okresie. Nie można ich pobrać z interfejsu API. Interfejs Files API jest dostępny bezpłatnie we wszystkich regionach, w których dostępny jest interfejs Gemini API.

Interfejs File API obsługuje dane wejściowe, których można używać do generowania treści za pomocą funkcji model.generateContent lub model.streamGenerateContent. Informacje o prawidłowych formatach plików (typach MIME) i obsługiwanych modelach znajdziesz w artykule Obsługiwane formaty plików.

Z tego przewodnika dowiesz się, jak przesyłać pliki multimedialne za pomocą interfejsu File API i uwzględniać je w wywołaniu GenerateContent do interfejsu Gemini API. Więcej informacji znajdziesz w przykładowym kodzie.

Obsługiwane formaty plików

Modele Gemini obsługują prompty w różnych formatach plików. W tej sekcji omawiamy aspekty używania ogólnych formatów multimedialnych do tworzenia promptów, w szczególności w plikach graficznych, audio, wideo i zwykłych tekstach. Plików multimedialnych możesz używać do wyświetlania promptów tylko w przypadku określonych wersji modelu, jak pokazano w tabeli poniżej.

Model Obrazy, Dźwięk Film Zwykły tekst
Gemini 1.5 Pro (wersja 008 i nowsze) ✔ (pliki graficzne obsługujące maks. 3600 pikseli)

Formaty graficzne

Do tworzenia promptów w modelach Gemini 1.5 możesz używać danych graficznych. Gdy używasz obrazów do tworzenia promptów, obowiązują te ograniczenia i wymagania:

  • Obrazy muszą być zapisane w jednym z tych typów MIME danych obrazu:
    • PNG – obraz/png
    • JPEG – obraz/jpeg
    • WEBP – obraz/webp
    • HEIC – image/heic
    • HEIF – obraz/heif
  • Maksymalnie 3600 obrazów w przypadku modeli Gemini 1.5.
  • Nie ma konkretnych ograniczeń co do liczby pikseli na obrazie. Jednak większe obrazy są skalowane w dół, by pasowały do maksymalnej rozdzielczości 3072 x 3072 piksele, zachowując jednocześnie oryginalne proporcje.

Formaty audio

Do tworzenia promptów w modelach Gemini 1.5 możesz używać danych dźwiękowych. Jeśli do wyświetlania promptów używasz dźwięku, podlegają one tym ograniczeniom i wymaganiom:

  • Dane audio są obsługiwane w następujących typach audio:
    • WAV – audio/WAV
    • MP3 – audio/mp3
    • AIFF – audio/aiff
    • AAC – audio/AAC
    • OGG Vorbis – audio/ogg
    • FLAC – audio/flac
  • Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny.
  • Pliki audio są przeformatowane do 16 kb/s w rozdzielczości danych, a wiele kanałów audio jest połączonych w jeden kanał.
  • Nie ma konkretnego limitu liczby plików audio w jednym promptie, jednak łączna długość wszystkich plików audio w jednym promptie nie może przekraczać 9,5 godziny.

Formaty reklam w kampaniach wideo

Do wyświetlania promptów w modelach Gemini 1.5 możesz używać danych wideo.

  • Dane wideo są obsługiwane w następujących typach MIME wideo:

    • video/mp4
    • film/mpeg
    • wideo/ruchome
    • wideo/avi
    • video/x-flv
    • film/mpg
    • wideo/webm
    • wideo/wmv
    • wideo/3GPP
  • Usługa File API próbkuje filmy w obrazy z szybkością 1 klatki na sekundę (FPS) i może ulec zmianie w celu zapewnienia najlepszej jakości wnioskowania. Pojedyncze obrazy zajmują 258 tokenów niezależnie od rozdzielczości i jakości.

Formaty zwykłego tekstu

Interfejs File API obsługuje przesyłanie zwykłych plików tekstowych w tych typach MIME:

  • tekstowa/zwykły
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • aplikacja/x-typescript
  • tekst/csv
  • tekst/znaczniki
  • tekst/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • aplikacja/rtf
  • tekst/rtf

W przypadku plików tekstowych, których typ MIME nie znajduje się na liście, możesz spróbować ręcznie określić jeden z powyższych typów MIME.