Pytania dotyczące plików multimedialnych


Zobacz na ai.google.dev Uruchom w Google Colab Wyświetl źródło na GitHubie

Interfejs Gemini API obsługuje prompty z danymi tekstowymi, graficznymi, audio i wideo, nazywane też promptami multimodalnymi. Oznacza to, że w promptach możesz uwzględniać te typy plików multimedialnych. W przypadku małych plików podczas zwracania promptu możesz wskazać model Gemini bezpośrednio na plik lokalny. Zanim uwzględnisz je w komunikatach, prześlij większe pliki za pomocą interfejsu File API.

Interfejs File API umożliwia przechowywanie do 20 GB plików na projekt, przy czym żaden plik nie może być większy niż 2 GB. Pliki są przechowywane przez 48 godzin i można uzyskać do nich dostęp za pomocą klucza interfejsu API na potrzeby generowania w tym okresie. Nie można ich pobrać z interfejsu API. Interfejs Files API jest dostępny bezpłatnie we wszystkich regionach, w których dostępny jest interfejs API Gemini.

Interfejs File API obsługuje dane wejściowe, które można wykorzystać do generowania treści za pomocą model.generateContent lub model.streamGenerateContent. Informacje o prawidłowych formatach plików (typach MIME) i obsługiwanych modelach znajdziesz w artykule na temat obsługiwanych formatów plików.

Z tego przewodnika dowiesz się, jak używać interfejsu File API do przesyłania plików multimedialnych i uwzględniania ich w wywołaniu GenerateContent interfejsu Gemini API. Więcej informacji znajdziesz w przykładowym kodzie.

Obsługiwane formaty plików

Modele Gemini obsługują prompty w wielu formatach plików. W tej sekcji wyjaśniamy, jak używać ogólnych formatów multimediów do tworzenia promptów, w szczególności plików graficznych, audio, wideo i zwykłych plików tekstowych. Za pomocą plików multimedialnych możesz wysyłać prompty tylko w przypadku określonych wersji modelu, jak pokazano w tabeli poniżej.

Model Obrazy, Dźwięk Film Zwykły tekst
Gemini 1.5 Pro (wersja 008 i nowsze) ✔ (maks. 3600 plików graficznych)
Gemini Pro Vision ✔ (maks. 16 plików graficznych)

Formaty graficzne

Do promptów z użyciem modeli gemini-pro-vision i gemini-1.5-pro możesz używać danych obrazów. Gdy używasz obrazów do promptów, podlegają one tym ograniczeniom i wymaganiom:

  • Obrazy muszą być w jednym z tych typów MIME:
    • PNG – obraz/png
    • JPEG – obraz/jpeg
    • WEBP – obraz/webp
    • HEIC – obraz/heic
    • HEIF – obraz/heif
  • Maksymalnie 16 pojedynczych obrazów dla atrybutów gemini-pro-vision i 3600 obrazów w kategorii gemini-1.5-pro
  • Nie ma żadnych ograniczeń liczby pikseli na obrazie. Większe obrazy są jednak zmniejszane, by uzyskać maksymalną rozdzielczość 3072 x 3072 pikseli przy zachowaniu pierwotnego formatu obrazu.

Formaty dźwięku

Na potrzeby promptów z modelem gemini-1.5-pro możesz używać danych dźwiękowych. Gdy używasz promptów audio, podlegają one tym ograniczeniom i wymaganiom:

  • Dane audio są obsługiwane w tym popularnym formacie audio: typy MIME:
    • WAV – audio/WAV
    • MP3 – audio/mp3
    • AIFF – audio/aiff
    • AAC – audio/aac
    • OGG Vorbis – audio/ogg
    • FLAC – audio/flac
  • Maksymalna obsługiwana długość danych dźwiękowych w pojedynczym promptie to 9,5 godziny.
  • Pliki audio są poddawane ponownej próbkowaniu z dokładnością do 16 kb/s, a wiele kanałów audio jest łączonych w jednym kanale.
  • Nie ma konkretnego limitu liczby plików audio w pojedynczym potwierdzeniu, ale łączna długość wszystkich plików audio w jednym potwierdzeniu nie może przekraczać 9,5 godziny.

Formaty reklam w kampaniach wideo

Na potrzeby promptów w modelu gemini-1.5-pro możesz używać danych o filmie.

  • Dane wideo są obsługiwane w tym popularnym formacie wideo w typach MIME:

    • video/mp4
    • film/mpeg
    • film/mov
    • wideo/avi
    • video/x-flv
    • film/mpg
    • film/webm
    • film/wmv
    • film/3GPP
  • Usługa File API tworzy próbki filmów w obrazach z częstotliwością 1 klatki na sekundę (FPS). Może ona ulec zmianie w celu zapewnienia jak najlepszej jakości wnioskowania. Pojedyncze zdjęcia mogą zajmować 258 tokenów niezależnie od rozdzielczości i jakości.

Formaty zwykłego tekstu

Interfejs File API obsługuje przesyłanie plików zawierających zwykły tekst w następujących typach MIME:

  • tekst/zwykły
  • text/html
  • text/css
  • text/javascript
  • application/x-javascript
  • text/x-typescript
  • application/x-typescript
  • tekst/csv
  • tekst/znacznik
  • tekst/x-python
  • application/x-python-code
  • application/json
  • text/xml
  • aplikacja/rtf
  • tekst/rtf

W przypadku plików tekstowych, których typ MIME nie znajduje się na liście, możesz ręcznie określić jeden z powyższych typów.