Wyświetl na ai.google.dev | Uruchom w Google Colab | Wyświetl źródło w GitHubie |
Interfejs Gemini API obsługuje prompty zawierające dane tekstowe, graficzne, dźwiękowe i wideo, nazywane też promptami multimodalnymi, co oznacza, że możesz uwzględniać w promptach takie typy plików multimedialnych. W przypadku małych plików, podając prompt, możesz wskazać modelowi Gemini bezpośrednio plik lokalny. Zanim umieścisz większe pliki w promptach, prześlij je za pomocą interfejsu File API.
Interfejs File API umożliwia przechowywanie do 20 GB plików na projekt, przy czym rozmiar każdego pliku nie przekracza 2 GB. Pliki są przechowywane przez 48 godzin i można uzyskać do nich dostęp za pomocą klucza interfejsu API i wygenerować je w tym okresie. Nie można ich pobrać z interfejsu API. Interfejs Files API jest dostępny bezpłatnie we wszystkich regionach, w których dostępny jest interfejs Gemini API.
Interfejs File API obsługuje dane wejściowe, których można używać do generowania treści za pomocą funkcji model.generateContent
lub model.streamGenerateContent
. Informacje o prawidłowych formatach plików (typach MIME) i obsługiwanych modelach znajdziesz w artykule Obsługiwane formaty plików.
Z tego przewodnika dowiesz się, jak przesyłać pliki multimedialne za pomocą interfejsu File API i uwzględniać je w wywołaniu GenerateContent
do interfejsu Gemini API. Więcej informacji znajdziesz w przykładowym kodzie.
Obsługiwane formaty plików
Modele Gemini obsługują prompty w różnych formatach plików. W tej sekcji omawiamy aspekty używania ogólnych formatów multimedialnych do tworzenia promptów, w szczególności w plikach graficznych, audio, wideo i zwykłych tekstach. Plików multimedialnych możesz używać do wyświetlania promptów tylko w przypadku określonych wersji modelu, jak pokazano w tabeli poniżej.
Model | Obrazy, | Dźwięk | Film | Zwykły tekst |
---|---|---|---|---|
Gemini 1.5 Pro (wersja 008 i nowsze) | ✔ (pliki graficzne obsługujące maks. 3600 pikseli) | ✔ | ✔ | ✔ |
Formaty graficzne
Do tworzenia promptów w modelach Gemini 1.5 możesz używać danych graficznych. Gdy używasz obrazów do tworzenia promptów, obowiązują te ograniczenia i wymagania:
- Obrazy muszą być zapisane w jednym z tych typów MIME danych obrazu:
- PNG – obraz/png
- JPEG – obraz/jpeg
- WEBP – obraz/webp
- HEIC – image/heic
- HEIF – obraz/heif
- Maksymalnie 3600 obrazów w przypadku modeli Gemini 1.5.
- Nie ma konkretnych ograniczeń co do liczby pikseli na obrazie. Jednak większe obrazy są skalowane w dół, by pasowały do maksymalnej rozdzielczości 3072 x 3072 piksele, zachowując jednocześnie oryginalne proporcje.
Formaty audio
Do tworzenia promptów w modelach Gemini 1.5 możesz używać danych dźwiękowych. Jeśli do wyświetlania promptów używasz dźwięku, podlegają one tym ograniczeniom i wymaganiom:
- Dane audio są obsługiwane w następujących typach audio:
- WAV – audio/WAV
- MP3 – audio/mp3
- AIFF – audio/aiff
- AAC – audio/AAC
- OGG Vorbis – audio/ogg
- FLAC – audio/flac
- Maksymalna obsługiwana długość danych audio w pojedynczym promptie to 9,5 godziny.
- Pliki audio są przeformatowane do 16 kb/s w rozdzielczości danych, a wiele kanałów audio jest połączonych w jeden kanał.
- Nie ma konkretnego limitu liczby plików audio w jednym promptie, jednak łączna długość wszystkich plików audio w jednym promptie nie może przekraczać 9,5 godziny.
Formaty reklam w kampaniach wideo
Do wyświetlania promptów w modelach Gemini 1.5 możesz używać danych wideo.
Dane wideo są obsługiwane w następujących typach MIME wideo:
- video/mp4
- film/mpeg
- wideo/ruchome
- wideo/avi
- video/x-flv
- film/mpg
- wideo/webm
- wideo/wmv
- wideo/3GPP
Usługa File API próbkuje filmy w obrazy z szybkością 1 klatki na sekundę (FPS) i może ulec zmianie w celu zapewnienia najlepszej jakości wnioskowania. Pojedyncze obrazy zajmują 258 tokenów niezależnie od rozdzielczości i jakości.
Formaty zwykłego tekstu
Interfejs File API obsługuje przesyłanie zwykłych plików tekstowych w tych typach MIME:
- tekstowa/zwykły
- text/html
- text/css
- text/javascript
- application/x-javascript
- text/x-typescript
- aplikacja/x-typescript
- tekst/csv
- tekst/znaczniki
- tekst/x-python
- application/x-python-code
- application/json
- text/xml
- aplikacja/rtf
- tekst/rtf
W przypadku plików tekstowych, których typ MIME nie znajduje się na liście, możesz spróbować ręcznie określić jeden z powyższych typów MIME.