Zobacz na ai.google.dev | Uruchom w Google Colab | Wyświetl źródło na GitHubie |
Interfejs Gemini API obsługuje prompty z danymi tekstowymi, graficznymi, audio i wideo, nazywane też promptami multimodalnymi. Oznacza to, że w promptach możesz uwzględniać te typy plików multimedialnych. W przypadku małych plików podczas zwracania promptu możesz wskazać model Gemini bezpośrednio na plik lokalny. Zanim uwzględnisz je w komunikatach, prześlij większe pliki za pomocą interfejsu File API.
Interfejs File API umożliwia przechowywanie do 20 GB plików na projekt, przy czym żaden plik nie może być większy niż 2 GB. Pliki są przechowywane przez 48 godzin i można uzyskać do nich dostęp za pomocą klucza interfejsu API na potrzeby generowania w tym okresie. Nie można ich pobrać z interfejsu API. Interfejs Files API jest dostępny bezpłatnie we wszystkich regionach, w których dostępny jest interfejs API Gemini.
Interfejs File API obsługuje dane wejściowe, które można wykorzystać do generowania treści za pomocą model.generateContent
lub model.streamGenerateContent
. Informacje o prawidłowych formatach plików (typach MIME) i obsługiwanych modelach znajdziesz w artykule na temat obsługiwanych formatów plików.
Z tego przewodnika dowiesz się, jak używać interfejsu File API do przesyłania plików multimedialnych i uwzględniania ich w wywołaniu GenerateContent
interfejsu Gemini API. Więcej informacji znajdziesz w przykładowym kodzie.
Obsługiwane formaty plików
Modele Gemini obsługują prompty w wielu formatach plików. W tej sekcji wyjaśniamy, jak używać ogólnych formatów multimediów do tworzenia promptów, w szczególności plików graficznych, audio, wideo i zwykłych plików tekstowych. Za pomocą plików multimedialnych możesz wysyłać prompty tylko w przypadku określonych wersji modelu, jak pokazano w tabeli poniżej.
Model | Obrazy, | Dźwięk | Film | Zwykły tekst |
---|---|---|---|---|
Gemini 1.5 Pro (wersja 008 i nowsze) | ✔ (maks. 3600 plików graficznych) | ✔ | ✔ | ✔ |
Gemini Pro Vision | ✔ (maks. 16 plików graficznych) | ✔ |
Formaty graficzne
Do promptów z użyciem modeli gemini-pro-vision
i gemini-1.5-pro
możesz używać danych obrazów. Gdy używasz obrazów do promptów, podlegają one tym ograniczeniom i wymaganiom:
- Obrazy muszą być w jednym z tych typów MIME:
- PNG – obraz/png
- JPEG – obraz/jpeg
- WEBP – obraz/webp
- HEIC – obraz/heic
- HEIF – obraz/heif
- Maksymalnie 16 pojedynczych obrazów dla atrybutów
gemini-pro-vision
i 3600 obrazów w kategoriigemini-1.5-pro
- Nie ma żadnych ograniczeń liczby pikseli na obrazie. Większe obrazy są jednak zmniejszane, by uzyskać maksymalną rozdzielczość 3072 x 3072 pikseli przy zachowaniu pierwotnego formatu obrazu.
Formaty dźwięku
Na potrzeby promptów z modelem gemini-1.5-pro
możesz używać danych dźwiękowych. Gdy używasz promptów audio, podlegają one tym ograniczeniom i wymaganiom:
- Dane audio są obsługiwane w tym popularnym formacie audio:
typy MIME:
- WAV – audio/WAV
- MP3 – audio/mp3
- AIFF – audio/aiff
- AAC – audio/aac
- OGG Vorbis – audio/ogg
- FLAC – audio/flac
- Maksymalna obsługiwana długość danych dźwiękowych w pojedynczym promptie to 9,5 godziny.
- Pliki audio są poddawane ponownej próbkowaniu z dokładnością do 16 kb/s, a wiele kanałów audio jest łączonych w jednym kanale.
- Nie ma konkretnego limitu liczby plików audio w pojedynczym potwierdzeniu, ale łączna długość wszystkich plików audio w jednym potwierdzeniu nie może przekraczać 9,5 godziny.
Formaty reklam w kampaniach wideo
Na potrzeby promptów w modelu gemini-1.5-pro
możesz używać danych o filmie.
Dane wideo są obsługiwane w tym popularnym formacie wideo w typach MIME:
- video/mp4
- film/mpeg
- film/mov
- wideo/avi
- video/x-flv
- film/mpg
- film/webm
- film/wmv
- film/3GPP
Usługa File API tworzy próbki filmów w obrazach z częstotliwością 1 klatki na sekundę (FPS). Może ona ulec zmianie w celu zapewnienia jak najlepszej jakości wnioskowania. Pojedyncze zdjęcia mogą zajmować 258 tokenów niezależnie od rozdzielczości i jakości.
Formaty zwykłego tekstu
Interfejs File API obsługuje przesyłanie plików zawierających zwykły tekst w następujących typach MIME:
- tekst/zwykły
- text/html
- text/css
- text/javascript
- application/x-javascript
- text/x-typescript
- application/x-typescript
- tekst/csv
- tekst/znacznik
- tekst/x-python
- application/x-python-code
- application/json
- text/xml
- aplikacja/rtf
- tekst/rtf
W przypadku plików tekstowych, których typ MIME nie znajduje się na liście, możesz ręcznie określić jeden z powyższych typów.