Gemini

Varian model

Gemini API menawarkan berbagai model yang dioptimalkan untuk penggunaan tertentu penggunaan. Berikut ringkasan singkat tentang varian Gemini yang tersedia:

Varian model Input Output Dioptimalkan untuk
Gemini 1.5 Pro
gemini-1.5-pro
Audio, gambar, video, dan teks Teks Tugas penalaran yang kompleks seperti pembuatan kode dan pembuatan teks, pengeditan teks, pemecahan masalah, ekstraksi dan pembuatan data
Flash Gemini 1.5
gemini-1.5-flash
Audio, gambar, video, dan teks Teks Performa cepat dan serbaguna untuk berbagai tugas
Gemini 1.0 Pro
gemini-1.0-pro
Teks Teks Tugas bahasa alami, teks multi-giliran dan chat kode, serta kode pembuatan
(Tidak digunakan lagi) Gemini 1.0 Pro Vision
gemini-pro-vision
Gambar, video, dan teks Teks Tugas-tugas terkait visual, seperti membuat gambar deskripsi atau identifikasi objek dalam gambar
Penyematan Teks
text-embedding-004
Teks Embedding teks Mengukur keterkaitan {i>string<i} teks
AQA
aqa
Teks Teks Memberikan jawaban berdasarkan sumber untuk pertanyaan

Tabel berikut menjelaskan atribut model Gemini yang umum untuk semua varian model:

Atribut Deskripsi
Data pelatihan Batas pengetahuan Gemini adalah November 2023. Pengetahuan tentang acara setelah waktu tersebut dibatasi.
Bahasa yang didukung Melihat bahasa yang tersedia
Parameter model yang dapat dikonfigurasi
  • Hal teratas
  • Top K
  • Suhu
  • Hentikan urutan
  • Panjang output maksimum
  • Jumlah kandidat respons

Lihat parameter model bagian dari panduan model generatif untuk mendapatkan informasi tentang setiap parameter ini.

Flash Gemini 1.5

Gemini 1.5 Flash adalah model multimodal yang cepat dan serbaguna untuk melakukan penskalaan beragam tugas.

Coba di AI Studio

Detail model

Properti Deskripsi
Kode model models/gemini-1.5-flash
Jenis data yang didukung

Input

Audio, gambar, video, dan teks

Output

Teks

Batas token[*]

Batas token input

1.048.576

Batas token output

8.192.

Spesifikasi audio/visual

Jumlah maksimum gambar per perintah

3.600

Durasi video maksimum

1 jam

Durasi audio maksimum

Sekitar 9,5 jam

Batas kapasitas[**]
Gratis:
  • 15 RPM
  • 1 juta TPM
  • 1.500 RPD
Pay-as-you-go:
  • 1.000 RPM
  • 2 juta TPM
Kemampuan

Petunjuk sistem

Didukung

Mode JSON

Didukung

Skema JSON

Tidak didukung

Setelan keamanan yang dapat disesuaikan

Didukung

Menyimpan ke cache

Didukung

Penyesuaian

Tidak didukung

Panggilan fungsi

Didukung

Konfigurasi panggilan fungsi

Didukung

Eksekusi kode

Didukung

Perubahan terbaru Mei 2024

Gemini 1.5 Pro

Gemini 1.5 Pro adalah model multimodal skala menengah yang dioptimalkan untuk berbagai tugas penalaran. 1.5 Pro dapat memproses data dalam jumlah besar sekaligus, termasuk 2 jam video, 19 jam audio, basis kode dengan 60.000 baris kode atau 2.000 halaman teks.

Coba di AI Studio

Detail model

Properti Deskripsi
Kode model models/gemini-1.5-pro
Jenis data yang didukung

Input

Audio, gambar, video, dan teks

Output

Teks

Batas token[*]

Batas token input

2.097.152

Batas token output

8.192.

Spesifikasi audio/visual

Jumlah maksimum gambar per perintah

7.200

Durasi video maksimum

2 jam

Durasi audio maksimum

Sekitar 19 jam

Batas kapasitas[**]
Gratis:
  • 2 RPM
  • 32.000 TPM
  • 50 RPD
Pay-as-you-go:
  • RPM 360
  • 2 juta TPM
  • 10.000 RPD
Kemampuan

Petunjuk sistem

Didukung

Mode JSON

Didukung

Skema JSON

Didukung

Setelan keamanan yang dapat disesuaikan

Didukung

Menyimpan ke cache

Didukung

Penyesuaian

Tidak didukung

Panggilan fungsi

Didukung

Konfigurasi panggilan fungsi

Didukung

Eksekusi kode

Didukung

Perubahan terbaru Mei 2024

Gemini 1.0 Pro

Gemini 1.0 Pro adalah model NLP yang menangani tugas seperti teks multi-giliran {i>code chat<i}, dan pembuatan kode.

Coba di AI Studio

Detail model

Properti Deskripsi
Kode model models/gemini-1.0-pro
Jenis data yang didukung

Input

Teks

Output

Teks

Batas kapasitas[**]
Gratis:
  • 15 RPM
  • 32.000 TPM
  • 1.500 RPD
Pay-as-you-go:
  • RPM 360
  • 120.000 TPM
  • 30.000 RPD
Kemampuan

Petunjuk sistem

Tidak didukung

Mode JSON

Tidak didukung

Skema JSON

Tidak didukung

Setelan keamanan yang dapat disesuaikan

Didukung

Menyimpan ke cache

Tidak didukung

Penyesuaian

Didukung

Panggilan fungsi

Didukung

Konfigurasi panggilan fungsi

Tidak didukung

Eksekusi kode

Tidak didukung

Perubahan terbaru Februari 2024

(Tidak digunakan lagi) Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision adalah model multimodal yang dioptimalkan untuk performa yang dapat melakukan tugas terkait visual. Misalnya, 1.0 Pro Vision dapat membuat deskripsi gambar, mengidentifikasi objek yang ada dalam gambar, menyediakan informasi tentang tempat atau objek yang ada dalam gambar, dan banyak lagi.

Detail model

Properti Deskripsi
Kode model models/gemini-pro-vision
Jenis data yang didukung

Input

Gambar, video, dan teks

Output

Teks

Batas token[*]

Batas token input

12.288.

Batas token output

4.096

Spesifikasi audio/visual

Durasi video maksimum

2 menit

Batas kapasitas[**] 60 permintaan per menit
Kemampuan

Petunjuk sistem

Tidak didukung

Mode JSON

Tidak didukung

Skema JSON

Tidak didukung

Setelan keamanan yang dapat disesuaikan

Didukung

Menyimpan ke cache

Tidak didukung

Penyesuaian

Tidak didukung

Panggilan fungsi

Didukung

Konfigurasi panggilan fungsi

Tidak didukung

Eksekusi kode

Tidak didukung

Perubahan terbaru Desember 2023

Penyematan dan Penyematan Teks

Penyematan Teks

Anda dapat menggunakan model Penyematan Teks untuk membuat embedding teks untuk teks input. Untuk informasi selengkapnya tentang model Penyematan Teks, kunjungi Dokumentasi AI Generatif di Vertex AI tentang embedding teks.

Model Embedding Teks dioptimalkan untuk membuat embeddings dengan dimensi untuk teks hingga 2.048 token. Penyematan Teks menawarkan elastis ukuran embedding di bawah 768. Anda dapat menggunakan embedding elastis untuk menghasilkan dimensi output yang lebih kecil dan berpotensi menghemat biaya komputasi dan penyimpanan dan mengalami sedikit penurunan performa.

Detail model
Properti Deskripsi
Kode model

API Gemini

models/text-embedding-004

Vertex AI

text-embedding-preview-0409

Jenis data yang didukung

Input

Teks

Output

Embedding teks

Batas token[*]

Batas token input

2.048

Ukuran dimensi output

768

Batas kapasitas[**] 1.500 permintaan per menit
Setelan keamanan yang dapat disesuaikan Tidak didukung
Perubahan terbaru April 2024

Embedding

Anda dapat menggunakan model Penyematan untuk membuat embedding teks untuk teks input.

Model Embedding dioptimalkan untuk membuat embeddings dengan dimensi 768 untuk teks hingga 2.048 token.

Detail model penyematan
Properti Deskripsi
Kode model models/embedding-001
Jenis data yang didukung

Input

Teks

Output

Embedding teks

Batas token[*]

Batas token input

2.048

Ukuran dimensi output

768

Batas kapasitas[**] 1.500 permintaan per menit
Setelan keamanan yang dapat disesuaikan Tidak didukung
Perubahan terbaru Desember 2023

AQA

Anda dapat menggunakan model AQA untuk melakukan Pertanyaan-Pertanyaan yang Diatribusikan (AQA)–tugas terkait pada dokumen, korpus, atau serangkaian bagian. AQA mengembalikan jawaban atas pertanyaan berdasarkan sumber yang diberikan, bersama dengan memperkirakan probabilitas yang dapat dijawab.

Detail model

Properti Deskripsi
Kode model models/aqa
Jenis data yang didukung

Input

Teks

Output

Teks

Bahasa yang didukung Inggris
Batas token[*]

Batas token input

7.168.

Batas token output

1.024

Batas kapasitas[**] 1.500 permintaan per menit
Setelan keamanan yang dapat disesuaikan Didukung
Perubahan terbaru Desember 2023

Lihat contoh untuk mempelajari kemampuan model ini variasi.

[*] Token setara dengan sekitar 4 karakter untuk model Gemini. 100 token berisi sekitar 60-80 kata dalam bahasa Inggris.

[**] RPM: Permintaan per menit
TPM: Token per menit
RPD: Permintaan per hari
TPD: Token per hari

Karena keterbatasan kapasitas, batas kapasitas maksimum yang ditentukan tidak dijamin efektif.

Pola nama versi model

Model Gemini tersedia dalam versi pratinjau atau stabil. Di Anda dapat menggunakan salah satu format nama model berikut untuk menentukan model dan versi yang ingin digunakan.

  • Terbaru: Mengarah ke versi terbaru model untuk pembuatan dan variasi. Model dasar di-update secara teratur dan mungkin menjadi versi pratinjau. Hanya aplikasi dan prototipe pengujian eksploratif yang boleh gunakan alias ini.

    Untuk menentukan versi terbaru, gunakan pola berikut: <model>-<generation>-<variation>-latest. Misalnya, gemini-1.0-pro-latest.

  • Stabil terbaru: Mengarah ke versi stabil terbaru yang dirilis untuk pembuatan dan variasi model yang telah ditentukan.

    Untuk menentukan versi stabil terbaru, gunakan pola berikut: <model>-<generation>-<variation>. Misalnya, gemini-1.0-pro.

  • Stabil: Mengarah ke model stabil tertentu. Model stabil tidak berubah. Sebagian besar aplikasi produksi harus menggunakan model stabil tertentu.

    Untuk menentukan versi stabil, gunakan pola berikut: <model>-<generation>-<variation>-<version>. Misalnya, gemini-1.0-pro-001.

Bahasa yang tersedia

Model Gemini dilatih untuk bekerja dengan bahasa berikut:

  • Arab (ar)
  • Bengali (bn)
  • Bulgaria (bg)
  • China (aksara sederhana dan tradisional) (zh)
  • Kroasia (hr)
  • Ceko (cs)
  • Denmark (da)
  • Belanda (nl)
  • Inggris (en)
  • Estonia (et)
  • Finlandia (fi)
  • Prancis (fr)
  • Jerman (de)
  • Yunani (el)
  • Ibrani (iw)
  • Hindi (hi)
  • Hungaria (hu)
  • Indonesia (id)
  • Italia (it)
  • Jepang (ja)
  • Korea (ko)
  • Latvia (lv)
  • Lituania (lt)
  • Norwegia (no)
  • Polandia (pl)
  • Portugis (pt)
  • Rumania (ro)
  • Rusia (ru)
  • Serbia (sr)
  • Slovakia (sk)
  • Slovenia (sl)
  • Spanyol (es)
  • Swahili (sw)
  • Swedia (sv)
  • Thai (th)
  • Turki (tr)
  • Ukraina (uk)
  • Vietnam (vi)