Gemini

Gemini adalah kelompok model AI generatif yang memungkinkan developer membuat konten dan memecahkan masalah. Model ini dirancang dan dilatih untuk menangani teks dan gambar sebagai input. Panduan ini memberikan informasi tentang setiap varian model untuk membantu Anda memutuskan mana yang paling cocok untuk kasus penggunaan Anda.

Keselamatan dan tujuan penggunaan

Model kecerdasan buatan generatif adalah alat yang canggih, tetapi tidak tanpa batasan. Fleksibilitas dan keberlakuannya terkadang dapat menyebabkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pasca-pemrosesan, dan evaluasi manual yang ketat sangat penting untuk membatasi risiko bahaya dari output tersebut. Lihat panduan keamanan untuk saran penggunaan aman tambahan.

Model yang disediakan oleh Gemini API dapat digunakan untuk berbagai aplikasi AI generatif dan natural language processing (NLP). Penggunaan fungsi ini hanya tersedia melalui Gemini API atau aplikasi web Google AI Studio. Penggunaan Anda atas Gemini API juga tunduk pada Kebijakan Penggunaan Terlarang AI Generatif dan Persyaratan layanan Gemini API.

Varian model

Gemini API menawarkan berbagai model yang dioptimalkan untuk kasus penggunaan tertentu. Berikut ringkasan varian Gemini yang tersedia:

Varian model Input Output Dioptimalkan untuk
Gemini 1.5 Pro (Pratinjau) Audio, gambar, dan teks Teks Tugas penalaran termasuk (tetapi tidak terbatas pada) pembuatan kode dan teks, pengeditan teks, pemecahan masalah, ekstraksi dan pembuatan data
Gemini 1.5 Flash (Pratinjau) Audio, gambar, dan teks Teks Performa yang cepat dan serbaguna di berbagai tugas
Gemini 1.0 Pro Teks Teks Tugas natural language, chat teks dan kode multi-giliran, serta pembuatan kode
Gemini 1.0 Pro Vision Gambar dan teks Teks Performa yang dioptimalkan untuk tugas terkait visual, seperti membuat deskripsi gambar atau mengidentifikasi objek dalam gambar
Penyematan Teks Teks Embedding teks Hasilkan embedding teks yang elastis dengan maksimum 768 dimensi untuk teks hingga 2.048 token
Penyematan Teks Embedding teks Membuat embedding teks dengan 768 dimensi untuk teks hingga 2.048 token
AQA Teks Teks Melakukan tugas terkait Tanya Jawab Terkait terhadap teks yang disediakan

Tabel berikut menjelaskan atribut model Gemini yang umum untuk semua varian model:

Atribut Deskripsi
Data pelatihan Batas pengetahuan Gemini adalah awal tahun 2023. Pengetahuan tentang peristiwa setelah waktu tersebut dibatasi.
Bahasa yang didukung Melihat bahasa yang tersedia
Parameter model yang dapat dikonfigurasi
  • P teratas
  • K teratas
  • Temperature (suhu)
  • Hentikan urutan
  • Panjang output maks
  • Jumlah kandidat respons

Lihat bagian parameter model dalam panduan model generatif untuk mengetahui informasi tentang setiap parameter ini.

Gemini 1.5 Pro (Pratinjau)

Gemini 1.5 Pro adalah model multimodal ukuran sedang yang dioptimalkan untuk berbagai tugas penalaran seperti:

  • Pembuatan kode
  • Pembuatan teks
  • Pengeditan teks
  • Pemecahan masalah
  • Pembuatan rekomendasi
  • Ekstraksi informasi
  • Ekstraksi atau pembuatan data
  • Pembuatan agen AI

1.5 Pro dapat memproses data dalam jumlah besar sekaligus, termasuk video berdurasi 1 jam, audio selama 9,5 jam, codebase dengan lebih dari 30.000 baris kode atau lebih dari 700.000 kata.

1.5 Pro mampu menangani tugas pembelajaran zero-shot, satu, dan few-shot.

Detail model

Properti Deskripsi
Kode model models/gemini-1.5-pro-latest
Input Audio, gambar, dan teks
Output Teks
Metode pembuatan yang didukung generateContent
Batas token input[**] 1.048.576
Batas token output[**] 8.192
Jumlah maksimum gambar per perintah 3.600
Durasi video maksimum: 1 jam
Durasi audio maksimum Sekitar 9,5 jam
Jumlah maksimum file audio per perintah 1
Keamanan model Setelan keamanan yang diterapkan secara otomatis yang dapat disesuaikan oleh developer. Lihat halaman tentang setelan keamanan untuk mengetahui detailnya.
Batas kapasitas[*]
Gratis:
  • 2 RPM
  • 32.000 TPM
  • 50 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 RPM
  • 10 juta TPM
  • 10.000 RPD
  • 14.400.000.000 TPD
Konteks dua juta:
  • 1 RPM
  • 2 juta TPM
  • 50 RPD
Petunjuk sistem Didukung
Mode JSON Didukung
Versi terbaru gemini-1.5-pro-latest
Versi stabil terbaru gemini-1.5-pro
Perubahan terbaru April 2024

Flash Gemini 1.5 (Pratinjau)

Gemini 1.5 Flash adalah model multimodal yang cepat dan serbaguna untuk penskalaan di berbagai tugas.

Detail model

Properti Deskripsi
Kode model gemini-1.5-flash
Input Audio, gambar, dan teks
Output Teks
Metode pembuatan yang didukung generateContent
Batas token input[**] 1.048.576
Batas token output[**] 8.192
Jumlah maksimum gambar per perintah 3.600
Durasi video maksimum: 1 jam
Durasi audio maksimum Sekitar 9,5 jam
Jumlah maksimum file audio per perintah 1
Keamanan model Setelan keamanan yang diterapkan secara otomatis yang dapat disesuaikan oleh developer. Lihat halaman tentang setelan keamanan untuk mengetahui detailnya.
Batas kapasitas[*]
Gratis:
  • 15 RPM
  • 1 juta TPM
  • 1.500 RPD
Pay-as-you-go:
  • 360 RPM
  • 10 juta TPM
  • 10.000 RPD
Petunjuk sistem Didukung
Mode JSON Didukung
Versi terbaru gemini-1.5-flash-latest
Versi stabil terbaru gemini-1.5-flash

Gemini 1.0 Pro

Gemini 1.0 Pro adalah model NLP yang menangani tugas-tugas seperti teks multi-giliran dan chat kode, serta pembuatan kode.

1.0 Pro mampu menangani tugas pembelajaran zero-shot, satu, dan few-shot.

Detail model

Properti Deskripsi
Kode model models/gemini-pro
Input Teks
Output Teks
Metode pembuatan yang didukung
Python: generate_content
REST: generateContent
Batas kapasitas[*]
Gratis:
  • 15 RPM
  • 32.000 TPM
  • 1.500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120.000 TPM
  • 30.000 RPD
  • 172.800.000 TPD
Petunjuk sistem Tidak Didukung
Mode JSON Tidak Didukung
Versi terbaru gemini-1.0-pro-latest
Versi stabil terbaru gemini-1.0-pro
Versi stabil gemini-1.0-pro-001
Perubahan terbaru Februari 2024

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision adalah model multimodal dengan performa yang dioptimalkan dapat melakukan tugas terkait visual. Misalnya, 1.0 Pro Vision dapat menghasilkan deskripsi gambar, mengidentifikasi objek yang ada dalam gambar, memberikan informasi tentang tempat atau objek yang ada dalam gambar, dan banyak lagi.

1.0 Pro Vision mampu menangani tugas zero-shot, satu, dan few-shot.

Detail model

Properti Deskripsi
Kode model models/gemini-pro-vision
Input Teks dan gambar
Output Teks
Metode pembuatan yang didukung
Python: generate_content
REST: generateContent
Batas token input[*] 12.288
Batas token output[*] 4.096
Ukuran gambar maksimum Tak terbatas
Jumlah maksimum gambar per perintah 16
Durasi video maksimum: 2 menit
Jumlah maksimum video per perintah 1
Keamanan model Setelan keamanan yang diterapkan secara otomatis yang dapat disesuaikan oleh developer. Lihat halaman tentang setelan keamanan untuk mengetahui detailnya.
Batas kapasitas[*] 60 permintaan per menit
Versi terbaru gemini-1.0-pro-vision-latest
Versi stabil terbaru gemini-1.0-pro-vision
Perubahan terbaru Desember 2023

Penyematan dan Penyematan Teks

Penyematan Teks

Anda dapat menggunakan model Penyematan Teks untuk membuat sematan teks untuk teks input. Untuk mengetahui informasi selengkapnya tentang model Embedding Teks, buka dokumentasi AI Generatif di Vertex AI tentang embedding teks.

Model Embedding Teks dioptimalkan untuk membuat embedding dengan dimensi 768 untuk teks hingga 2.048 token. Embedding Teks menawarkan ukuran embedding elastis di bawah 768. Anda dapat menggunakan embedding elastis untuk menghasilkan dimensi output yang lebih kecil serta berpotensi menghemat biaya komputasi dan penyimpanan dengan sedikit kehilangan performa.

Detail model
Properti Deskripsi
Kode model models/text-embedding-004 (text-embedding-preview-0409 di Vertex AI)
Input Teks
Output Embedding teks
Batas token input 2.048
Ukuran dimensi output 768
Metode pembuatan yang didukung
Python: embed_content
REST: embedContent
Keamanan model Tidak ada setelan keamanan yang dapat disesuaikan.
Batas kapasitas[*] 1.500 permintaan per menit
Perubahan terbaru April 2024

Embedding

Anda dapat menggunakan model Embedding untuk menghasilkan embedding teks untuk teks input.

Model Embedding dioptimalkan untuk membuat embedding dengan dimensi 768 untuk teks hingga 2048 token.

Menyematkan detail model
Properti Deskripsi
Kode model models/embedding-001
Input Teks
Output Embedding teks
Batas token input 2.048
Ukuran dimensi output 768
Metode pembuatan yang didukung
Python: embed_content
REST: embedContent
Keamanan model Tidak ada setelan keamanan yang dapat disesuaikan.
Batas kapasitas[*] 1.500 permintaan per menit
Perubahan terbaru Desember 2023

AQA (AQA)

Anda dapat menggunakan model AQA untuk melakukan tugas terkait Question-Answering yang Diatribusikan (AQA) pada sebuah dokumen, korpus, atau serangkaian bagian. Model AQA menampilkan jawaban atas pertanyaan yang didasarkan pada sumber yang disediakan, bersama dengan memperkirakan probabilitas yang dapat dijawab.

Detail model

Properti Deskripsi
Kode model models/aqa
Input Teks
Output Teks
Metode pembuatan yang didukung
Python: GenerateAnswerRequest
REST: generateAnswer
Bahasa yang didukung Inggris
Batas token input[**] 7.168
Batas token output[**] 1.024
Keamanan model Setelan keamanan yang diterapkan secara otomatis yang dapat disesuaikan oleh developer. Lihat halaman tentang setelan keamanan untuk mengetahui detailnya.
Batas kapasitas[*] 60 permintaan per menit
Perubahan terbaru Desember 2023

Lihat contoh untuk mempelajari kemampuan variasi model ini.

[*] Satu token setara dengan sekitar 4 karakter untuk model Gemini. 100 token berisi sekitar 60-80 kata dalam bahasa Inggris.

[**] RPM: Permintaan per menit
TPM: Token per menit
RPD: Permintaan per hari
TPD: Token per hari

Karena keterbatasan kapasitas, batas kapasitas maksimum yang ditetapkan tidak dijamin.

Pola nama versi model

Model Gemini tersedia dalam versi pratinjau atau stabil. Dalam kode, Anda dapat menggunakan salah satu format nama model berikut untuk menentukan model dan versi yang ingin digunakan.

  • Terbaru: Mengarah ke model versi mutakhir untuk generasi dan variasi tertentu. Model yang mendasarinya diupdate secara berkala dan mungkin berupa versi pratinjau. Hanya aplikasi dan prototipe pengujian eksploratif yang boleh menggunakan alias ini.

    Untuk menentukan versi terbaru, gunakan pola berikut: <model>-<generation>-<variation>-latest. Misalnya, gemini-1.0-pro-latest.

  • Stabil terbaru: Mengarah ke versi stabil terbaru yang dirilis untuk pembuatan dan variasi model yang ditentukan.

    Untuk menentukan versi stabil terbaru, gunakan pola berikut: <model>-<generation>-<variation>. Misalnya, gemini-1.0-pro.

  • Stabil: Mengarah ke model stabil tertentu. Model stabil tidak berubah. Sebagian besar aplikasi produksi harus menggunakan model stabil tertentu.

    Untuk menentukan versi stabil, gunakan pola berikut: <model>-<generation>-<variation>-<version>. Misalnya, gemini-1.0-pro-001.