Gemini adalah kelompok model AI generatif yang memungkinkan developer membuat konten dan memecahkan masalah. Model ini dirancang dan dilatih untuk menangani teks dan gambar sebagai input. Panduan ini memberikan informasi tentang setiap varian model untuk membantu Anda memutuskan mana yang paling cocok untuk kasus penggunaan Anda.
Keselamatan dan tujuan penggunaan
Model kecerdasan buatan generatif adalah alat yang canggih, tetapi tidak tanpa batasan. Fleksibilitas dan keberlakuannya terkadang dapat menyebabkan output yang tidak terduga, seperti output yang tidak akurat, bias, atau menyinggung. Pasca-pemrosesan, dan evaluasi manual yang ketat sangat penting untuk membatasi risiko bahaya dari output tersebut. Lihat panduan keamanan untuk saran penggunaan aman tambahan.
Model yang disediakan oleh Gemini API dapat digunakan untuk berbagai aplikasi AI generatif dan natural language processing (NLP). Penggunaan fungsi ini hanya tersedia melalui Gemini API atau aplikasi web Google AI Studio. Penggunaan Anda atas Gemini API juga tunduk pada Kebijakan Penggunaan Terlarang AI Generatif dan Persyaratan layanan Gemini API.
Varian model
Gemini API menawarkan berbagai model yang dioptimalkan untuk kasus penggunaan tertentu. Berikut ringkasan varian Gemini yang tersedia:
Varian model | Input | Output | Dioptimalkan untuk |
---|---|---|---|
Gemini 1.5 Pro (Pratinjau) | Audio, gambar, dan teks | Teks | Tugas penalaran termasuk (tetapi tidak terbatas pada) pembuatan kode dan teks, pengeditan teks, pemecahan masalah, ekstraksi dan pembuatan data |
Gemini 1.5 Flash (Pratinjau) | Audio, gambar, dan teks | Teks | Performa yang cepat dan serbaguna di berbagai tugas |
Gemini 1.0 Pro | Teks | Teks | Tugas natural language, chat teks dan kode multi-giliran, serta pembuatan kode |
Gemini 1.0 Pro Vision | Gambar dan teks | Teks | Performa yang dioptimalkan untuk tugas terkait visual, seperti membuat deskripsi gambar atau mengidentifikasi objek dalam gambar |
Penyematan Teks | Teks | Embedding teks | Hasilkan embedding teks yang elastis dengan maksimum 768 dimensi untuk teks hingga 2.048 token |
Penyematan | Teks | Embedding teks | Membuat embedding teks dengan 768 dimensi untuk teks hingga 2.048 token |
AQA | Teks | Teks | Melakukan tugas terkait Tanya Jawab Terkait terhadap teks yang disediakan |
Tabel berikut menjelaskan atribut model Gemini yang umum untuk semua varian model:
Atribut | Deskripsi |
---|---|
Data pelatihan | Batas pengetahuan Gemini adalah awal tahun 2023. Pengetahuan tentang peristiwa setelah waktu tersebut dibatasi. |
Bahasa yang didukung | Melihat bahasa yang tersedia |
Parameter model yang dapat dikonfigurasi |
|
Lihat bagian parameter model dalam panduan model generatif untuk mengetahui informasi tentang setiap parameter ini.
Gemini 1.5 Pro (Pratinjau)
Gemini 1.5 Pro adalah model multimodal ukuran sedang yang dioptimalkan untuk berbagai tugas penalaran seperti:
- Pembuatan kode
- Pembuatan teks
- Pengeditan teks
- Pemecahan masalah
- Pembuatan rekomendasi
- Ekstraksi informasi
- Ekstraksi atau pembuatan data
- Pembuatan agen AI
1.5 Pro dapat memproses data dalam jumlah besar sekaligus, termasuk video berdurasi 1 jam, audio selama 9,5 jam, codebase dengan lebih dari 30.000 baris kode atau lebih dari 700.000 kata.
1.5 Pro mampu menangani tugas pembelajaran zero-shot, satu, dan few-shot.
Detail model
Properti | Deskripsi |
---|---|
Kode model | models/gemini-1.5-pro-latest |
Input | Audio, gambar, dan teks |
Output | Teks |
Metode pembuatan yang didukung |
generateContent
|
Batas token input[**] | 1.048.576 |
Batas token output[**] | 8.192 |
Jumlah maksimum gambar per perintah | 3.600 |
Durasi video maksimum: | 1 jam |
Durasi audio maksimum | Sekitar 9,5 jam |
Jumlah maksimum file audio per perintah | 1 |
Keamanan model | Setelan keamanan yang diterapkan secara otomatis yang dapat disesuaikan oleh developer. Lihat halaman tentang setelan keamanan untuk mengetahui detailnya. |
Batas kapasitas[*] |
|
Petunjuk sistem | Didukung |
Mode JSON | Didukung |
Versi terbaru | gemini-1.5-pro-latest |
Versi stabil terbaru | gemini-1.5-pro |
Perubahan terbaru | April 2024 |
Flash Gemini 1.5 (Pratinjau)
Gemini 1.5 Flash adalah model multimodal yang cepat dan serbaguna untuk penskalaan di berbagai tugas.
Detail model
Properti | Deskripsi |
---|---|
Kode model | gemini-1.5-flash |
Input | Audio, gambar, dan teks |
Output | Teks |
Metode pembuatan yang didukung |
generateContent
|
Batas token input[**] | 1.048.576 |
Batas token output[**] | 8.192 |
Jumlah maksimum gambar per perintah | 3.600 |
Durasi video maksimum: | 1 jam |
Durasi audio maksimum | Sekitar 9,5 jam |
Jumlah maksimum file audio per perintah | 1 |
Keamanan model | Setelan keamanan yang diterapkan secara otomatis yang dapat disesuaikan oleh developer. Lihat halaman tentang setelan keamanan untuk mengetahui detailnya. |
Batas kapasitas[*] |
|
Petunjuk sistem | Didukung |
Mode JSON | Didukung |
Versi terbaru | gemini-1.5-flash-latest |
Versi stabil terbaru | gemini-1.5-flash |
Gemini 1.0 Pro
Gemini 1.0 Pro adalah model NLP yang menangani tugas-tugas seperti teks multi-giliran dan chat kode, serta pembuatan kode.
1.0 Pro mampu menangani tugas pembelajaran zero-shot, satu, dan few-shot.
Detail model
Properti | Deskripsi |
---|---|
Kode model | models/gemini-pro |
Input | Teks |
Output | Teks |
Metode pembuatan yang didukung |
generate_content
generateContent
|
Batas kapasitas[*] |
|
Petunjuk sistem | Tidak Didukung |
Mode JSON | Tidak Didukung |
Versi terbaru | gemini-1.0-pro-latest |
Versi stabil terbaru | gemini-1.0-pro |
Versi stabil | gemini-1.0-pro-001 |
Perubahan terbaru | Februari 2024 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision adalah model multimodal dengan performa yang dioptimalkan dapat melakukan tugas terkait visual. Misalnya, 1.0 Pro Vision dapat menghasilkan deskripsi gambar, mengidentifikasi objek yang ada dalam gambar, memberikan informasi tentang tempat atau objek yang ada dalam gambar, dan banyak lagi.
1.0 Pro Vision mampu menangani tugas zero-shot, satu, dan few-shot.
Detail model
Properti | Deskripsi |
---|---|
Kode model | models/gemini-pro-vision |
Input | Teks dan gambar |
Output | Teks |
Metode pembuatan yang didukung |
generate_content
generateContent
|
Batas token input[*] | 12.288 |
Batas token output[*] | 4.096 |
Ukuran gambar maksimum | Tak terbatas |
Jumlah maksimum gambar per perintah | 16 |
Durasi video maksimum: | 2 menit |
Jumlah maksimum video per perintah | 1 |
Keamanan model | Setelan keamanan yang diterapkan secara otomatis yang dapat disesuaikan oleh developer. Lihat halaman tentang setelan keamanan untuk mengetahui detailnya. |
Batas kapasitas[*] | 60 permintaan per menit |
Versi terbaru | gemini-1.0-pro-vision-latest |
Versi stabil terbaru | gemini-1.0-pro-vision |
Perubahan terbaru | Desember 2023 |
Penyematan dan Penyematan Teks
Penyematan Teks
Anda dapat menggunakan model Penyematan Teks untuk membuat sematan teks untuk teks input. Untuk mengetahui informasi selengkapnya tentang model Embedding Teks, buka dokumentasi AI Generatif di Vertex AI tentang embedding teks.
Model Embedding Teks dioptimalkan untuk membuat embedding dengan dimensi 768 untuk teks hingga 2.048 token. Embedding Teks menawarkan ukuran embedding elastis di bawah 768. Anda dapat menggunakan embedding elastis untuk menghasilkan dimensi output yang lebih kecil serta berpotensi menghemat biaya komputasi dan penyimpanan dengan sedikit kehilangan performa.
Detail model
Properti | Deskripsi |
---|---|
Kode model |
models/text-embedding-004
(text-embedding-preview-0409 di
Vertex AI)
|
Input | Teks |
Output | Embedding teks |
Batas token input | 2.048 |
Ukuran dimensi output | 768 |
Metode pembuatan yang didukung |
embed_content
embedContent
|
Keamanan model | Tidak ada setelan keamanan yang dapat disesuaikan. |
Batas kapasitas[*] | 1.500 permintaan per menit |
Perubahan terbaru | April 2024 |
Embedding
Anda dapat menggunakan model Embedding untuk menghasilkan embedding teks untuk teks input.
Model Embedding dioptimalkan untuk membuat embedding dengan dimensi 768 untuk teks hingga 2048 token.
Menyematkan detail model
Properti | Deskripsi |
---|---|
Kode model | models/embedding-001 |
Input | Teks |
Output | Embedding teks |
Batas token input | 2.048 |
Ukuran dimensi output | 768 |
Metode pembuatan yang didukung |
embed_content
embedContent
|
Keamanan model | Tidak ada setelan keamanan yang dapat disesuaikan. |
Batas kapasitas[*] | 1.500 permintaan per menit |
Perubahan terbaru | Desember 2023 |
AQA (AQA)
Anda dapat menggunakan model AQA untuk melakukan tugas terkait Question-Answering yang Diatribusikan (AQA) pada sebuah dokumen, korpus, atau serangkaian bagian. Model AQA menampilkan jawaban atas pertanyaan yang didasarkan pada sumber yang disediakan, bersama dengan memperkirakan probabilitas yang dapat dijawab.
Detail model
Properti | Deskripsi |
---|---|
Kode model | models/aqa |
Input | Teks |
Output | Teks |
Metode pembuatan yang didukung |
GenerateAnswerRequest
generateAnswer
|
Bahasa yang didukung | Inggris |
Batas token input[**] | 7.168 |
Batas token output[**] | 1.024 |
Keamanan model | Setelan keamanan yang diterapkan secara otomatis yang dapat disesuaikan oleh developer. Lihat halaman tentang setelan keamanan untuk mengetahui detailnya. |
Batas kapasitas[*] | 60 permintaan per menit |
Perubahan terbaru | Desember 2023 |
Lihat contoh untuk mempelajari kemampuan variasi model ini.
[*] Satu token setara dengan sekitar 4 karakter untuk model Gemini. 100 token berisi sekitar 60-80 kata dalam bahasa Inggris.
[**] RPM: Permintaan per menit
TPM: Token per menit
RPD: Permintaan per hari
TPD: Token per hari
Karena keterbatasan kapasitas, batas kapasitas maksimum yang ditetapkan tidak dijamin.
Pola nama versi model
Model Gemini tersedia dalam versi pratinjau atau stabil. Dalam kode, Anda dapat menggunakan salah satu format nama model berikut untuk menentukan model dan versi yang ingin digunakan.
Terbaru: Mengarah ke model versi mutakhir untuk generasi dan variasi tertentu. Model yang mendasarinya diupdate secara berkala dan mungkin berupa versi pratinjau. Hanya aplikasi dan prototipe pengujian eksploratif yang boleh menggunakan alias ini.
Untuk menentukan versi terbaru, gunakan pola berikut:
<model>-<generation>-<variation>-latest
. Misalnya,gemini-1.0-pro-latest
.Stabil terbaru: Mengarah ke versi stabil terbaru yang dirilis untuk pembuatan dan variasi model yang ditentukan.
Untuk menentukan versi stabil terbaru, gunakan pola berikut:
<model>-<generation>-<variation>
. Misalnya,gemini-1.0-pro
.Stabil: Mengarah ke model stabil tertentu. Model stabil tidak berubah. Sebagian besar aplikasi produksi harus menggunakan model stabil tertentu.
Untuk menentukan versi stabil, gunakan pola berikut:
<model>-<generation>-<variation>-<version>
. Misalnya,gemini-1.0-pro-001
.