Layanan embedding di Gemini API menghasilkan embeddings termutakhir untuk kata, frasa, dan kalimat. Embedding yang dihasilkan kemudian dapat digunakan untuk tugas NLP, seperti penelusuran semantik, klasifikasi teks, dan pengelompokan, di antara banyak lainnya. Halaman ini menjelaskan apa yang dimaksud dengan embedding dan menyoroti beberapa kasus penggunaan utama untuk layanan penyematan agar Anda dapat memulai.
Apa itu embedding?
Embedding teks adalah teknik natural language processing (NLP) yang mengonversi teks menjadi vektor numerik. Embedding menangkap makna semantik dan konteks, sehingga menghasilkan teks dengan makna serupa yang memiliki embedding lebih dekat. Misalnya, kalimat "Saya membawa saya ke dokter hewan" dan "saya membawa kucing saya ke dokter hewan" akan memiliki embedding yang berdekatan satu sama lain di ruang vektor karena keduanya menggambarkan konteks yang serupa.
Hal ini penting karena dapat membuka banyak algoritma yang dapat beroperasi pada vektor, tetapi tidak langsung pada teks.
Anda dapat menggunakan embedding atau vektor ini untuk membandingkan teks yang berbeda dan memahami keterkaitannya. Misalnya, jika embedding dari teks "cat" dan "dog" saling berdekatan, Anda dapat menyimpulkan bahwa kedua kata tersebut memiliki makna atau konteks yang serupa, atau keduanya. Kemampuan ini memungkinkan berbagai kasus penggunaan yang dijelaskan di bagian berikutnya.
Kasus penggunaan
Embedding teks mendukung berbagai kasus penggunaan NLP. Contoh:
- Pengambilan Informasi: Tujuannya adalah mengambil teks yang mirip secara semantik berdasarkan sepotong teks input. Berbagai aplikasi dapat didukung oleh sistem pengambilan informasi seperti penelusuran semantik, menjawab pertanyaan, atau perangkuman. Lihat notebook penelusuran dokumen untuk contohnya.
- Klasifikasi: Anda dapat menggunakan embeddings untuk melatih model guna mengklasifikasikan dokumen ke dalam kategori. Misalnya, jika ingin mengklasifikasikan komentar pengguna sebagai negatif atau positif, Anda dapat menggunakan layanan embeddings untuk mendapatkan representasi vektor dari setiap komentar untuk melatih pengklasifikasi. Lihat contoh pengklasifikasi Gemini untuk mengetahui detail selengkapnya.
- Pengelompokan: Membandingkan vektor teks dapat menunjukkan seberapa mirip atau berbedanya teks tersebut. Fitur ini dapat digunakan untuk melatih model pengelompokan yang mengelompokkan teks atau dokumen yang serupa dan mendeteksi anomali dalam data Anda.
- Vector DB: Anda dapat menyimpan embedding yang dihasilkan dalam DB vektor untuk meningkatkan akurasi dan efisiensi aplikasi NLP Anda. Lihat halaman ini untuk mempelajari cara menggunakan DB vektor untuk menerjemahkan perintah teks menjadi vektor numerik.
Embedding elastis
Model Embedding Teks Gemini, dimulai dengan text-embedding-004
,
menawarkan ukuran embedding elastis di bawah 768. Anda dapat menggunakan embedding elastis untuk menghasilkan dimensi output yang lebih kecil serta berpotensi menghemat biaya komputasi dan penyimpanan dengan sedikit kehilangan performa.
Langkah selanjutnya
- Jika sudah siap untuk memulai pengembangan, Anda dapat menemukan kode lengkap yang dapat dijalankan di panduan memulai untuk Python, Go, Node.js, dan Dart (Flutter).