EmbeddingGemma adalah model embedding teks multibahasa dengan parameter 308 juta yang didasarkan pada Gemma 3. Fitur ini dioptimalkan untuk digunakan di perangkat sehari-hari, seperti ponsel, laptop, dan tablet. Model ini menghasilkan representasi numerik teks yang akan digunakan untuk tugas downstream seperti pengambilan informasi, penelusuran kesamaan semantik, klasifikasi, dan pengelompokan.
EmbeddingGemma mencakup fitur utama berikut:
- Dukungan multibahasa: Pemahaman data linguistik yang luas, dilatih dalam lebih dari 100 bahasa.
- Dimensi output yang fleksibel: Sesuaikan dimensi output Anda dari 768 hingga 128 untuk kompromi kecepatan dan penyimpanan menggunakan Matryoshka Representation Learning (MRL).
- Konteks token 2K: Konteks input yang substansial untuk memproses data dan dokumen teks secara langsung di hardware Anda.
- Efisiensi penyimpanan: Jalankan di RAM kurang dari 200 MB dengan kuantisasi
- Latensi rendah: Sematan generatif dalam waktu kurang dari 22 md di EdgeTPU untuk aplikasi yang cepat dan lancar.
- Offline dan aman: Buat sematan dokumen secara langsung di hardware Anda, berfungsi tanpa koneksi internet untuk menjaga keamanan data sensitif.
Dapatkan di Hugging Face Dapatkan di Kaggle Akses di Vertex
Seperti model Gemma lainnya, EmbeddingGemma disediakan dengan bobot terbuka dan dilisensikan untuk penggunaan komersial yang bertanggung jawab, sehingga Anda dapat melakukan penyesuaian dan men-deploy-nya dalam proyek dan aplikasi Anda sendiri.