Platform Google Cloud menyediakan banyak layanan untuk men-deploy dan menayangkan model terbuka Gemma, termasuk yang berikut ini:
Vertex AI
Vertex AI adalah platform Google Cloud untuk mem-build dan menskalakan project machine learning dengan cepat tanpa memerlukan keahlian MLOps internal. Vertex AI menyediakan konsol tempat Anda dapat menggunakan berbagai model dan menawarkan kemampuan MLOps menyeluruh serta pengalaman tanpa server untuk pengembangan yang disederhanakan.
Anda dapat menggunakan Vertex AI sebagai aplikasi downstream yang menayangkan Gemma, yang tersedia di Model Garden, kumpulan model yang diseleksi. Misalnya, Anda dapat melakukan port bobot dari implementasi Gemma, dan menggunakan Vertex AI untuk menayangkan versi Gemma tersebut guna mendapatkan prediksi.
Untuk mempelajari lebih lanjut, lihat halaman berikut:
- Pengantar Vertex AI: Mulai menggunakan Vertex AI.
- Gemma dengan Vertex AI: Gunakan model terbuka Gemma dengan Vertex AI.
- Menyesuaikan Gemma menggunakan KerasNLP dan men-deploy ke Vertex AI: Notebook menyeluruh untuk menyesuaikan Gemma menggunakan Keras.
Cloud Run
Cloud Run adalah platform terkelola sepenuhnya untuk menjalankan kode, fungsi, atau penampung Anda di atas infrastruktur Google yang sangat skalabel.
Cloud Run menawarkan GPU sesuai permintaan, mulai cepat, skala nol, bayar per penggunaan, yang memungkinkan Anda menayangkan model terbuka seperti Gemma.
Untuk mempelajari lebih lanjut cara menjalankan Gemma di Cloud Run, lihat halaman berikut:
- Praktik terbaik untuk menggunakan GPU di Cloud Run
- Menjalankan inferensi Gemma di GPU Cloud Run dengan Ollama
- Menjalankan inferensi Gemma di GPU Cloud Run dengan vLLM
- Menjalankan inferensi Gemma di GPU Cloud Run dengan Transformers.js
Google Kubernetes Engine (GKE)
Google Kubernetes Engine (GKE) adalah layanan Kubernetes terkelola dari Google Cloud yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container dalam skala besar menggunakan infrastruktur Google. Anda dapat menayangkan Gemma menggunakan Cloud Tensor Processing Unit (TPU) dan Graphical Processing Unit (GPU) di GKE dengan framework penayangan LLM berikut:
- Menyajikan Gemma menggunakan GPU di GKE dengan vLLM
- Menyajikan Gemma menggunakan GPU di GKE dengan TGI
- Menyajikan Gemma menggunakan GPU di GKE dengan Triton dan TensorRT-LLM
- Menyajikan Gemma menggunakan TPU di GKE dengan JetStream
- Menyajikan Gemma menggunakan TPU di GKE dengan Saxml
Dengan menayangkan Gemma di GKE, Anda dapat menerapkan solusi penayangan inferensi yang andal dan siap produksi dengan semua manfaat Kubernetes terkelola, termasuk skalabilitas yang efisien dan ketersediaan yang lebih tinggi.
Untuk mempelajari lebih lanjut, lihat halaman berikut:
- Ringkasan GKE: Mulai menggunakan Google Kubernetes Engine (GKE)
- Orkestrasi AI/ML di GKE: Jalankan workload AI/ML yang dioptimalkan dengan GKE
ML Dataflow
Dataflow ML adalah platform Google Cloud untuk men-deploy dan mengelola alur kerja machine learning yang lengkap. Dengan Dataflow ML, Anda dapat menyiapkan data untuk pelatihan model dengan alat pemrosesan data, lalu menggunakan model seperti Gemma untuk melakukan inferensi lokal dan jarak jauh dengan pipeline streaming dan batch.
Anda dapat menggunakan Dataflow ML untuk mengintegrasikan Gemma dengan lancar ke dalam pipeline inferensi Apache Beam dengan beberapa baris kode, sehingga Anda dapat menyerap data, memverifikasi, dan mengubah data, memasukkan input teks ke Gemma, serta menghasilkan output teks.
Untuk mempelajari lebih lanjut, lihat halaman berikut:
- Menggunakan model terbuka Gemma dengan Dataflow: Mulai menggunakan Gemma di Dataflow.
- Menjalankan inferensi dengan model terbuka Gemma: Tutorial yang menggunakan Gemma dalam pipeline inferensi Apache Beam.