Vendosni Gemma 3 në Cloud Run me Google AI Studio

Ky udhëzues tregon se si të vendosni modele të hapura Gemma 3 në një Cloud Run me një klik të vetëm në Google AI Studio .

Google AI Studio është një platformë e bazuar në shfletues që ju lejon të provoni shpejt modelet dhe të eksperimentoni me kërkesa të ndryshme. Pasi të keni futur një kërkesë bisede për të dizajnuar një aplikacion prototip ueb që përdor modelin e zgjedhur Gemma 3, mund të zgjidhni Deploy to Cloud Run për të ekzekutuar modelin Gemma në një shërbim Cloud Run të aktivizuar me GPU .

Duke përdorur Google AI Studio për të vendosur një shërbim të gjeneruar të frontit në Cloud Run, ju kapërceni shumicën e hapave të konfigurimit të përgatitjes së një kontejneri pasi Cloud Run ofron një kontejnerë të parandërtuar për të shërbyer modele të hapura Gemma në Cloud Run që mbështet SDK-në e AI të Genit të Google.

Filloni me Google AI Studio

Ky seksion ju udhëzon përmes vendosjes së Gemma 3 në Cloud Run duke përdorur Google AI Studio.

  1. Zgjidhni një model Gemma në Google AI Studio.

    Shkoni te Google AI Studio

    Në panelin e cilësimeve Run në faqen Chat , përdorni modelin e paracaktuar Gemma ose zgjidhni një nga modelet Gemma.

  2. Në shiritin e sipërm, zgjidhni Shiko më shumë veprime dhe klikoni Deploy to Cloud Run .

  3. Në dialogun Deploy Gemma 3 në Google Cloud Run , ndiqni udhëzimet për të krijuar një projekt të ri të Google Cloud ose zgjidhni një projekt ekzistues. Mund t'ju kërkohet të aktivizoni faturimin nëse nuk ka llogari faturimi të lidhur.

  4. Pasi Google AI Studio të verifikojë projektin tuaj, klikoni Deploy to Google Cloud .

  5. Pasi modeli Gemma 3 të jetë vendosur me sukses në Google Cloud, dialogu shfaq sa vijon:

    • Një URL e pikës fundore të "Cloud Run" e shërbimit tuaj "Cloud Run" që ekzekuton Gemma 3 dhe Ollama.
    • Një çelës API i gjeneruar që përdoret për vërtetim me bibliotekat e API Gemini . Ky çelës është konfiguruar si një variabël mjedisi i shërbimit të vendosur në Cloud Run për të autorizuar kërkesat hyrëse. Ne ju rekomandojmë të modifikoni çelësin API për të përdorur vërtetimin IAM. Për më shumë detaje, shihni Ndërveproni në mënyrë të sigurt me SDK-në e AI të Genit të Google .
    • Një lidhje me shërbimin Cloud Run në tastierën e Google Cloud. Për të mësuar rreth cilësimeve të parazgjedhura të konfigurimit për shërbimin tuaj Cloud Run, shkoni te lidhja, më pas zgjidhni Modifiko dhe vendos një rishikim të ri për të parë ose modifikuar cilësimet e konfigurimit.
  6. Për të parë modelin e kodit Gemini API që është përdorur për të krijuar shërbimin Cloud Run, zgjidhni Merr kodin .

  7. Opsionale: Kopjoni kodin dhe bëni modifikime sipas nevojës.

Me kodin tuaj, mund të përdorni pikën përfundimtare të Cloud Run dhe çelësin API me SDK-në e AI të Genit të Google .

Për shembull, nëse jeni duke përdorur Google Gen AI SDK për Python , kodi Python mund të duket si më poshtë:

from google import genai
from google.genai.types import HttpOptions

# Configure the client to use your Cloud Run endpoint and API key
client = genai.Client(api_key="<YOUR_API_KEY>", http_options=HttpOptions(base_url="<cloud_run_url>"))


# Example: Generate content (non-streaming)
response = client.models.generate_content(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["How does AI work?"]
)
print(response.text)


# Example: Stream generate content
response = client.models.generate_content_stream(
   model="<model>", # Replace model with the Gemma 3 model you selected in Google AI Studio, such as "gemma-3-1b-it".
   contents=["Write a story about a magic backpack. You are the narrator of an interactive text adventure game."]
)
for chunk in response:
   print(chunk.text, end="")

Konsideratat

Kur vendosni një shërbim Cloud Run nga Google AI Studio, merrni parasysh sa vijon:

  • Çmimi : Cloud Run është një komponent i faturueshëm. Për të gjeneruar një vlerësim të kostos bazuar në përdorimin tuaj të parashikuar, përdorni kalkulatorin e çmimeve .
  • Kuota : Cloud Run bën automatikisht kërkesën për Request Total Nvidia L4 GPU allocation, per project per region nën API-në e administratorit të Cloud Run.
  • Serveri i përfaqësuesit të aplikacionit : Shërbimi i vendosur përdor Serverin Proxy të aplikacionit të Google AI Studio Gemini për të mbështjellë Ollama dhe për ta bërë shërbimin tuaj të pajtueshëm me Gemini API.
  • Lejet : Nëse keni nevojë të modifikoni shërbimin tuaj Cloud Run, duhet të keni rolet e kërkuara të IAM të dhëna në llogarinë tuaj në projektin tuaj.
  • Vërtetimi : Si parazgjedhje, kur vendosni një shërbim Cloud Run nga Google AI Studio, shërbimi shpërndahet me akses publik (të paautentikuar) ( --allow-unauthenticated flag). Për të përdorur një mekanizëm më të fortë sigurie, ju rekomandojmë të vërtetoni me IAM .

Çfarë është më pas

Mësoni rreth praktikave më të mira për sigurimin dhe optimizimin e performancës kur vendoseni në Cloud Run nga Google AI Studio .