Gemini 2.0 Flash (deneysel)

Gemini 2.0 Flash, Gemini Developer API ve Google AI Studio üzerinden deneysel önizleme sürümü olarak kullanıma sunuldu. Model, yeni özellikler ve gelişmiş temel özellikler sunar:

  • Multimodal Live API: Bu yeni API, araç kullanarak gerçek zamanlı görüntü ve ses akış uygulamaları oluşturmanıza yardımcı olur.
  • Hız ve performans: Gemini 2.0, 1.5 Flash'a kıyasla ilk jetona ulaşma süresini (TTFT) önemli ölçüde iyileştirdi.
  • Kalite: Çoğu karşılaştırmada Gemini 1.5 Pro'dan daha iyi performans.
  • Daha iyi temsilci özellikleri: Gemini 2.0; çoklu modlu anlama, kodlama, karmaşık talimatları takip etme ve işlev çağırma konularında iyileştirmeler sunar.
  • Yeni modlar: Gemini 2.0, yerel görüntü oluşturma ve kontrol edilebilir metin okuma özelliklerini kullanıma sunar.

Geliştiricilere daha iyi bir deneyim sunmak için yeni bir SDK da kullanıma sunuyoruz. Gemini 2.0'ın teknik ayrıntıları için Gemini modelleri başlıklı makaleyi inceleyin.

Google Gen AI SDK'sı (deneysel)

Yeni Google Gen AI SDK'sı, hem Gemini Developer API hem de Vertex AI'daki Gemini API aracılığıyla Gemini 2.0 için birleşik bir arayüz sağlar. Birkaç istisna dışında, bir platformda çalışan kod her iki platformda da çalışır. Yeni SDK, Python ve Go'da kullanılabilir. Java ve JavaScript desteği yakında kullanıma sunulacaktır.

  1. Yeni SDK'yı yükleyin: pip install google-genai
  2. Ardından kitaplığı içe aktarın, bir istemciyi başlatın ve içerik oluşturun:
from google import genai

client = genai.Client(api_key="GEMINI_API_KEY")

response = client.models.generate_content(model='gemini-2.0-flash-exp', contents='How does AI work?')
print(response.text)

Python geliştiricileri, Gemini Cookbook'taki Başlangıç Not Defteri'ni de deneyebilir.

Multimodal Live API

Multimodal Live API, Gemini ile düşük gecikmeli iki yönlü ses ve görüntü etkileşimlerini sağlar. Multimodal Live API'yi kullanarak son kullanıcılara doğal, insan benzeri sesli sohbet deneyimi ve sesli komutları kullanarak modelin yanıtlarını kesintiye uğratma olanağı sunabilirsiniz. Model, metin, ses ve video girişini işleyebilir ve metin ile ses çıkışı sağlayabilir.

Çoklu Formatlı Canlı API'yi Google AI Studio'da deneyebilirsiniz. API'nin özellikleri ve sınırlamaları hakkında daha fazla bilgi edinmek için Multimodal Live API referans kılavuzuna bakın.

Arama aracı

Google Arama ile temellendirmeyi kullanarak modelden gelen yanıtların doğruluğunu ve güncelliğini artırabilirsiniz. Google Arama, Gemini 2.0'dan itibaren araç olarak kullanılabilir. Bu, modelin Google Arama'yı ne zaman kullanacağına karar verebileceği anlamına gelir. Aşağıdaki örnekte, Arama'nın araç olarak nasıl yapılandırılacağı gösterilmektedir.

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch

client = genai.Client()
model_id = "gemini-2.0-flash-exp"

google_search_tool = Tool(
    google_search = GoogleSearch()
)

response = client.models.generate_content(
    model=model_id,
    contents="When is the next total solar eclipse in the United States?",
    config=GenerateContentConfig(
        tools=[google_search_tool],
        response_modalities=["TEXT"],
    )
)

for each in response.candidates[0].content.parts:
    print(each.text)
# Example response:
# The next total solar eclipse visible in the contiguous United States will be on ...

# To get grounding metadata as web content.
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)

Araç olarak arama işlevi, çok turlu aramaları ve çok araçlı sorguları (ör. temellendirmeyi Google Arama ve kod yürütme ile birleştirme) da etkinleştirir.

Arama aracı olarak planlama, akıl yürütme ve düşünme gerektiren karmaşık istemler ve iş akışları sağlar:

  • Gerçeklik ve güncelliği artırmak ve daha doğru yanıtlar vermek için temellendirme
  • Daha ayrıntılı analiz yapmak için web'den yapıları alma
  • Çoklu duyusal akıl yürütme veya üretme görevlerine yardımcı olacak alakalı resimler, videolar veya başka medyalar bulma
  • Kodlama, teknik sorun giderme ve diğer özel görevler
  • Bölgeye özgü bilgileri bulma veya içeriğin doğru şekilde çevrilmesine yardımcı olma
  • Daha fazla göz atabileceğiniz alakalı web sitelerini bulma

Arama aracı not defterini deneyerek başlayabilirsiniz.

İyileştirilmiş araç kullanımı

Gemini 2.0, işlev çağrılarında ve müşteri temsilcisi deneyimleri için daha iyi destek sağlayan araçlarda iyileştirmeler sunar.

Kompozit işlev çağrısı

Gemini 2.0, yeni bir işlev çağırma özelliğini destekler: kompozisyonel işlev çağırma. Kompozit işlev çağrısı, Gemini API'nin yanıt oluşturma sürecinde birden fazla kullanıcı tanımlı işlevi otomatik olarak çağırmasını sağlar. Örneğin, "Get the temperature in my current location" istemiyle yanıt vermek için Gemini API hem bir get_current_location() işlevi hem de konumu parametre olarak alan bir get_weather() işlevi çağırabilir.

Kod yürütmeyle birlikte kompozisyonel işlev çağrısı, iki yönlü akış gerektirir ve yalnızca yeni Multimodal Live API tarafından desteklenir. Aşağıda, kompozisyonel işlev çağrısını, kod yürütmeyi ve Multimodal Live API'yi birlikte nasıl kullanabileceğinizi gösteren bir örnek verilmiştir:

turn_on_the_lights_schema = {'name': 'turn_on_the_lights'}
turn_off_the_lights_schema = {'name': 'turn_off_the_lights'}

prompt = """
  Hey, can you write run some python code to turn on the lights, wait 10s and then turn off the lights?
  """

tools = [
    {'code_execution': {}},
    {'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]

await run(prompt, tools=tools, modality="AUDIO")

Python geliştiricileri bunu canlı API aracı kullanım not defterinde deneyebilir.

Çok amaçlı araç kullanımı

Gemini 2.0 ile aynı anda birden fazla aracı etkinleştirebilirsiniz. Model, bu araçları ne zaman çağıracağına karar verir. Multimodal Live API'yi kullanan bir istekte Google Arama ile temellendirme ve kod yürütme gibi iki aracı etkinleştiren bir örnek aşağıda verilmiştir.

prompt = """
  Hey, I need you to do three things for me.

  1. Turn on the lights.
  2. Then compute the largest prime palindrome under 100000.
  3. Then use Google Search to look up information about the largest earthquake in California the week of Dec 5 2024.

  Thanks!
  """

tools = [
    {'google_search': {}},
    {'code_execution': {}},
    {'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]

await run(prompt, tools=tools, modality="AUDIO")

Python geliştiricileri bunu canlı API aracı kullanım not defterinde deneyebilir.

Sınırlayıcı kutu algılama

Bu deneysel lansmanda, geliştiricilere görüntü ve videolarda nesne algılama ve yerelleştirme için güçlü bir araç sunuyoruz. Geliştiriciler, sınırlayıcı kutularla nesneleri doğru şekilde tanımlayıp sınırlandırarak çok çeşitli uygulamalardan yararlanabilir ve projelerinin zekasını artırabilir.

Önemli Avantajlar:

  • Basit: Bilgisayar görüşü uzmanlığınızdan bağımsız olarak nesne algılama özelliklerini uygulamalarınıza kolayca entegre edin.
  • Özelleştirilebilir: Özel bir model eğitmeniz gerekmeden özel talimatlara (ör. "Bu resimdeki tüm yeşil nesnelerin sınırlayıcı kutularını görmek istiyorum") göre sınırlayıcı kutular oluşturun.

Teknik Ayrıntılar:

  • Giriş: İsteminiz ve ilişkili resimler veya video kareleri.
  • Çıkış: [y_min, x_min, y_max, x_max] biçiminde sınırlayıcı kutular. Başlangıç noktası sol üst köşedir. x ve y ekseni sırasıyla yatay ve dikey olarak gider. Koordinat değerleri her resim için 0-1000 olarak normalleştirilir.
  • Görselleştirme: AI Studio kullanıcıları, kullanıcı arayüzünde sınır kutularının çizildiğini görür. Vertex AI kullanıcıları, özel görselleştirme kodu aracılığıyla sınır kutularını görselleştirmelidir.

Python geliştiricileri 2D uzamsal anlama not defterini veya deneysel 3D işaretleme not defterini deneyebilir.

Konuşma oluşturma (erken erişim/izin verilenler listesi)

Gemini 2.0, metni seslendirme özelliğiyle çok formatlı yeni bir üretme özelliğini destekler. Metni seslendirme özelliğini kullanarak modelden insan sesine benzeyen yüksek kaliteli bir ses çıkışı (say "hi everyone") oluşturmasını isteyebilir ve sesi yönlendirerek çıkışı daha da hassaslaştırabilirsiniz.

Görüntü üretme (erken erişim/izin verilenler listesi)

Gemini 2.0, satır içi resimler içeren metin çıkışını destekler. Bu sayede, Gemini'yi kullanarak resimleri sohbet şeklinde düzenleyebilir veya çoklu formatlı çıktılar (ör. tek bir turda metin ve resim içeren bir blog yayını) oluşturabilirsiniz. Daha önce bu işlem için birden fazla modeli birbirine bağlamanız gerekiyordu.

Resim oluşturma özelliği, özel deneysel sürüm olarak kullanılabilir. Aşağıdaki modülleri ve özellikleri destekler:

  • Metinden görüntü oluşturma
    • Örnek istem: "Arka planda havai fişeklerin olduğu Eyfel Kulesi resmi oluştur."
  • Metin ve metinlerin resimlere dönüştürülmesi (alternatif olarak)
    • Örnek istem: "Paella tarifi içeren bir resim oluşturun."
  • Resim ve metin, resim ve metin (alternatif)
    • Örnek istem: (Mobilyalı bir odanın resmiyle) "Alanıma hangi renk koltuklar uygun olur? Resmi güncelleyebilir misiniz?"
  • Resim düzenleme (metin ve resimden resme)
    • Örnek istem: "Bu resmi karikatür gibi görünecek şekilde düzenleyin"
    • Örnek istem: [kedi resmi] + [yastık resmi] + "Bu yastığa kedimin çapraz dikişle resmini yap."
  • Çok turlu resim düzenleme (sohbet)
    • Örnek istemler: [mavi bir arabanın resmini yükleyin.] "Bu arabayı cabrioya dönüştür." "Şimdi rengi sarıya değiştirin."
  • Filigranlama
    • Oluşturulan tüm resimlerde SynthID filigranı bulunur.

Sınırlamalar:

  • Gerçek kişileri oluşturmaya ve yüklenen gerçek kişilerin resimlerini düzenlemeye izin verilmez.
  • En iyi performans için aşağıdaki dilleri kullanın: EN, es-MX, ja-JP, zh-CN, hi-IN.
  • Resim oluşturma, ses veya video girişlerini desteklemez.
  • Resim oluşturma her zaman aşağıdakileri tetiklemeyebilir:
    • Model yalnızca metin döndürebilir. Resim çıktılarını açıkça istemeyi deneyin (ör. "resim oluştur", "ilerledikçe resim sağlayın", "resmi güncelle").
    • Model, oluşturma işlemini yarıda kesebilir. Tekrar deneyin veya farklı bir istem kullanın.