Gemini 2.0 Flash (পরীক্ষামূলক)

Gemini 2.0 Flash এখন Gemini Developer API এবং Google AI স্টুডিওর মাধ্যমে একটি পরীক্ষামূলক প্রিভিউ রিলিজ হিসাবে উপলব্ধ। মডেলটি নতুন বৈশিষ্ট্য এবং বর্ধিত মূল ক্ষমতা প্রবর্তন করে:

  • মাল্টিমোডাল লাইভ API: এই নতুন API আপনাকে টুল ব্যবহারের সাথে রিয়েল-টাইম ভিশন এবং অডিও স্ট্রিমিং অ্যাপ্লিকেশন তৈরি করতে সহায়তা করে।
  • গতি এবং কর্মক্ষমতা: জেমিনি 2.0 এর 1.5 ফ্ল্যাশের উপরে প্রথম টোকেন (TTFT) করার জন্য উল্লেখযোগ্যভাবে উন্নত সময় রয়েছে।
  • গুণমান: জেমিনি 1.5 প্রো-এর তুলনায় বেশিরভাগ বেঞ্চমার্ক জুড়ে ভাল পারফরম্যান্স।
  • উন্নত এজেন্টিক ক্ষমতা: জেমিনি 2.0 মাল্টিমডাল বোঝাপড়া, কোডিং, জটিল নির্দেশনা অনুসরণ এবং ফাংশন কলিং-এ উন্নতি প্রদান করে।
  • নতুন পদ্ধতি: জেমিনি 2.0 নেটিভ ইমেজ জেনারেশন এবং নিয়ন্ত্রণযোগ্য টেক্সট-টু-স্পিচ ক্ষমতা প্রবর্তন করে।

একটি উন্নত বিকাশকারী অভিজ্ঞতা প্রদান করতে, আমরা একটি নতুন SDK ও শিপিং করছি৷ জেমিনি 2.0 প্রযুক্তিগত বিবরণের জন্য, মিথুন মডেল দেখুন।

Google Gen AI SDK (পরীক্ষামূলক)

নতুন Google Gen AI SDK জেমিনি ডেভেলপার API এবং Vertex AI-তে Gemini API উভয়ের মাধ্যমে Gemini 2.0-এ একটি ইউনিফাইড ইন্টারফেস প্রদান করে। কিছু ব্যতিক্রম ছাড়া, একটি প্ল্যাটফর্মে চলা কোড উভয়েই চলবে। এর মানে হল যে আপনি বিকাশকারী API ব্যবহার করে একটি অ্যাপ্লিকেশন প্রোটোটাইপ করতে পারেন এবং তারপরে আপনার কোডটি পুনরায় লেখা ছাড়াই অ্যাপ্লিকেশনটিকে Vertex AI-তে স্থানান্তর করতে পারেন৷

Gen AI SDK এছাড়াও জেমিনি 1.5 মডেল সমর্থন করে।

নতুন SDK পাইথন এবং গোতে উপলব্ধ, জাভা এবং জাভাস্ক্রিপ্ট শীঘ্রই আসছে।

আপনি নীচে দেখানো হিসাবে SDK ব্যবহার শুরু করতে পারেন।

  1. নতুন এসডিকে ইনস্টল করুন: pip install google-genai
  2. তারপরে লাইব্রেরি আমদানি করুন, একটি ক্লায়েন্ট শুরু করুন এবং সামগ্রী তৈরি করুন:
from google import genai

client = genai.Client(
    api_key="YOUR_API_KEY"
)
response = client.models.generate_content(
    model='gemini-2.0-flash-exp', contents='How does AI work?'
)
print(response.text)

(ঐচ্ছিক) পরিবেশের ভেরিয়েবল সেট করুন

বিকল্পভাবে, আপনি পরিবেশের ভেরিয়েবল ব্যবহার করে ক্লায়েন্টকে আরম্ভ করতে পারেন। প্রথমে উপযুক্ত মান সেট করুন এবং ভেরিয়েবল রপ্তানি করুন:

# Replace `YOUR_API_KEY` with your API key.
export GOOGLE_API_KEY=YOUR_API_KEY

তারপর আপনি কোন args ছাড়া ক্লায়েন্ট আরম্ভ করতে পারেন:

client = genai.Client()

পাইথন ডেভেলপাররাও কুকবুকে শুরু করা নোটবুকটি ব্যবহার করে দেখতে পারেন।

মাল্টিমডাল লাইভ API

মাল্টিমোডাল লাইভ এপিআই মিথুনের সাথে কম লেটেন্সি দ্বিমুখী ভয়েস এবং ভিডিও ইন্টারঅ্যাকশন সক্ষম করে। মাল্টিমোডাল লাইভ API ব্যবহার করে, আপনি শেষ ব্যবহারকারীদের প্রাকৃতিক, মানুষের মতো ভয়েস কথোপকথনের অভিজ্ঞতা এবং ভয়েস কমান্ড ব্যবহার করে মডেলের প্রতিক্রিয়াগুলিকে বাধা দেওয়ার ক্ষমতা প্রদান করতে পারেন। মডেলটি পাঠ্য, অডিও এবং ভিডিও ইনপুট প্রক্রিয়া করতে পারে এবং এটি পাঠ্য এবং অডিও আউটপুট সরবরাহ করতে পারে।

মাল্টিমোডাল লাইভ API Gemini API-এ BidiGenerateContent পদ্ধতি হিসাবে উপলব্ধ এবং WebSockets- এ নির্মিত।

from google import genai

client = genai.Client(http_options={'api_version': 'v1alpha'})
model_id = "gemini-2.0-flash-exp"
config = {"response_modalities": ["TEXT"]}

async with client.aio.live.connect(model=model_id, config=config) as session:
    message = "Hello? Gemini, are you there?"
    print("> ", message, "\n")
    await session.send(message, end_of_turn=True)

    async for response in session.receive():
        print(response.text)

মূল ক্ষমতা:

  • মাল্টিমোডালিটি: মডেল দেখতে, শুনতে এবং কথা বলতে পারে।
  • কম লেটেন্সি রিয়েল-টাইম মিথস্ক্রিয়া: দ্রুত প্রতিক্রিয়া প্রদান করে।
  • সেশন মেমরি: মডেলটি একটি একক সেশনের মধ্যে সমস্ত ইন্টারঅ্যাকশনের স্মৃতি ধরে রাখে, পূর্বে শোনা বা দেখা তথ্য স্মরণ করে।
  • ফাংশন কলিং, কোড এক্সিকিউশন, এবং টুল হিসাবে অনুসন্ধানের জন্য সমর্থন: বাহ্যিক পরিষেবা এবং ডেটা উত্সগুলির সাথে একীকরণ সক্ষম করে৷
  • স্বয়ংক্রিয় ভয়েস অ্যাক্টিভিটি সনাক্তকরণ (VAD): ব্যবহারকারী কখন শুরু করে এবং কথা বলা বন্ধ করে মডেলটি সঠিকভাবে চিনতে পারে। এটি প্রাকৃতিক, কথোপকথনমূলক মিথস্ক্রিয়াগুলির জন্য অনুমতি দেয় এবং ব্যবহারকারীদের যে কোনও সময় মডেলটিকে বাধা দেওয়ার ক্ষমতা দেয়৷

ভাষা:

  • শুধুমাত্র ইংরেজি

সীমাবদ্ধতা:

  • অডিও ইনপুট এবং অডিও আউটপুট উভয়ই মডেলের ফাংশন কলিং ব্যবহার করার ক্ষমতাকে নেতিবাচকভাবে প্রভাবিত করে।

API এর ক্ষমতা এবং সীমাবদ্ধতা সম্পর্কে আরও জানতে, মাল্টিমডাল লাইভ API রেফারেন্স গাইড দেখুন।

আপনি Google AI স্টুডিওতে মাল্টিমোডাল লাইভ API ব্যবহার করে দেখতে পারেন। বিকাশ শুরু করতে, আপনি ওয়েব কনসোল ব্যবহার করে দেখতে পারেন (প্রতিক্রিয়ায় লেখা)। পাইথন ডেভেলপারদের জন্য, স্টার্টার কোড ব্যবহার করে দেখুন ( নোটবুক , এবং .py ফাইল )। আপনি নোটবুকটি শুরু করার জন্য সবচেয়ে সহজ খুঁজে পেতে পারেন, তবে আপনার টার্মিনাল থেকে চালানোর সময় লাইভ API সবচেয়ে ভাল কাজ করে।

একটি টুল হিসাবে অনুসন্ধান করুন

Google অনুসন্ধানের সাথে গ্রাউন্ডিং ব্যবহার করে, আপনি মডেল থেকে প্রতিক্রিয়াগুলির যথার্থতা এবং নতুনত্ব উন্নত করতে পারেন৷ Gemini 2.0 দিয়ে শুরু করে, Google Search একটি টুল হিসাবে উপলব্ধ। এর মানে হল যে মডেলটি কখন Google অনুসন্ধান ব্যবহার করবে তা নির্ধারণ করতে পারে। নিম্নলিখিত উদাহরণটি দেখায় কিভাবে একটি টুল হিসাবে অনুসন্ধান কনফিগার করতে হয়।

from google import genai
from google.genai.types import Tool, GenerateContentConfig, GoogleSearch

client = genai.Client()
model_id = "gemini-2.0-flash-exp"

google_search_tool = Tool(
    google_search = GoogleSearch()
)

response = client.models.generate_content(
    model=model_id,
    contents="When is the next total solar eclipse in the United States?",
    config=GenerateContentConfig(
        tools=[google_search_tool],
        response_modalities=["TEXT"],
    )
)

for each in response.candidates[0].content.parts:
    print(each.text)
# Example response:
# The next total solar eclipse visible in the contiguous United States will be on ...

# To get grounding metadata as web content.
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)

সার্চ-এ-এ-টুল কার্যকারিতা এছাড়াও মাল্টি-টার্ন সার্চ এবং মাল্টি-টুল কোয়েরি সক্ষম করে (উদাহরণস্বরূপ, Google অনুসন্ধান এবং কোড এক্সিকিউশনের সাথে গ্রাউন্ডিং একত্রিত করা)।

একটি টুল হিসাবে অনুসন্ধান করুন জটিল প্রম্পট এবং কর্মপ্রবাহ সক্ষম করে যার জন্য পরিকল্পনা, যুক্তি এবং চিন্তার প্রয়োজন হয়:

  • বাস্তবতা এবং নতুনত্ব উন্নত করতে এবং আরও সঠিক উত্তর প্রদানের জন্য গ্রাউন্ডিং
  • আরও বিশ্লেষণ করতে ওয়েব থেকে নিদর্শন পুনরুদ্ধার করা হচ্ছে
  • মাল্টিমোডাল যুক্তি বা প্রজন্মের কাজে সহায়তা করার জন্য প্রাসঙ্গিক ছবি, ভিডিও বা অন্যান্য মিডিয়া খোঁজা
  • কোডিং, প্রযুক্তিগত সমস্যা সমাধান এবং অন্যান্য বিশেষ কাজ
  • অঞ্চল-নির্দিষ্ট তথ্য খোঁজা বা সঠিকভাবে বিষয়বস্তু অনুবাদে সহায়তা করা
  • আরও ব্রাউজ করার জন্য প্রাসঙ্গিক ওয়েবসাইট খোঁজা

আপনি অনুসন্ধান টুল নোটবুক চেষ্টা করে শুরু করতে পারেন.

উন্নত টুল ব্যবহার

Gemini 2.0 ফাংশন কলিং এবং সরঞ্জামগুলির উন্নতির প্রবর্তন করে যা এজেন্টিক অভিজ্ঞতার জন্য আরও ভাল সহায়তা প্রদান করে।

রচনামূলক ফাংশন কলিং

Gemini 2.0 একটি নতুন ফাংশন কলিং ক্ষমতা সমর্থন করে: কম্পোজিশনাল ফাংশন কলিং । কম্পোজিশনাল ফাংশন কলিং জেমিনি API-কে একটি প্রতিক্রিয়া তৈরি করার প্রক্রিয়ায় স্বয়ংক্রিয়ভাবে একাধিক ব্যবহারকারী-সংজ্ঞায়িত ফাংশন আহ্বান করতে সক্ষম করে। উদাহরণস্বরূপ, "Get the temperature in my current location" প্রম্পটের প্রতিক্রিয়া জানাতে, Gemini API একটি get_current_location() ফাংশন এবং একটি get_weather() ফাংশন উভয়ই চালু করতে পারে যা অবস্থানটিকে একটি প্যারামিটার হিসাবে নেয়৷

কোড এক্সিকিউশন সহ কম্পোজিশনাল ফাংশন কল করার জন্য দ্বিমুখী স্ট্রিমিং প্রয়োজন এবং এটি শুধুমাত্র নতুন মাল্টিমোডাল লাইভ API দ্বারা সমর্থিত। এখানে একটি উদাহরণ দেখানো হয়েছে যে আপনি কীভাবে কম্পোজিশনাল ফাংশন কলিং, কোড এক্সিকিউশন এবং মাল্টিমোডাল লাইভ API একসাথে ব্যবহার করতে পারেন:

turn_on_the_lights_schema = {'name': 'turn_on_the_lights'}
turn_off_the_lights_schema = {'name': 'turn_off_the_lights'}

prompt = """
  Hey, can you write run some python code to turn on the lights, wait 10s and then turn off the lights?
  """

tools = [
    {'code_execution': {}},
    {'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]

await run(prompt, tools=tools, modality="AUDIO")

পাইথন ডেভেলপাররা লাইভ এপিআই টুল ইউজ নোটবুকে এটি ব্যবহার করে দেখতে পারেন।

মাল্টি-টুল ব্যবহার

Gemini 2.0-এর সাহায্যে, আপনি একই সময়ে একাধিক টুল সক্ষম করতে পারেন এবং কখন সেগুলিকে কল করতে হবে সেই মডেলটি সিদ্ধান্ত নেবে৷ এখানে একটি উদাহরণ রয়েছে যা মাল্টিমোডাল লাইভ API ব্যবহার করে একটি অনুরোধে দুটি টুল, Google অনুসন্ধানের সাথে গ্রাউন্ডিং এবং কোড এক্সিকিউশন সক্ষম করে।

prompt = """
  Hey, I need you to do three things for me.

  1. Turn on the lights.
  2. Then compute the largest prime palindrome under 100000.
  3. Then use Google Search to look up information about the largest earthquake in California the week of Dec 5 2024.

  Thanks!
  """

tools = [
    {'google_search': {}},
    {'code_execution': {}},
    {'function_declarations': [turn_on_the_lights_schema, turn_off_the_lights_schema]}
]

await run(prompt, tools=tools, modality="AUDIO")

পাইথন ডেভেলপাররা লাইভ এপিআই টুল ইউজ নোটবুকে এটি ব্যবহার করে দেখতে পারেন।

বাউন্ডিং বক্স সনাক্তকরণ

এই পরীক্ষামূলক লঞ্চে, আমরা ডেভেলপারদের ছবি এবং ভিডিওর মধ্যে বস্তু সনাক্তকরণ এবং স্থানীয়করণের জন্য একটি শক্তিশালী টুল প্রদান করছি। বাউন্ডিং বক্সের সাহায্যে অবজেক্টগুলিকে নির্ভুলভাবে শনাক্ত ও বর্ণনা করে, ডেভেলপাররা বিস্তৃত অ্যাপ্লিকেশন আনলক করতে পারে এবং তাদের প্রজেক্টের বুদ্ধিমত্তা বাড়াতে পারে।

মূল সুবিধা:

  • সহজ: আপনার কম্পিউটার দৃষ্টি দক্ষতা নির্বিশেষে, সহজে আপনার অ্যাপ্লিকেশনে বস্তু সনাক্তকরণ ক্ষমতা একীভূত করুন।
  • কাস্টমাইজযোগ্য: কাস্টম নির্দেশাবলীর উপর ভিত্তি করে বাউন্ডিং বাক্স তৈরি করুন (যেমন "আমি এই ছবিতে সমস্ত সবুজ বস্তুর বাউন্ডিং বাক্স দেখতে চাই"), একটি কাস্টম মডেলকে প্রশিক্ষণ না দিয়ে।

প্রযুক্তিগত বিবরণ:

  • ইনপুট: আপনার প্রম্পট এবং সংশ্লিষ্ট ছবি বা ভিডিও ফ্রেম।
  • আউটপুট: [y_min, x_min, y_max, x_max] বিন্যাসে বাউন্ডিং বক্স। উপরের বাম কোণে মূল। x এবং y অক্ষ যথাক্রমে অনুভূমিকভাবে এবং উল্লম্বভাবে যায়। স্থানাঙ্ক মান প্রতিটি ছবির জন্য 0-1000 স্বাভাবিক করা হয়।
  • ভিজ্যুয়ালাইজেশন: এআই স্টুডিও ব্যবহারকারীরা UI এর মধ্যে প্লট করা বাউন্ডিং বক্স দেখতে পাবেন। Vertex AI ব্যবহারকারীদের কাস্টম ভিজ্যুয়ালাইজেশন কোডের মাধ্যমে তাদের বাউন্ডিং বাক্সগুলি কল্পনা করা উচিত।

পাইথন বিকাশকারীদের জন্য, 2D স্থানিক বোঝার নোটবুক বা পরীক্ষামূলক 3D পয়েন্টিং নোটবুক ব্যবহার করে দেখুন।

স্পিচ জেনারেশন (প্রাথমিক অ্যাক্সেস/অনুমোদিত তালিকা)

Gemini 2.0 একটি নতুন মাল্টিমডাল প্রজন্মের ক্ষমতা সমর্থন করে: পাঠ্য থেকে বক্তৃতা। টেক্সট-টু-স্পিচ ক্ষমতা ব্যবহার করে, আপনি মডেলটিকে উচ্চ মানের অডিও আউটপুট তৈরি করতে প্রম্পট করতে পারেন যা মানুষের ভয়েসের মতো শোনায় ( say "hi everyone" ), এবং আপনি ভয়েস স্টিয়ারিং করে আউটপুটটিকে আরও পরিমার্জিত করতে পারেন৷

ইমেজ জেনারেশন (প্রাথমিক অ্যাক্সেস/অনুমোদিত তালিকা)

Gemini 2.0 ইন-লাইন ইমেজ সহ পাঠ্য আউটপুট করার ক্ষমতা সমর্থন করে। এটি আপনাকে কথোপকথন চিত্রগুলি সম্পাদনা করতে বা মাল্টিমোডাল আউটপুট তৈরি করতে মিথুন ব্যবহার করতে দেয় (উদাহরণস্বরূপ, একক পালা করে পাঠ্য এবং চিত্র সহ একটি ব্লগ পোস্ট)। পূর্বে এর জন্য একাধিক মডেল একসাথে স্ট্রিং করা প্রয়োজন হত।

ইমেজ জেনারেশন একটি ব্যক্তিগত পরীক্ষামূলক রিলিজ হিসাবে উপলব্ধ. এটি নিম্নলিখিত পদ্ধতি এবং ক্ষমতা সমর্থন করে:

  • টেক্সট টু ইমেজ
    • উদাহরণ প্রম্পট: "পটভূমিতে আতশবাজি সহ আইফেল টাওয়ারের একটি চিত্র তৈরি করুন।"
  • টেক্সট টু ইমেজ এবং টেক্সট (ইন্টারলিভড)
    • উদাহরণ প্রম্পট: "পায়েলার জন্য একটি চিত্রিত রেসিপি তৈরি করুন।"
  • ছবি(গুলি) এবং টেক্সট টু ইমেজ(গুলি) এবং টেক্সট (ইন্টারলিভড)
    • উদাহরণ প্রম্পট: (একটি সজ্জিত ঘরের একটি চিত্র সহ) "আমার জায়গায় অন্য কোন রঙের সোফা কাজ করবে? আপনি কি ছবিটি আপডেট করতে পারেন?"
  • ছবি সম্পাদনা (টেক্সট এবং ইমেজ থেকে ইমেজ)
    • উদাহরণ প্রম্পট: "একটি কার্টুনের মতো দেখতে এই ছবিটি সম্পাদনা করুন"
    • উদাহরণ প্রম্পট: [একটি বিড়ালের ছবি] + [একটি বালিশের ছবি] + "এই বালিশে আমার বিড়ালের একটি ক্রস সেলাই তৈরি করুন।"
  • মাল্টি-টার্ন ইমেজ এডিটিং (চ্যাট)
    • উদাহরণ প্রম্পট: [একটি নীল গাড়ির একটি ছবি আপলোড করুন।] "এই গাড়িটিকে একটি রূপান্তরযোগ্য করে দিন।" "এখন রং পরিবর্তন করে হলুদ করুন।"
  • ওয়াটারমার্কিং (সিনথআইডি)

সীমাবদ্ধতা:

  • মানুষের জেনারেশন এবং মানুষের আপলোড করা ছবি সম্পাদনা অনুমোদিত নয়।
  • সেরা পারফরম্যান্সের জন্য, নিম্নলিখিত ভাষাগুলি ব্যবহার করুন: EN, es-MX, ja-JP, zh-CN, hi-IN৷
  • ইমেজ জেনারেশন অডিও বা ভিডিও ইনপুট সমর্থন করে না।
  • ইমেজ জেনারেশন সবসময় ট্রিগার নাও হতে পারে:
    • মডেল শুধুমাত্র টেক্সট আউটপুট হতে পারে. সুস্পষ্টভাবে ইমেজ আউটপুট জিজ্ঞাসা করার চেষ্টা করুন (যেমন "একটি ছবি তৈরি করুন", "ছবি প্রদান করুন যেমন আপনি যান", "চিত্র আপডেট করুন")।
    • মডেলটি আংশিকভাবে তৈরি করা বন্ধ করতে পারে। আবার চেষ্টা করুন বা একটি ভিন্ন প্রম্পট চেষ্টা করুন.