Gemini Live API overview

লাইভ এপিআই জেমিনির সাথে কম-বিলম্বিত, রিয়েল-টাইম ভয়েস এবং ভিশন ইন্টারঅ্যাকশন সক্ষম করে। এটি তাৎক্ষণিক, মানুষের মতো কথ্য প্রতিক্রিয়া প্রদানের জন্য অডিও, ছবি এবং টেক্সটের অবিচ্ছিন্ন স্ট্রিম প্রক্রিয়া করে, যা আপনার ব্যবহারকারীদের জন্য একটি স্বাভাবিক কথোপকথনের অভিজ্ঞতা তৈরি করে।

লাইভ এপিআই ওভারভিউ

ব্যবহারের ক্ষেত্রে

লাইভ এপিআই বিভিন্ন শিল্পের জন্য রিয়েল-টাইম ভয়েস এজেন্ট তৈরি করতে ব্যবহার করা যেতে পারে, যার মধ্যে রয়েছে:

  • ই-কমার্স এবং খুচরা বিক্রেতা: শপিং সহকারী যারা ব্যক্তিগতকৃত সুপারিশ প্রদান করে এবং গ্রাহক সমস্যা সমাধানে সহায়তাকারী এজেন্টদের সহায়তা করে।
  • গেমিং: ইন্টারেক্টিভ নন-প্লেয়ার ক্যারেক্টার (NPC), ইন-গেম হেল্প অ্যাসিস্ট্যান্ট এবং ইন-গেম কন্টেন্টের রিয়েল-টাইম অনুবাদ।
  • পরবর্তী প্রজন্মের ইন্টারফেস: রোবোটিক্স, স্মার্ট গ্লাস এবং যানবাহনে ভয়েস এবং ভিডিও-সক্ষম অভিজ্ঞতা।
  • স্বাস্থ্যসেবা: রোগীর সহায়তা এবং শিক্ষার জন্য স্বাস্থ্য সঙ্গী।
  • আর্থিক পরিষেবা: সম্পদ ব্যবস্থাপনা এবং বিনিয়োগ নির্দেশিকার জন্য AI উপদেষ্টা।
  • শিক্ষা: AI পরামর্শদাতা এবং শিক্ষার্থী সঙ্গী যারা ব্যক্তিগতকৃত নির্দেশনা এবং প্রতিক্রিয়া প্রদান করে।

মূল বৈশিষ্ট্য

লাইভ এপিআই শক্তিশালী ভয়েস এজেন্ট তৈরির জন্য বিস্তৃত বৈশিষ্ট্যগুলি অফার করে:

  • বহুভাষিক সমর্থন : ৭০টি সমর্থিত ভাষায় কথোপকথন।
  • বার্জ-ইন : ব্যবহারকারীরা প্রতিক্রিয়াশীল ইন্টারঅ্যাকশনের জন্য যেকোনো সময় মডেলটিকে বাধাগ্রস্ত করতে পারেন।
  • টুল ব্যবহার : গতিশীল ইন্টারঅ্যাকশনের জন্য ফাংশন কলিং এবং গুগল সার্চের মতো টুলগুলিকে একীভূত করে।
  • অডিও ট্রান্সক্রিপশন : ব্যবহারকারীর ইনপুট এবং মডেল আউটপুট উভয়েরই টেক্সট ট্রান্সক্রিপ্ট প্রদান করে।
  • প্রোঅ্যাকটিভ অডিও : মডেলটি কখন এবং কোন প্রসঙ্গে সাড়া দেবে তা আপনাকে নিয়ন্ত্রণ করতে দেয়।
  • আবেগপূর্ণ ডায়ালগ : ব্যবহারকারীর ইনপুট এক্সপ্রেশনের সাথে মেলে প্রতিক্রিয়া শৈলী এবং স্বরকে অভিযোজিত করে।

প্রযুক্তিগত বিবরণ

নিম্নলিখিত টেবিলে লাইভ API-এর প্রযুক্তিগত বৈশিষ্ট্যগুলি বর্ণনা করা হয়েছে:

বিভাগ বিস্তারিত
ইনপুট পদ্ধতি অডিও (রঙের ১৬-বিট পিসিএম অডিও, ১৬ কিলোহার্জ, লিটল-এন্ডিয়ান), ছবি (জেপিইজি <= ১ এফপিএস), টেক্সট
আউটপুট পদ্ধতি অডিও (রঙের ১৬-বিট পিসিএম অডিও, ২৪ কিলোহার্জ, লিটল-এন্ডিয়ান)
প্রোটোকল স্টেটফুল ওয়েবসকেট সংযোগ (WSS)

একটি বাস্তবায়ন পদ্ধতি বেছে নিন

লাইভ এপিআই-এর সাথে ইন্টিগ্রেট করার সময়, আপনাকে নিম্নলিখিত বাস্তবায়ন পদ্ধতিগুলির মধ্যে একটি বেছে নিতে হবে:

  • সার্ভার-টু-সার্ভার : আপনার ব্যাকএন্ড WebSockets ব্যবহার করে লাইভ API-এর সাথে সংযুক্ত হয়। সাধারণত, আপনার ক্লায়েন্ট আপনার সার্ভারে স্ট্রিম ডেটা (অডিও, ভিডিও, টেক্সট) পাঠায়, যা পরে এটি লাইভ API-তে ফরোয়ার্ড করে।
  • ক্লায়েন্ট-টু-সার্ভার : আপনার ফ্রন্টএন্ড কোডটি আপনার ব্যাকএন্ডকে বাইপাস করে ডেটা স্ট্রিম করার জন্য ওয়েবসকেট ব্যবহার করে সরাসরি লাইভ API-এর সাথে সংযুক্ত হয়।

শুরু করুন

আপনার ডেভেলপমেন্ট পরিবেশের সাথে মেলে এমন নির্দেশিকা নির্বাচন করুন:

সার্ভার-টু-সার্ভার

পাইথন ব্যাকএন্ড সহ একটি রিয়েল-টাইম মাল্টিমোডাল অ্যাপ্লিকেশন তৈরি করতে GenAI SDK ব্যবহার করে Gemini Live API-এর সাথে সংযোগ করুন।

ক্লায়েন্ট-টু-সার্ভার

জাভাস্ক্রিপ্ট ফ্রন্টএন্ড এবং এফেমেরাল টোকেন সহ একটি রিয়েল-টাইম মাল্টিমোডাল অ্যাপ্লিকেশন তৈরি করতে ওয়েবসকেট ব্যবহার করে জেমিনি লাইভ API-এর সাথে সংযোগ করুন।

এজেন্ট ডেভেলপমেন্ট কিট

একটি এজেন্ট তৈরি করুন এবং ভয়েস এবং ভিডিও যোগাযোগ সক্ষম করতে এজেন্ট ডেভেলপমেন্ট কিট (ADK) স্ট্রিমিং ব্যবহার করুন।

পার্টনার ইন্টিগ্রেশন

রিয়েল-টাইম অডিও এবং ভিডিও অ্যাপের ডেভেলপমেন্টকে সহজতর করার জন্য, আপনি একটি তৃতীয়-পক্ষ ইন্টিগ্রেশন ব্যবহার করতে পারেন যা WebRTC বা WebSockets এর মাধ্যমে Gemini Live API সমর্থন করে।