জেমিনি ডিপ রিসার্চ এখন প্রিভিউতে উপলব্ধ, যাতে রয়েছে যৌথ পরিকল্পনা, ভিজ্যুয়ালাইজেশন, এমসিপি সাপোর্ট এবং আরও অনেক কিছু।

এই পৃষ্ঠাটি Cloud Translation API অনুবাদ করেছে।

জেমিনি লাইভ এপিআই-এর সংক্ষিপ্ত বিবরণ

লাইভ এপিআই জেমিনির সাথে স্বল্প-বিলম্বের, রিয়েল-টাইম ভয়েস এবং ভিজ্যুয়াল ইন্টারঅ্যাকশন সক্ষম করে। এটি অডিও, ছবি এবং টেক্সটের অবিচ্ছিন্ন প্রবাহকে প্রক্রিয়াজাত করে তাৎক্ষণিক, মানুষের মতো কথ্য প্রতিক্রিয়া প্রদান করে, যা আপনার ব্যবহারকারীদের জন্য একটি স্বাভাবিক কথোপকথনের অভিজ্ঞতা তৈরি করে।

লাইভ এপিআই ওভারভিউ

গুগল এআই স্টুডিওতে লাইভ এপিআই ব্যবহার করে দেখুন গিটহাব থেকে উদাহরণ অ্যাপ ক্লোন করুন, কোডিং এজেন্ট দক্ষতা ব্যবহার করুন, ব্যবহার করুন।

ব্যবহারের ক্ষেত্র

লাইভ এপিআই ব্যবহার করে বিভিন্ন শিল্পের জন্য রিয়েল-টাইম ভয়েস এজেন্ট তৈরি করা যেতে পারে, যার মধ্যে রয়েছে:

ই-কমার্স ও খুচরা ব্যবসা: কেনাকাটার সহায়ক যারা ব্যক্তিগতকৃত সুপারিশ প্রদান করে এবং সাপোর্ট এজেন্ট যারা গ্রাহকের সমস্যা সমাধান করে।
গেমিং: ইন্টারেক্টিভ নন-প্লেয়ার ক্যারেক্টার (NPC), ইন-গেম সাহায্যকারী, এবং ইন-গেম কন্টেন্টের রিয়েল-টাইম অনুবাদ।
পরবর্তী প্রজন্মের ইন্টারফেস: রোবটিক্স, স্মার্ট গ্লাস এবং যানবাহনে ভয়েস ও ভিডিও-সক্ষম অভিজ্ঞতা।
স্বাস্থ্যসেবা: রোগীর সহায়তা ও শিক্ষার জন্য স্বাস্থ্য সহযোগী।
আর্থিক পরিষেবা: সম্পদ ব্যবস্থাপনা ও বিনিয়োগ নির্দেশনার জন্য এআই উপদেষ্টা।
শিক্ষা: এআই মেন্টর এবং লার্নার কম্প্যানিয়ন, যারা ব্যক্তিগতকৃত নির্দেশনা ও ফিডব্যাক প্রদান করে।
অনুবাদ ও স্থানীয়করণ: কথ্য কথোপকথনের রিয়েল-টাইম ও স্বল্প বিলম্বের অনুবাদ, যা নির্বিঘ্ন বহুভাষিক যোগাযোগ সক্ষম করে।

মূল বৈশিষ্ট্য

শক্তিশালী ভয়েস এজেন্ট তৈরির জন্য লাইভ এপিআই একগুচ্ছ ব্যাপক বৈশিষ্ট্য প্রদান করে:

বহুভাষিক সমর্থন : ৭০টি সমর্থিত ভাষায় কথোপকথন করুন।
বার্জ-ইন : ব্যবহারকারীরা যেকোনো সময় মডেলটির সাথে তাৎক্ষণিক মিথস্ক্রিয়ার জন্য এটিকে বাধা দিতে পারেন।
টুলের ব্যবহার : গতিশীল মিথস্ক্রিয়ার জন্য ফাংশন কলিং এবং গুগল সার্চের মতো টুল সমন্বিত করে।
অডিও ট্রান্সক্রিপশন : ব্যবহারকারীর ইনপুট এবং মডেল আউটপুট উভয়েরই টেক্সট ট্রান্সক্রিপ্ট প্রদান করে।
প্রোঅ্যাক্টিভ অডিও : এর মাধ্যমে আপনি নিয়ন্ত্রণ করতে পারবেন মডেলটি কখন এবং কোন পরিস্থিতিতে সাড়া দেবে।
আবেগপূর্ণ সংলাপ : ব্যবহারকারীর দেওয়া অভিব্যক্তির সাথে সামঞ্জস্য রেখে প্রতিক্রিয়ার ধরণ ও সুর পরিবর্তন করে।
সরাসরি অনুবাদ : ৭০টিরও বেশি ভাষায় রিয়েল-টাইম ভয়েস-টু-ভয়েস অনুবাদ।

প্রযুক্তিগত বিবরণ

নিম্নলিখিত সারণিতে লাইভ এপিআই-এর প্রযুক্তিগত বিবরণ তুলে ধরা হলো:

বিভাগ	বিস্তারিত
ইনপুট পদ্ধতি	অডিও (র 16-বিট PCM অডিও, 16kHz, লিটল-এন্ডিয়ান), ছবি (JPEG <= 1FPS), টেক্সট
আউটপুট পদ্ধতি	অডিও (র 16-বিট PCM অডিও, 24kHz, লিটল-এন্ডিয়ান)
প্রোটোকল	স্টেটফুল ওয়েবসকেট সংযোগ (WSS)

একটি বাস্তবায়ন পদ্ধতি বেছে নিন

Live API-এর সাথে ইন্টিগ্রেট করার সময়, আপনাকে নিম্নলিখিত বাস্তবায়ন পদ্ধতিগুলোর মধ্যে একটি বেছে নিতে হবে:

সার্ভার-টু-সার্ভার : আপনার ব্যাকএন্ড ওয়েবসকেট ব্যবহার করে লাইভ এপিআই-এর সাথে সংযুক্ত হয়। সাধারণত, আপনার ক্লায়েন্ট আপনার সার্ভারে স্ট্রিম ডেটা (অডিও, ভিডিও, টেক্সট) পাঠায়, যা পরে সেটিকে লাইভ এপিআই-তে ফরোয়ার্ড করে দেয়।
ক্লায়েন্ট-টু-সার্ভার : আপনার ফ্রন্টএন্ড কোড আপনার ব্যাকএন্ডকে বাইপাস করে ওয়েবসকেট ব্যবহার করে সরাসরি লাইভ এপিআই-এর সাথে ডেটা স্ট্রিম করার জন্য সংযুক্ত হয়।

দ্রষ্টব্য: অডিও এবং ভিডিও স্ট্রিমিংয়ের ক্ষেত্রে ক্লায়েন্ট-টু-সার্ভার সাধারণত উন্নততর পারফরম্যান্স প্রদান করে, কারণ এতে প্রথমে আপনার ব্যাকএন্ডে স্ট্রিম পাঠানোর প্রয়োজন হয় না। এটি সেট আপ করাও সহজ, কারণ এর জন্য এমন কোনো প্রক্সি প্রয়োগ করতে হয় না যা আপনার ক্লায়েন্ট থেকে সার্ভারে এবং তারপর সার্ভার থেকে এপিআই-তে ডেটা পাঠায়। তবে, প্রোডাকশন এনভায়রনমেন্টে নিরাপত্তা ঝুঁকি কমাতে আমরা স্ট্যান্ডার্ড এপিআই কী-এর পরিবর্তে এফিমিরাল টোকেন ব্যবহার করার পরামর্শ দিই।

শুরু করুন

আপনার উন্নয়ন পরিবেশের সাথে মেলে এমন নির্দেশিকাটি নির্বাচন করুন:

সার্ভার-টু-সার্ভার

GenAI SDK টিউটোরিয়াল

পাইথন ব্যাকএন্ডসহ একটি রিয়েল-টাইম মাল্টিমোডাল অ্যাপ্লিকেশন তৈরি করতে GenAI SDK ব্যবহার করে Gemini Live API-এর সাথে সংযোগ স্থাপন করুন।

ক্লায়েন্ট-টু-সার্ভার

ওয়েবসকেট টিউটোরিয়াল

জাভাস্ক্রিপ্ট ফ্রন্টএন্ড এবং ক্ষণস্থায়ী টোকেনসহ একটি রিয়েল-টাইম মাল্টিমোডাল অ্যাপ্লিকেশন তৈরি করতে ওয়েবসকেট ব্যবহার করে জেমিনি লাইভ এপিআই-এর সাথে সংযোগ স্থাপন করুন।

এজেন্ট উন্নয়ন কিট

ADK টিউটোরিয়াল

একটি এজেন্ট তৈরি করুন এবং ভয়েস ও ভিডিও যোগাযোগ সক্ষম করতে এজেন্ট ডেভেলপমেন্ট কিট (ADK) স্ট্রিমিং ব্যবহার করুন।

অংশীদার ইন্টিগ্রেশন

রিয়েল-টাইম অডিও এবং ভিডিও অ্যাপের উন্নয়ন প্রক্রিয়াকে সহজ করতে, আপনি এমন একটি থার্ড-পার্টি ইন্টিগ্রেশন ব্যবহার করতে পারেন যা WebRTC বা WebSockets-এর মাধ্যমে Gemini Live API সমর্থন করে।

লাইভকিট

LiveKit এজেন্টদের সাথে Gemini Live API ব্যবহার করুন।

ডেইলির পাইপক্যাট

Gemini Live এবং Pipecat ব্যবহার করে একটি রিয়েল-টাইম এআই চ্যাটবট তৈরি করুন।

সফটওয়্যার ম্যানশনের ফিশজ্যাম

ফিশজ্যাম দিয়ে লাইভ ভিডিও ও অডিও স্ট্রিমিং অ্যাপ্লিকেশন তৈরি করুন।

স্ট্রিম অনুসারে ভিশন এজেন্ট

ভিশন এজেন্ট ব্যবহার করে রিয়েল-টাইম ভয়েস ও ভিডিও এআই অ্যাপ্লিকেশন তৈরি করুন।

ভক্সিমপ্ল্যান্ট

Voximplant-এর মাধ্যমে ইনবাউন্ড ও আউটবাউন্ড কলগুলোকে Live API-এর সাথে সংযুক্ত করুন।

আগোরা

Agora এর সাথে রিয়েল-টাইম কথোপকথনমূলক এআই অ্যাপ্লিকেশন তৈরি করুন।

ফায়ারবেস এআই এসডিকে

Firebase AI Logic ব্যবহার করে Gemini Live API-এর সাথে কাজ শুরু করুন।