লাইভ এপিআই জেমিনির সাথে কম-বিলম্বিত, রিয়েল-টাইম ভয়েস এবং ভিশন ইন্টারঅ্যাকশন সক্ষম করে। এটি তাৎক্ষণিক, মানুষের মতো কথ্য প্রতিক্রিয়া প্রদানের জন্য অডিও, ছবি এবং টেক্সটের অবিচ্ছিন্ন স্ট্রিম প্রক্রিয়া করে, যা আপনার ব্যবহারকারীদের জন্য একটি স্বাভাবিক কথোপকথনের অভিজ্ঞতা তৈরি করে।

ব্যবহারের ক্ষেত্রে
লাইভ এপিআই বিভিন্ন শিল্পের জন্য রিয়েল-টাইম ভয়েস এজেন্ট তৈরি করতে ব্যবহার করা যেতে পারে, যার মধ্যে রয়েছে:
- ই-কমার্স এবং খুচরা বিক্রেতা: শপিং সহকারী যারা ব্যক্তিগতকৃত সুপারিশ প্রদান করে এবং গ্রাহক সমস্যা সমাধানে সহায়তাকারী এজেন্টদের সহায়তা করে।
- গেমিং: ইন্টারেক্টিভ নন-প্লেয়ার ক্যারেক্টার (NPC), ইন-গেম হেল্প অ্যাসিস্ট্যান্ট এবং ইন-গেম কন্টেন্টের রিয়েল-টাইম অনুবাদ।
- পরবর্তী প্রজন্মের ইন্টারফেস: রোবোটিক্স, স্মার্ট গ্লাস এবং যানবাহনে ভয়েস এবং ভিডিও-সক্ষম অভিজ্ঞতা।
- স্বাস্থ্যসেবা: রোগীর সহায়তা এবং শিক্ষার জন্য স্বাস্থ্য সঙ্গী।
- আর্থিক পরিষেবা: সম্পদ ব্যবস্থাপনা এবং বিনিয়োগ নির্দেশিকার জন্য AI উপদেষ্টা।
- শিক্ষা: AI পরামর্শদাতা এবং শিক্ষার্থী সঙ্গী যারা ব্যক্তিগতকৃত নির্দেশনা এবং প্রতিক্রিয়া প্রদান করে।
মূল বৈশিষ্ট্য
লাইভ এপিআই শক্তিশালী ভয়েস এজেন্ট তৈরির জন্য বিস্তৃত বৈশিষ্ট্যগুলি অফার করে:
- বহুভাষিক সমর্থন : ৭০টি সমর্থিত ভাষায় কথোপকথন।
- বার্জ-ইন : ব্যবহারকারীরা প্রতিক্রিয়াশীল ইন্টারঅ্যাকশনের জন্য যেকোনো সময় মডেলটিকে বাধাগ্রস্ত করতে পারেন।
- টুল ব্যবহার : গতিশীল ইন্টারঅ্যাকশনের জন্য ফাংশন কলিং এবং গুগল সার্চের মতো টুলগুলিকে একীভূত করে।
- অডিও ট্রান্সক্রিপশন : ব্যবহারকারীর ইনপুট এবং মডেল আউটপুট উভয়েরই টেক্সট ট্রান্সক্রিপ্ট প্রদান করে।
- প্রোঅ্যাকটিভ অডিও : মডেলটি কখন এবং কোন প্রসঙ্গে সাড়া দেবে তা আপনাকে নিয়ন্ত্রণ করতে দেয়।
- আবেগপূর্ণ ডায়ালগ : ব্যবহারকারীর ইনপুট এক্সপ্রেশনের সাথে মেলে প্রতিক্রিয়া শৈলী এবং স্বরকে অভিযোজিত করে।
প্রযুক্তিগত বিবরণ
নিম্নলিখিত টেবিলে লাইভ API-এর প্রযুক্তিগত বৈশিষ্ট্যগুলি বর্ণনা করা হয়েছে:
| বিভাগ | বিস্তারিত |
|---|---|
| ইনপুট পদ্ধতি | অডিও (রঙের ১৬-বিট পিসিএম অডিও, ১৬ কিলোহার্জ, লিটল-এন্ডিয়ান), ছবি (জেপিইজি <= ১ এফপিএস), টেক্সট |
| আউটপুট পদ্ধতি | অডিও (রঙের ১৬-বিট পিসিএম অডিও, ২৪ কিলোহার্জ, লিটল-এন্ডিয়ান) |
| প্রোটোকল | স্টেটফুল ওয়েবসকেট সংযোগ (WSS) |
একটি বাস্তবায়ন পদ্ধতি বেছে নিন
লাইভ এপিআই-এর সাথে ইন্টিগ্রেট করার সময়, আপনাকে নিম্নলিখিত বাস্তবায়ন পদ্ধতিগুলির মধ্যে একটি বেছে নিতে হবে:
- সার্ভার-টু-সার্ভার : আপনার ব্যাকএন্ড WebSockets ব্যবহার করে লাইভ API-এর সাথে সংযুক্ত হয়। সাধারণত, আপনার ক্লায়েন্ট আপনার সার্ভারে স্ট্রিম ডেটা (অডিও, ভিডিও, টেক্সট) পাঠায়, যা পরে এটি লাইভ API-তে ফরোয়ার্ড করে।
- ক্লায়েন্ট-টু-সার্ভার : আপনার ফ্রন্টএন্ড কোডটি আপনার ব্যাকএন্ডকে বাইপাস করে ডেটা স্ট্রিম করার জন্য ওয়েবসকেট ব্যবহার করে সরাসরি লাইভ API-এর সাথে সংযুক্ত হয়।
শুরু করুন
আপনার ডেভেলপমেন্ট পরিবেশের সাথে মেলে এমন নির্দেশিকা নির্বাচন করুন:
GenAI SDK টিউটোরিয়াল
পাইথন ব্যাকএন্ড সহ একটি রিয়েল-টাইম মাল্টিমোডাল অ্যাপ্লিকেশন তৈরি করতে GenAI SDK ব্যবহার করে Gemini Live API-এর সাথে সংযোগ করুন।
ওয়েবসকেট টিউটোরিয়াল
জাভাস্ক্রিপ্ট ফ্রন্টএন্ড এবং এফেমেরাল টোকেন সহ একটি রিয়েল-টাইম মাল্টিমোডাল অ্যাপ্লিকেশন তৈরি করতে ওয়েবসকেট ব্যবহার করে জেমিনি লাইভ API-এর সাথে সংযোগ করুন।
ADK টিউটোরিয়াল
একটি এজেন্ট তৈরি করুন এবং ভয়েস এবং ভিডিও যোগাযোগ সক্ষম করতে এজেন্ট ডেভেলপমেন্ট কিট (ADK) স্ট্রিমিং ব্যবহার করুন।
পার্টনার ইন্টিগ্রেশন
রিয়েল-টাইম অডিও এবং ভিডিও অ্যাপের ডেভেলপমেন্টকে সহজতর করার জন্য, আপনি একটি তৃতীয়-পক্ষ ইন্টিগ্রেশন ব্যবহার করতে পারেন যা WebRTC বা WebSockets এর মাধ্যমে Gemini Live API সমর্থন করে।
লাইভকিট এজেন্টদের সাথে জেমিনি লাইভ এপিআই ব্যবহার করুন।
ডেইলির পাইপক্যাটজেমিনি লাইভ এবং পাইপক্যাট ব্যবহার করে একটি রিয়েল-টাইম এআই চ্যাটবট তৈরি করুন।
সফটওয়্যার ম্যানশনের ফিশজ্যামফিশজ্যাম দিয়ে লাইভ ভিডিও এবং অডিও স্ট্রিমিং অ্যাপ্লিকেশন তৈরি করুন।
স্ট্রিম দ্বারা ভিশন এজেন্টসভিশন এজেন্টদের সাথে রিয়েল-টাইম ভয়েস এবং ভিডিও এআই অ্যাপ্লিকেশন তৈরি করুন।
ভক্সিমপ্ল্যান্টVoximplant এর মাধ্যমে লাইভ API-তে ইনবাউন্ড এবং আউটবাউন্ড কল সংযুক্ত করুন।
ফায়ারবেস এআই এসডিকেFirebase AI Logic ব্যবহার করে Gemini Live API দিয়ে শুরু করুন।