মিথুন অডিও সম্বন্ধে প্রম্পটে সাড়া দিতে পারে। উদাহরণস্বরূপ, মিথুন করতে পারেন:
- বর্ণনা করুন, সংক্ষিপ্ত করুন বা অডিও বিষয়বস্তু সম্পর্কে প্রশ্নের উত্তর দিন।
- অডিও একটি প্রতিলিপি প্রদান.
- অডিওর একটি নির্দিষ্ট অংশ সম্পর্কে উত্তর বা ট্রান্সক্রিপশন প্রদান করুন।
এই নির্দেশিকা Gemini API ব্যবহার করে অডিও ফাইল এবং অডিও সামগ্রীর সাথে ইন্টারঅ্যাক্ট করার বিভিন্ন উপায় প্রদর্শন করে৷
সমর্থিত অডিও ফরম্যাট
জেমিনি নিম্নলিখিত অডিও ফর্ম্যাট MIME প্রকারগুলিকে সমর্থন করে:
- WAV -
audio/wav
- MP3 -
audio/mp3
- AIFF -
audio/aiff
- AAC -
audio/aac
- OGG Vorbis -
audio/ogg
- FLAC -
audio/flac
অডিও সম্পর্কে প্রযুক্তিগত বিবরণ
মিথুন অডিওতে নিম্নলিখিত নিয়মগুলি আরোপ করে:
- মিথুন অডিওর প্রতিটি সেকেন্ড 25 টোকেন হিসাবে উপস্থাপন করে; উদাহরণস্বরূপ, এক মিনিটের অডিওকে 1,500 টোকেন হিসাবে উপস্থাপন করা হয়।
- মিথুন শুধুমাত্র ইংরেজি ভাষার বক্তৃতার প্রতিক্রিয়া অনুমান করতে পারে।
- মিথুন অ-বক্তৃতা উপাদান "বুঝতে" পারে, যেমন পাখির গান বা সাইরেন।
- একক প্রম্পটে অডিও ডেটার সর্বাধিক সমর্থিত দৈর্ঘ্য হল 9.5 ঘন্টা। মিথুন একটি একক প্রম্পটে অডিও ফাইলের সংখ্যা সীমাবদ্ধ করে না; যাইহোক, একটি একক প্রম্পটে সমস্ত অডিও ফাইলের মোট সম্মিলিত দৈর্ঘ্য 9.5 ঘন্টার বেশি হতে পারে না।
- Gemini অডিও ফাইলগুলিকে 16 Kbps ডেটা রেজোলিউশনে নমুনা দেয়।
- অডিও উৎসে একাধিক চ্যানেল থাকলে, জেমিনি সেই চ্যানেলগুলিকে একক চ্যানেলে একত্রিত করে।
এরপর কি
এই গাইডটি দেখায় কিভাবে ফাইল API ব্যবহার করে অডিও ফাইল আপলোড করতে হয় এবং তারপর অডিও ইনপুট থেকে টেক্সট আউটপুট তৈরি করতে হয়। আরও জানতে, নিম্নলিখিত সংস্থানগুলি দেখুন:
- ফাইল প্রম্পটিং কৌশল : জেমিনি এপিআই টেক্সট, ইমেজ, অডিও এবং ভিডিও ডেটা সহ প্রম্পটিং সমর্থন করে, যা মাল্টিমডাল প্রম্পটিং নামেও পরিচিত।
- সিস্টেম নির্দেশাবলী : সিস্টেম নির্দেশাবলী আপনাকে আপনার নির্দিষ্ট প্রয়োজন এবং ব্যবহারের ক্ষেত্রের উপর ভিত্তি করে মডেলের আচরণ পরিচালনা করতে দেয়।
- নিরাপত্তা নির্দেশিকা : কখনও কখনও জেনারেটিভ এআই মডেলগুলি অপ্রত্যাশিত আউটপুট তৈরি করে, যেমন আউটপুটগুলি ভুল, পক্ষপাতদুষ্ট বা আপত্তিকর। এই ধরনের আউটপুট থেকে ক্ষতির ঝুঁকি সীমিত করার জন্য পোস্ট-প্রসেসিং এবং মানব মূল্যায়ন অপরিহার্য।