এআইএঅটো রিসার্চার

YouTube ভিডিওর বিন্যাসে সর্বশেষ AI গবেষণার সারসংক্ষেপ এবং ব্যাখ্যা করুন

এটা কি করে

অ্যাপ্লিকেশনটি Arxiv-এ AI সম্পর্কে নতুন গবেষণা পরীক্ষা করে এবং Gemini AI API ব্যবহার করে বিশ্লেষণ করে। এটি ভূমিকা, বিশ্লেষণ, আউটরো এবং কিছু দরকারী মেটাডেটা (যেমন ভিডিও বিবরণ, ট্যাগ, শিরোনাম ইত্যাদি) ধারণকারী YouTube স্ক্রিপ্ট তৈরি করে। তারপর এটি অডিও তৈরি করতে স্থানীয় TortoiseTTS ব্যবহার করে। তারপর এটি ঠোঁট-সিঙ্ক করা অবতার তৈরি করতে স্থানীয় ComfyUI ব্যবহার করে। এর পরে, তৈরি করা শিল্পকর্মগুলিকে একটি ইউটিউব-সামঞ্জস্যপূর্ণ ভিডিওতে একত্রিত করা হয় এবং YouTube API ব্যবহার করে স্বয়ংক্রিয়ভাবে ইউটিউবে আপলোড করা হয়। মেটাডেটা (যেমন শিরোনাম, বিবরণ, ট্যাগ ইত্যাদি) স্বয়ংক্রিয়ভাবে পূর্ণ হয়।
এটিকে শক্তিশালী করার জন্য আমি জেমিনি এলএলএম-এ প্রম্পটের একটি চেইন ব্যবহার করার সিদ্ধান্ত নিয়েছি। এই পদ্ধতিটি বিষয়বস্তুর উপর আরও ভাল নিয়ন্ত্রণের অনুমতি দেয় এবং প্রতিক্রিয়াগুলিকে আরও আকর্ষণীয় এবং অনুসরণ করা সহজ করে তোলে। আমি সমস্ত অনুরোধের জন্য JSON ফর্ম্যাট (এবং প্রয়োজনীয় ক্ষেত্রগুলির বৈধতা) ব্যবহার করার সিদ্ধান্ত নিয়েছি যাতে মডেলটি প্রয়োজনীয়তাগুলিকে সঠিকভাবে ব্যাখ্যা করে এবং যথাযথ বিন্যাসের সাথে প্রতিক্রিয়া জানায়।
স্থানীয় এবং ওপেন সোর্স TortoiseTTS ইনস্টলেশনকে অর্থপ্রদত্ত Google TTS API দিয়ে প্রতিস্থাপন করলে অডিওর উচ্চ মানের এবং দ্রুত প্রক্রিয়াকরণের সময় হবে।

দিয়ে নির্মিত

  • ওয়েব/ক্রোম
  • ইউটিউব এপিআই

দল

দ্বারা

Paweł Szpyt

থেকে

পোল্যান্ড