AIAutoResearcher
YouTube वीडियो के फ़ॉर्मैट में, एआई से जुड़ी नई रिसर्च के बारे में खास जानकारी देना और उसे समझाना
यह क्या करता है
यह ऐप्लिकेशन, Arxiv पर एआई से जुड़ी नई रिसर्च की जांच करता है और Gemini के एआई एपीआई का इस्तेमाल करके उसका विश्लेषण करता है. यह YouTube वीडियो की स्क्रिप्ट बनाता है. इसमें वीडियो की शुरुआत, विश्लेषण, आउट्रो, और कुछ काम का मेटाडेटा (जैसे, वीडियो का ब्यौरा, टैग, टाइटल वगैरह) शामिल होता है. इसके बाद, यह ऑडियो बनाने के लिए स्थानीय TortoiseTTS का इस्तेमाल करता है. इसके बाद, यह लिप-सिंक किया गया अवतार बनाने के लिए, लोकल ComfyUI का इस्तेमाल करता है. इसके बाद, बनाए गए आर्टफ़ैक्ट को YouTube के साथ काम करने वाले वीडियो में जोड़ दिया जाता है. साथ ही, YouTube API का इस्तेमाल करके, वीडियो को YouTube पर अपने-आप अपलोड कर दिया जाता है. टाइटल, ब्यौरा, टैग वगैरह जैसे मेटाडेटा की जानकारी भी अपने-आप भर जाती है.
इसे बेहतर बनाने के लिए, मैंने Gemini एलएलएम के लिए प्रॉम्प्ट की चेन का इस्तेमाल करने का फ़ैसला लिया. इस तरीके से, कॉन्टेंट को बेहतर तरीके से कंट्रोल किया जा सकता है. साथ ही, जवाबों को ज़्यादा दिलचस्प और समझने में आसान बनाया जा सकता है. मैंने सभी अनुरोधों के लिए JSON फ़ॉर्मैट (और ज़रूरी फ़ील्ड की पुष्टि) का इस्तेमाल करने का फ़ैसला किया है, ताकि यह पक्का किया जा सके कि मॉडल ज़रूरी शर्तों को सही तरीके से समझे और सही फ़ॉर्मैट में जवाब दे.
स्थानीय और ओपन सोर्स TortoiseTTS इंस्टॉलेशन को पैसे चुकाकर इस्तेमाल किए जाने वाले Google TTS API से बदलने पर, ऑडियो की क्वालिटी बेहतर होगी और प्रोसेसिंग में लगने वाला समय कम होगा.
इनकी मदद से बनाया गया
- वेब/Chrome
- YouTube API
टीम
इन्होंने बदलाव किया है
पावेल स्प्ट
इन्होंने भेजा
पोलैंड