পোমো
যেকোন কিছুকে নৃতাত্ত্বিক রূপ দিন - আপনার পোষা প্রাণী, পেইন্টিং এবং আরও অনেক কিছুর সাথে কথা বলুন
এটা কি করে
আমরা Google Project Astra পণ্যের ডেমো দ্বারা অনুপ্রাণিত হয়েছিলাম কিন্তু নতুন এবং মজাদার ব্যবহারের ক্ষেত্রে চেষ্টা করার জন্য সিস্টেম প্রম্পট পরিবর্তন করতে চেয়েছিলাম। দুর্ভাগ্যবশত, Astra এখনও প্রকাশ করা হয়নি বা এটিতে সিস্টেম প্রম্পট ম্যানিপুলেশন সহ একটি API থাকবে না তাই আমরা আমাদের নিজস্ব ওপেন সোর্স সংস্করণ তৈরি করার জন্য প্রস্তুত হয়েছি।
একটি প্রারম্ভিক ব্যবহারের ক্ষেত্রে আমরা ব্যবহারকারীদের তাদের চারপাশের সাথে নতুন এবং বিনোদনমূলক উপায়ে ইন্টারঅ্যাক্ট করার অনুমতি দেওয়ার জন্য AI মডেলের একটি সিরিজ ব্যবহার করি! বিশেষ করে, তারা তাদের পোষা কুকুর/বিড়াল থেকে শুরু করে দেয়ালে আঁকা ছবি থেকে শুরু করে তাদের কফি পান করা পর্যন্ত যেকোনো কিছুকে নৃতাত্ত্বিক রূপ দিতে পারে। ব্যবহারকারী এমন একটি বস্তুতে ক্লিক করেন যা আমরা টেনসরফ্লো মডেল ব্যবহার করে একটি মাস্ক তৈরি করি এবং পটভূমি সহ বস্তুটির কাটআউট দুটি ছবি হিসেবে জেমিনি ফ্ল্যাশে পাঠাই (https://ai.google.dev/edge/mediapipe/solutions/vision/interactive_segmenter দেখুন)। মিথুন বস্তুটিকে শনাক্ত করে এবং আমরা একটি নতুন জেমিনি স্ট্রিম চ্যাট শুরু করি যেখানে সিস্টেম প্রম্পট জেমিনিকে তার নতুন ভূমিকা সম্পর্কে জানায় (যেমন দেয়ালে পেইন্টিং)। ব্যবহারকারী তখন এই নতুন নৃতাত্ত্বিক বস্তু/প্রাণীর সাথে কথোপকথন করতে পারে।
ব্যবহারকারী কখন কথা বলছে তা শনাক্ত করতে আমরা ভয়েস-অ্যাক্টিভিটি-ডিটেকশন (VAD) ব্যবহার করি এবং 1.3 সেকেন্ড নীরবতার পরে, আমরা কথোপকথন চালিয়ে যেতে অডিও সহ তাদের ক্যামেরার সর্বশেষ স্ক্রিন ক্যাপচার পাঠাই। যখন জেমিনি সাড়া দেয়, তখন ইলেভেনল্যাব টেক্সট-টু-স্পীচ স্ট্রিমিং API ব্যবহার করে পাঠ্যটিকে স্পিচে রূপান্তর করা হয়। Google ইমেজ সেগমেন্টার, অপটিক্যাল ফ্লো, জেমিনি ফ্ল্যাশ (দুইবার), VAD এবং টেক্সট-টু-স্পীচের মধ্যে, আমরা আমাদের পাইপলাইনে 6টি AI মডেল ব্যবহার করি।
- স্যাম ও টিম
দিয়ে নির্মিত
- ওয়েব/ক্রোম
- Google দ্বারা ইন্টারেক্টিভ সেগমেন্টার
দল
দ্বারা
পোমো
থেকে
মার্কিন যুক্তরাষ্ট্র