Anuj Sharma

ผู้ช่วยแบบเสียงที่มองเห็นโลกได้

การทำงาน

ฉันชอบ API ของ Google (Gemini) เนื่องจากให้ผลลัพธ์ที่สมบูรณ์และฉันต้องการสร้างโปรเจ็กต์ย่อยด้วยความช่วยเหลือของ Gemini API ดังนั้น
ฉันจึงสร้างแอปพลิเคชัน Python หรือซอฟต์แวร์ประเภทหนึ่งที่มีวิสัยทัศน์ในการสร้าง AI หรือผู้ช่วยเสียงแบบ Singularity ปัจจุบันมีโค้ดหรือโปรเจ็กต์จำนวนมากที่ผู้ช่วยเสียงใช้คำสั่งด้วยเสียงและแสดงผลลัพธ์ด้วยเสียง แต่ไม่สามารถดูคำค้นหาของเราในรูปแบบภาพได้ ดังนั้นฉันจึงสร้างโปรเจ็กต์ประเภทนี้ด้วยความช่วยเหลือของ Gemini API (Pro และ Vision Pro) ตอนนี้ผู้ช่วยเสียงของฉันสามารถรับอินพุตเป็นภาพและตอบกลับคำตอบเป็นข้อความและเสียงได้ด้วย

สร้างขึ้นด้วย

  • ไม่มี
  • Firebase

ทีม

โดย

Kritrim

จาก

อินเดีย