เพื่อนตาบอด | Gemini API Developer Competition

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

เทคโนโลยีเสียงความช่วยเหลือพิเศษสำหรับผู้พิการทางสายตา

การทำงาน

แอปพลิเคชันจะรับสัญญาณเสียงผ่านคำสั่งเสียงของผู้ใช้และวิเคราะห์โดยใช้ Google Gemini API เพื่อแปลงคำสั่งเสียงเหล่านี้เป็นการดําเนินการ โดยคำสั่งเหล่านี้อาจแตกต่างกันไป คำสั่งเหล่านี้อาจเป็นคำสั่งให้เปิดแอปพลิเคชันหนึ่งๆ และเรียกดูเว็บไซต์หนึ่งๆ ในอินเทอร์เน็ต ฉันยืนยันว่าแอปพลิเคชันสามารถจัดการงานที่ซับซ้อนทั้งหมดเหล่านี้ได้อย่างมีประสิทธิภาพ มาดูข้อกำหนดกัน ฟีเจอร์นี้ทำงานโดยการผสานรวมเทคโนโลยีการจดจำเสียงขั้นสูงเพื่อบันทึกเสียงและแปลงเป็นข้อความ จากนั้นผสานรวมเทคโนโลยีการแปลงข้อความเป็นเสียงที่ทำงานในกระบวนการตรงข้าม ซึ่งช่วยให้ผู้ใช้ได้รับประสบการณ์การใช้งานที่สะดวกสบายโดยไม่ต้องใช้แป้นพิมพ์ การใช้ Google Gemini API ช่วยให้แอปพลิเคชันสามารถตอบกลับได้อย่างรวดเร็วและถูกต้อง ซึ่งช่วยปรับปรุงประสบการณ์ของผู้ใช้ ตอนนี้ถึงเวลาอธิบายขั้นตอนที่เราทำเพื่อนำแนวคิดนี้ไปใช้ หลังจากคิดไอเดียได้แล้ว ฉันก็เริ่มคิดถึงเครื่องมือที่น่าจะใช้ได้ แล้วจึงเริ่มใช้งานโปรเจ็กต์ หลังจากนั้นก็เริ่มทํางานเกี่ยวกับการใช้งาน ปัญหาแรกที่ฉันพบคือมีปัญหาในการดาวน์โหลดโปรแกรม Python หลังจากการค้นคว้าบางอย่าง เราพบวิธีแก้ปัญหานี้ผ่าน Google นี่คือโค้ดที่เรารวบรวมมาจากไลบรารีต่างๆ ทางออนไลน์ โค้ดของไลบรารีแต่ละรายการจะทําหน้าที่หนึ่งๆ หลังจากเปิดเทอร์มินัลและรอ 2-3 วินาที เราจะพูดคำว่า "เปิด" แล้วโปรแกรมจะเปิดขึ้น

สร้างขึ้นด้วย

การจดจำคำพูด
การอ่านออกเสียงข้อความ - TTS

ทีม

โดย

World Assistants

จาก

อียิปต์

Blind Companion