Companheiro cego | Gemini API Developer Competition

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Tecnologia de voz adaptativa para usuários cegos

O que faz?

O aplicativo recebe sinais de som pelos comandos de voz do usuário e os analisa usando a API Google Gemini para converter esses comandos em ações. Esses comandos podem variar. Eles podem ser comandos para abrir um aplicativo específico e navegar em um site específico na Internet. Confirmo que o aplicativo pode lidar com todas essas tarefas complexas de maneira eficiente. Quanto às especificações, elas são alcançadas pela integração de uma tecnologia avançada de reconhecimento de voz para capturar a voz e convertê-la em texto, além de integrar a tecnologia de texto para fala que faz o processo oposto, o que permite que os usuários tenham uma experiência confortável sem precisar usar um teclado. Com a API Google Gemini, o app pode oferecer respostas rápidas e precisas, o que melhora a experiência do usuário. Agora, é hora de explicar quais são as etapas que segui para implementar a ideia. Depois de ter a ideia, comecei a pensar nas ferramentas que provavelmente usaria e comecei a implementar o projeto. Depois disso, comecei a trabalhar na aplicação dele. O primeiro problema que enfrentei foi o download do programa Python. Depois de pesquisar um pouco, encontrei uma solução para esse problema no Google. Este é o código que coletei em diferentes bibliotecas on-line. O código de cada biblioteca executa uma função específica. Depois de abrir o terminal e esperar alguns segundos, vamos dizer a palavra "Abrir", e o programa vai abrir.

Desenvolvido com

Reconhecimento de fala
Text-to-Speech - TTS

Equipe

Por

Assistentes do mundo

Egito

Blind Companion