Compañero ciego | Gemini API Developer Competition

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Tecnología de voz de accesibilidad para usuarios ciegos

Qué hace

La aplicación recibe indicadores de sonido a través de los comandos por voz del usuario y los analiza con la API de Google Gemini para convertirlos en acciones. Estos comandos pueden variar. Pueden ser comandos para abrir una aplicación específica y navegar por un sitio web específico en Internet. Confirmo que la aplicación puede controlar todas estas tareas complejas de manera eficiente. En cuanto a las especificaciones, se logra mediante la integración de una tecnología avanzada de reconocimiento de voz para capturar la voz y convertirla en texto, y luego integrar la tecnología de texto a voz que realiza el proceso opuesto, lo que permite a los usuarios tener una experiencia cómoda sin necesidad de usar un teclado. Con la API de Google Gemini, la aplicación puede proporcionar respuestas rápidas y precisas, lo que mejora la experiencia del usuario. Ahora es momento de explicar los pasos que seguí para implementar la idea. Después de tener la idea, comencé a pensar en las herramientas que probablemente usaría y, luego, a implementar el proyecto. Después, comencé a trabajar en la aplicación. El primer problema que tuve fue que no pude descargar el programa Python. Después de investigar un poco, encontré una solución a este problema a través de Google. Este es el código que recopilé a través de diferentes bibliotecas en línea. El código de cada biblioteca realiza una función específica. Después de abrir la terminal y esperar unos segundos, diremos la palabra “Abrir” y se abrirá el programa.

Con la tecnología de

Reconocimiento de voz
Text-to-Speech - TTS

Equipo

World Assistants

Egipto

Blind Companion