Compagnon aveugle | Gemini API Developer Competition

Cette page a été traduite par l'API Cloud Translation.

Technologie vocale d'assistance pour les utilisateurs non voyants

Description

L'application reçoit des signaux sonores via les commandes vocales de l'utilisateur et les analyse à l'aide de l'API Google Gemini pour les convertir en actions. Ces commandes peuvent varier. Il peut s'agir de commandes permettant d'ouvrir une application spécifique et de parcourir un site Web spécifique sur Internet. Je confirme que l'application peut gérer efficacement toutes ces tâches complexes. Pour en revenir aux spécifications, cela est obtenu en intégrant une technologie de reconnaissance vocale avancée pour capturer la voix et la convertir en texte, puis en intégrant une technologie de synthèse vocale qui effectue le processus inverse, ce qui permet aux utilisateurs de profiter d'une expérience confortable sans avoir à utiliser de clavier. Grâce à l'API Google Gemini, l'application peut fournir des réponses rapides et précises, ce qui améliore l'expérience utilisateur. Il est maintenant temps d'expliquer les étapes que j'ai suivies pour mettre en œuvre cette idée. Après avoir eu l'idée, j'ai commencé à réfléchir aux outils que j'allais probablement utiliser, puis j'ai commencé à mettre en œuvre le projet. Ensuite, j'ai commencé à travailler sur l'application. Le premier problème que j'ai rencontré était le téléchargement du programme Python. Après quelques recherches, j'ai trouvé une solution à ce problème sur Google. Voici le code que j'ai collecté via différentes bibliothèques en ligne. Le code de chaque bibliothèque effectue une fonction spécifique. Après avoir ouvert le terminal et attendu quelques secondes, nous allons dire "Ouvrir", et le programme s'ouvrira.

Conçu avec

Reconnaissance vocale
Synthèse vocale (TTS)

Équipe

Par

World Assistants

Égypte

Blind Companion