Niewidomy pomocnik | Gemini API Developer Competition

Ta strona została przetłumaczona przez Cloud Translation API.

Technologia wspomagająca osoby niewidzące

Działanie

Aplikacja otrzymuje sygnały dźwiękowe za pomocą poleceń głosowych użytkownika i analizuje je za pomocą interfejsu Google Gemini API, aby przekształcać te polecenia w działania. Te polecenia mogą się różnić. Mogą to być polecenia otwierania określonej aplikacji i przeglądania konkretnej strony internetowej. Potwierdzam, że aplikacja może sprawnie wykonywać wszystkie te złożone zadania. Wracając do specyfikacji, jest to możliwe dzięki integracji zaawansowanej technologii rozpoznawania mowy, która rejestruje głos i przekształca go w tekst, a następnie integruje technologię syntezy mowy, która wykonuje odwrotny proces. Dzięki temu użytkownicy mogą wygodnie korzystać z urządzenia bez konieczności używania klawiatury. Dzięki interfejsowi Google Gemini API aplikacja może udzielać szybkich i dokładnych odpowiedzi, co poprawia wrażenia użytkownika. Teraz czas wyjaśnić, jakie kroki wykonałem, aby wdrożyć tę koncepcję. Po wymyśleniu pomysłu zaczęłam rozważać, jakich narzędzi użyję, a potem przystąpiłam do wdrażania projektu. Następnie zacząłem stosować tę metodę w praktyce. Pierwszym problemem, z którym się spotkałem, było pobieranie programu Python. Po przeanalizowaniu problemu znalazłem w Google jego rozwiązanie. To kod, który zebrałem z różnych bibliotek online. Kod każdej biblioteki pełni określoną funkcję. Po otwarciu terminala i odczekaniu kilku sekund powiemy „Otwórz”, a program się otworzy.

Utworzone za pomocą

Rozpoznawanie mowy
Zamiana tekstu na mowę (TTS)

Zespół

Autor:

Asystenci na świecie

Egipt

Blind Companion