Blind Companion

시각장애 사용자를 위한 보조 음성 기술

기능

애플리케이션은 사용자의 음성 명령을 통해 음성 신호를 수신하고 Google Gemini API를 사용하여 이를 분석하여 이러한 음성 명령을 작업으로 변환합니다. 이러한 명령어는 다를 수 있습니다. 특정 애플리케이션을 열고 인터넷에서 특정 웹사이트를 탐색하는 명령어일 수 있습니다. 애플리케이션이 이러한 모든 복잡한 작업을 효율적으로 처리할 수 있음을 확인합니다. 사양으로 넘어가면 음성을 캡처하여 텍스트로 변환하는 고급 음성 인식 기술을 통합한 다음 그 반대의 프로세스를 실행하는 텍스트 음성 변환 기술을 통합하여 사용자가 키보드를 사용하지 않고도 편안한 환경을 누릴 수 있도록 합니다. 애플리케이션은 Google Gemini API를 사용하여 빠르고 정확한 응답을 제공하여 사용자 환경을 개선할 수 있습니다. 이제 아이디어를 구현하기 위해 어떤 단계를 거쳤는지 설명해 보겠습니다. 아이디어를 생각해낸 후에는 사용할 도구를 생각해 보고 프로젝트를 구현하기 시작했습니다. 그 후 적용 작업을 시작했습니다. 첫 번째 문제는 Python 프로그램을 다운로드하는 데 문제가 있었습니다. 조사한 결과 Google을 통해 이 문제의 해결 방법을 찾았습니다. 온라인의 여러 라이브러리를 통해 수집한 코드입니다. 각 라이브러리의 코드는 특정 기능을 실행합니다. 터미널을 열고 몇 초 기다린 후 '열기'라고 말하면 프로그램이 열립니다.

구성용 제품

  • 음성 인식
  • 텍스트 음성 변환 - TTS

작성자:

월드 어시스턴트

From

이집트