Anuj Sharma

Asystent głosowy, który widzi świat

Działanie

Uwielbiam interfejs API od Google (Gemini), ponieważ daje on świetne wyniki. Chcę stworzyć mały projekt z pomocą interfejsu Gemini API.
Tworzę aplikację w języku Python lub rodzaj oprogramowania z wizją stworzenia singularity AI lub asystenta głosowego. Obecnie istnieje wiele kodów lub projektów, w których asystenci głosowi przyjmują polecenia głosowe i zwracają wynik w formie głosowej, ale nie są w stanie zobaczyć naszego zapytania w postaci obrazu. Dlatego stworzyłem ten projekt z pomocą interfejsu Gemini API (pro i vision pro). Teraz mój asystent głosowy może też otrzymać dane wejściowe w postaci obrazu i odpowiedź w formie tekstu, a także głosu.

Utworzone za pomocą

  • Brak
  • Firebase

Zespół

Autor:

Kritrim

Od

Indie