Trợ lý thoại Gemini

Sử dụng Gemini theo cách điều khiển bằng giọng nói cho trợ lý cá nhân

Ý nghĩa

Đây là một trợ lý thoại dựa trên AI Gemini, có các tính năng chuyển văn bản sang lời nói và chuyển lời nói sang văn bản cục bộ, giúp kết nối các hoạt động tương tác bằng giọng nói và văn bản. API của Gemini rất giỏi trong việc hiểu ngữ cảnh và điều phối các lệnh cho nhiều tình huống. Bằng cách xây dựng ngữ cảnh và sử dụng các tính năng tích hợp API, Gemini có thể thực thi tập lệnh Python để thực hiện nhiều chức năng.
Trong ứng dụng này, người dùng có thể tương tác với trợ lý hoàn toàn thông qua giọng nói, cho phép thao tác rảnh tay và không cần nhìn. Điều này đặc biệt hữu ích trong những trường hợp giọng nói là phương tiện giao tiếp duy nhất. Trợ lý này có các chức năng như:

Nhận dạng nhiều loa
Lọc tạp âm giọng nói không xác định
Kiểm soát các thiết bị nhà thông minh
Bắt chước giọng nói của người dùng
Chuyển đổi giữa các giọng nói và tính cách khác nhau
Đọc và tóm tắt các bài báo tin tức
Tìm thông tin thời tiết và thông tin khác
Phát nhạc trên Spotify
Chụp và phân tích ảnh
Di chuyển theo đường liên kết thông qua Chrome
Lên lịch nhắc nhở bằng giọng nói hoặc một hành động chung

Trợ lý chạy Gemini có thiết kế linh hoạt và tập trung vào giọng nói, nhờ đó trở thành một công cụ mạnh mẽ cho nhiều ứng dụng rảnh tay và không cần nhìn, bao gồm cả ứng dụng giải trí trên ô tô, hướng dẫn đi bộ, quản lý nhà cửa, v.v.

Được tạo bằng

  • Web/Chrome

Nhóm

Người cập nhật

Zhenya Yang

Từ

Úc