Пикстейл
От фотографий с путешествий до озвученных видеороликов за считанные минуты с помощью магии искусственного интеллекта Gemini.
Что он делает
Pixtale — это приложение на базе искусственного интеллекта, которое преобразует ваши фотографии и видео из путешествий в озвученные видеоистории. Вот как это работает:
1. Загрузка: пользователи загружают zip-файл с материалами поездки или выбирают альбом Google Photos.
2. Извлечение метаданных: приложение извлекает дату, время и данные GPS из медиафайлов.
3. Генерация описаний ИИ: вот где Gemini API проявляет себя во всей красе:
- Gemini Flash генерирует описания для отдельных фотографий и видео.
- Gemini 1.5 Pro принимает эти описания в качестве входных данных и создает связный повествовательный сценарий, сцена за сценой.
4. Аудиокомментарий: API-интерфейс Google Text-to-Speech преобразует текст в аудио.
5. Создание видео: FFmpeg объединяет закадровый текст с исходным медиафайлом для создания финального видео.
6. Контент для социальных сетей: Pixtale идет дальше, создавая:
- Подписи и хэштеги для обмена
- Мини-запись в блоге с подведением итогов поездки (также с использованием Gemini 1.5 Pro)
7. Пользовательская настройка: пользователи могут редактировать данные о местоположении для каждой сцены с помощью API Google Карт.
Pixtale использует способность Gemini интерпретировать визуальные данные, понимать контекст, генерировать связный и увлекательный контент и создавать истории, которые кажутся личными и аутентичными. Этот подход на основе ИИ позволяет быстро создавать насыщенные мультимедийные истории о путешествиях, которые вручную потребовали бы много времени.
Построено с
- API библиотеки Google Фото
- API Карт Google
Команда
К
Пикстейл
От
Соединенные Штаты