Изучите возможности машинного зрения с помощью Gemini API

Gemini API может выполнять логические выводы для изображений и видео, переданных ему. При передаче изображения, серии изображений или видео Gemini может:

  • Опишите или ответьте на вопросы о содержании
  • Обобщить содержание
  • Экстраполируйте из содержания

В этом руководстве демонстрируются некоторые возможные способы вызова API Gemini с помощью изображений и видеовхода. Весь вывод является только текстовым.

Что дальше

В этом руководстве показано, как использовать generateContent и генерировать текстовые выходные данные из входных изображений и видео. Чтобы узнать больше, посетите следующие ресурсы:

  • Запросы с помощью медиафайлов . Gemini API поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы.
  • Системные инструкции . Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.
  • Рекомендации по безопасности . Иногда генеративные модели искусственного интеллекта дают неожиданные результаты, например, неточные, предвзятые или оскорбительные. Постобработка и человеческая оценка необходимы для ограничения риска вреда от таких результатов.