Изучите возможности машинного зрения с помощью Gemini API

Gemini API способен обрабатывать изображения и видео, что открывает множество интересных вариантов использования разработчиками. Некоторые из возможностей зрения Близнецов включают в себя способность:

  • Подпишите и ответьте на вопросы об изображениях
  • Транскрибируйте и анализируйте PDF-файлы, включая длинные документы, контекстное окно размером до 2 миллионов токенов.
  • Описывать, сегментировать и извлекать информацию из видео, включая визуальные кадры и аудио, продолжительностью до 90 минут.
  • Обнаруживайте объекты на изображении и возвращайте для них координаты ограничивающей рамки.

В этом руководстве демонстрируются некоторые возможные способы запроса API Gemini с помощью изображений и видеоввода, приводятся примеры кода и описываются лучшие практики использования возможностей мультимодального машинного зрения. Весь вывод является только текстовым.

Что дальше

В этом руководстве показано, как загружать изображения и видеофайлы с помощью API файла, а затем генерировать текстовые выходы с изображения и видео входов. Чтобы узнать больше, см. Следующие ресурсы:

  • Стратегии подсказки файлов : API Gemini поддерживает подсказку с помощью текста, изображений, аудио и видеодантеров, также известных как мультимодальная подсказка.
  • Системные инструкции : Системные инструкции позволяют вам управлять поведением модели на основе ваших конкретных потребностей и вариантов использования.
  • Руководство по безопасности : иногда генеративные модели ИИ производят неожиданные результаты, такие как неточные результаты, смещенные или оскорбительные. Пост-обработка и оценка человека необходимы для ограничения риска вреда от таких результатов.