Изучите возможности машинного зрения с помощью Gemini API

Модели Gemini способны обрабатывать изображения и видео, что позволяет использовать их во многих передовых разработчиках, для которых исторически требовались модели, специфичные для предметной области. Некоторые из возможностей зрения Близнецов включают в себя способность:

  • Подписывайтесь и отвечайте на вопросы об изображениях
  • Транскрибируйте и анализируйте PDF-файлы, включая до 2 миллионов токенов
  • Описывать, сегментировать и извлекать информацию из видеороликов продолжительностью до 90 минут.
  • Обнаруживайте объекты на изображении и возвращайте для них координаты ограничивающей рамки.

Gemini с самого начала создавался как мультимодальный, и мы продолжаем расширять границы возможного.

Что дальше

В этом руководстве показано, как загружать файлы изображений и видео с помощью File API, а затем генерировать текстовые выходные данные из входных изображений и видео. Чтобы узнать больше, посетите следующие ресурсы:

  • Стратегии запроса файлов . API Gemini поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы.
  • Системные инструкции . Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.
  • Рекомендации по безопасности . Иногда генеративные модели ИИ дают неожиданные результаты, например, неточные, предвзятые или оскорбительные. Постобработка и человеческая оценка необходимы для ограничения риска вреда от таких результатов.