Модели Gemini способны обрабатывать изображения и видео, что позволяет использовать их во многих передовых разработчиках, для которых исторически требовались модели, специфичные для предметной области. Некоторые из возможностей зрения Близнецов включают в себя способность:
- Подписывайтесь и отвечайте на вопросы об изображениях
- Транскрибируйте и анализируйте PDF-файлы, включая до 2 миллионов токенов
- Описывать, сегментировать и извлекать информацию из видеороликов продолжительностью до 90 минут.
- Обнаруживайте объекты на изображении и возвращайте для них координаты ограничивающей рамки.
Gemini с самого начала создавался как мультимодальный, и мы продолжаем расширять границы возможного.
Что дальше
В этом руководстве показано, как загружать изображения и видеофайлы с помощью API файла, а затем генерировать текстовые выходы с изображения и видео входов. Чтобы узнать больше, см. Следующие ресурсы:
- Стратегии подсказки файлов : API Gemini поддерживает подсказку с помощью текста, изображений, аудио и видеодантеров, также известных как мультимодальная подсказка.
- Системные инструкции : Системные инструкции позволяют вам управлять поведением модели на основе ваших конкретных потребностей и вариантов использования.
- Руководство по безопасности : иногда генеративные модели ИИ производят неожиданные результаты, такие как неточные результаты, смещенные или оскорбительные. Пост-обработка и оценка человека необходимы для ограничения риска вреда от таких результатов.
Модели Близнецов способны обрабатывать изображения и видео, что позволяет многим вариантам использования разработчиков, которые исторически требуют доменных моделей. Некоторые из возможностей видения Близнецов включают в себя способность:
- Подпись и ответьте на вопросы об изображениях
- Транскрибировать и разум над PDFS, в том числе до 2 миллионов токенов
- Описать, сегмент и извлечь информацию из видео до 90 минут
- Обнаружение объектов в изображении и возвращайте координаты рамки для них
Близнецы были построены, чтобы быть мультимодальными с нуля, и мы продолжаем толкать границу того, что возможно.
Что дальше
This guide shows how to upload image and video files using the File API and then generate text outputs from image and video inputs. To learn more, see the following resources:
- File prompting strategies : The Gemini API supports prompting with text, image, audio, and video data, also known as multimodal prompting.
- System instructions : System instructions let you steer the behavior of the model based on your specific needs and use cases.
- Safety guidance : Sometimes generative AI models produce unexpected outputs, such as outputs that are inaccurate, biased, or offensive. Post-processing and human evaluation are essential to limit the risk of harm from such outputs.