Изучите возможности обработки документов с помощью Gemini API

API Gemini поддерживает ввод PDF-файлов, включая длинные документы (до 3600 страниц). Модели Gemini обрабатывают PDF-файлы с использованием встроенного видения и поэтому способны понимать как текстовое, так и графическое содержимое внутри документов. Благодаря встроенной поддержке PDF-файлов модели Gemini могут:

  • Анализируйте диаграммы, диаграммы и таблицы внутри документов.
  • Извлекайте информацию в структурированные выходные форматы.
  • Отвечать на вопросы о визуальном и текстовом содержимом документов.
  • Обобщить документы.
  • Транскрибируйте содержимое документа (например, в HTML), сохраняя макеты и форматирование, для использования в последующих приложениях (например, в конвейерах RAG).

В этом руководстве демонстрируются некоторые возможные способы использования API Gemini с документами PDF. Весь вывод является только текстовым.

Что дальше

В этом руководстве показано, как generateContent и генерировать выходные данные из обработанных документов. Чтобы узнать больше, посетите следующие ресурсы:

  • Стратегии запроса файлов . API Gemini поддерживает запросы с текстовыми, графическими, аудио- и видеоданными, также известные как мультимодальные запросы.
  • Системные инструкции . Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.
  • Рекомендации по безопасности . Иногда генеративные модели искусственного интеллекта дают неожиданные результаты, например, неточные, предвзятые или оскорбительные. Постобработка и человеческая оценка необходимы для ограничения риска вреда от таких результатов.