Понимание документа

API Gemini поддерживает ввод PDF, включая длинные документы (до 1000 страниц). Модели Gemini обрабатывают PDF-файлы с помощью собственного зрения и, следовательно, способны понимать как текстовое, так и графическое содержимое внутри документов. Благодаря собственной поддержке PDF-зрения модели Gemini способны:

  • Анализируйте диаграммы, графики и таблицы внутри документов
  • Извлечение информации в структурированные выходные форматы
  • Ответьте на вопросы о визуальном и текстовом содержании документов
  • Обобщение документов
  • Транскрибировать содержимое документа (например, в HTML) с сохранением макетов и форматирования для использования в последующих приложениях

В этом руководстве демонстрируются некоторые возможные способы использования API Gemini для обработки PDF-документов.

Технические подробности

Gemini поддерживает максимум 1000 страниц документа. Страницы документа должны быть в одном из следующих типов текстовых данных MIME:

  • PDF - application/pdf
  • JavaScript - application/x-javascript , text/javascript
  • Python - application/x-python , text/x-python
  • TXT - text/plain
  • HTML - text/html
  • CSS - text/css
  • Markdown - text/md
  • CSV - text/csv
  • XML - text/xml
  • RTF - text/rtf

Каждая страница документа эквивалентна 258 токенам.

Хотя нет никаких конкретных ограничений на количество пикселей в документе, помимо контекстного окна модели, более крупные страницы уменьшаются до максимального разрешения 3072x3072 с сохранением исходного соотношения сторон, в то время как более мелкие страницы увеличиваются до 768x768 пикселей. Для страниц меньших размеров нет никакого снижения стоимости, кроме пропускной способности или улучшения производительности для страниц с более высоким разрешением.

Для достижения наилучших результатов:

  • Перед загрузкой поверните страницы в правильном направлении.
  • Избегайте размытых страниц.
  • При использовании одной страницы разместите текстовую подсказку после страницы.

Что дальше?

Чтобы узнать больше, ознакомьтесь со следующими ресурсами:

  • Стратегии подсказок файлов : API Gemini поддерживает подсказки с текстом, изображениями, аудио- и видеоданными, также известные как мультимодальные подсказки.
  • Системные инструкции : Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.