Эта страница переведена с помощью Cloud Translation API.

Понимание документа

API Gemini поддерживает ввод PDF, включая длинные документы (до 1000 страниц). Модели Gemini обрабатывают PDF-файлы с помощью собственного зрения и, следовательно, способны понимать как текстовое, так и графическое содержимое внутри документов. Благодаря собственной поддержке PDF-зрения модели Gemini способны:

Анализируйте диаграммы, графики и таблицы внутри документов
Извлечение информации в структурированные выходные форматы
Ответьте на вопросы о визуальном и текстовом содержании документов
Обобщение документов
Транскрибировать содержимое документа (например, в HTML) с сохранением макетов и форматирования для использования в последующих приложениях

В этом руководстве демонстрируются некоторые возможные способы использования API Gemini для обработки PDF-документов.

Технические подробности

Gemini поддерживает максимум 1000 страниц документа. Страницы документа должны быть в одном из следующих типов текстовых данных MIME:

PDF - application/pdf
JavaScript - application/x-javascript , text/javascript
Python - application/x-python , text/x-python
TXT - text/plain
HTML - text/html
CSS - text/css
Markdown - text/md
CSV - text/csv
XML - text/xml
RTF - text/rtf

Каждая страница документа эквивалентна 258 токенам.

Хотя нет никаких конкретных ограничений на количество пикселей в документе, помимо контекстного окна модели, более крупные страницы уменьшаются до максимального разрешения 3072x3072 с сохранением исходного соотношения сторон, в то время как более мелкие страницы увеличиваются до 768x768 пикселей. Для страниц меньших размеров нет никакого снижения стоимости, кроме пропускной способности или улучшения производительности для страниц с более высоким разрешением.

Для достижения наилучших результатов:

Перед загрузкой поверните страницы в правильном направлении.
Избегайте размытых страниц.
При использовании одной страницы разместите текстовую подсказку после страницы.

Что дальше?

Чтобы узнать больше, ознакомьтесь со следующими ресурсами:

Стратегии подсказок файлов : API Gemini поддерживает подсказки с текстом, изображениями, аудио- и видеоданными, также известные как мультимодальные подсказки.
Системные инструкции : Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.