API Gemini поддерживает ввод PDF, включая длинные документы (до 1000 страниц). Модели Gemini обрабатывают PDF-файлы с помощью собственного зрения и, следовательно, способны понимать как текстовое, так и графическое содержимое внутри документов. Благодаря собственной поддержке PDF-зрения модели Gemini способны:
- Анализируйте диаграммы, графики и таблицы внутри документов
- Извлечение информации в структурированные выходные форматы
- Ответьте на вопросы о визуальном и текстовом содержании документов
- Обобщение документов
- Транскрибировать содержимое документа (например, в HTML) с сохранением макетов и форматирования для использования в последующих приложениях
В этом руководстве демонстрируются некоторые возможные способы использования API Gemini для обработки PDF-документов.
Технические подробности
Gemini поддерживает максимум 1000 страниц документа. Страницы документа должны быть в одном из следующих типов текстовых данных MIME:
- PDF -
application/pdf
- JavaScript -
application/x-javascript
,text/javascript
- Python -
application/x-python
,text/x-python
- TXT -
text/plain
- HTML -
text/html
- CSS -
text/css
- Markdown -
text/md
- CSV -
text/csv
- XML -
text/xml
- RTF -
text/rtf
Каждая страница документа эквивалентна 258 токенам.
Хотя нет никаких конкретных ограничений на количество пикселей в документе, помимо контекстного окна модели, более крупные страницы уменьшаются до максимального разрешения 3072x3072 с сохранением исходного соотношения сторон, в то время как более мелкие страницы увеличиваются до 768x768 пикселей. Для страниц меньших размеров нет никакого снижения стоимости, кроме пропускной способности или улучшения производительности для страниц с более высоким разрешением.
Для достижения наилучших результатов:
- Перед загрузкой поверните страницы в правильном направлении.
- Избегайте размытых страниц.
- При использовании одной страницы разместите текстовую подсказку после страницы.
Что дальше?
Чтобы узнать больше, ознакомьтесь со следующими ресурсами:
- Стратегии подсказок файлов : API Gemini поддерживает подсказки с текстом, изображениями, аудио- и видеоданными, также известные как мультимодальные подсказки.
- Системные инструкции : Системные инструкции позволяют вам управлять поведением модели в зависимости от ваших конкретных потребностей и вариантов использования.