pytesseract怎么用
时间: 2025-01-24 09:05:25 浏览: 54
### Pytesseract 使用教程
#### 安装依赖库
为了使用 `pytesseract`,需要先安装 Tesseract OCR 引擎以及相应的 Python 包。可以通过以下命令完成安装:
对于 Windows 用户:
```bash
choco install tesseract
pip install pytesseract pillow
```
对于 Linux 用户:
```bash
sudo apt-get install tesseract-ocr
pip install pytesseract pillow
```
对于 macOS 用户:
```bash
brew install tesseract
pip install pytesseract pillow
```
#### 基本用法
下面是一段简单的代码示例,展示了如何利用 `pytesseract` 对图像执行光学字符识别 (OCR)[^1]。
```python
from PIL import Image
import pytesseract
image_path = 'example.png'
image = Image.open(image_path)
ocr_result = pytesseract.image_to_string(image)
print(ocr_result)
```
这段程序首先导入了所需的模块——PIL 用于处理图像文件,而 `pytesseract` 则负责调用底层的 Tesseract OCR 引擎来解析图像中的文本并将其转换成字符串形式输出[^2]。
#### 配置参数优化
有时默认设置可能无法获得最佳效果,在这种情况下可以调整一些配置选项以提高准确性。例如指定页面分割模式 (`--psm`) 参数可以帮助改善特定类型的输入材料的结果质量[^4]。
```python
mrz = pytesseract.image_to_string(img_mrz, config='--psm 12')
```
这里设置了 PSM 模式为 12,意味着假设输入图像是稀疏文本区域,这通常适用于机器可读区(MRZ)等场合。
#### 支持多种图片格式
值得注意的是,除了常见的 PNG 文件外,`pytesseract` 还能够很好地兼容其他几种主流图形格式,如 JPEG、GIF、BMP 及 TIFF 等[^3]。
阅读全文
相关推荐



















