tesseract安装语言包
时间: 2025-07-01 14:12:04 浏览: 9
### 如何安装 Tesseract OCR 的语言包
为了支持多种语言识别功能,Tesseract OCR 提供了多国语言的支持选项。以下是关于如何安装 Tesseract OCR 语言包的具体方法:
在 Linux 环境下,可以通过 `apt` 或其他包管理工具来安装所需的语言包。例如,在 Ubuntu 系统中,可以使用以下命令安装简体中文语言包[^3]。
```bash
sudo apt update
sudo apt install tesseract-ocr-chi-sim
```
上述命令会自动下载并安装用于简体中文的 Tesseract OCR 语言数据文件。如果需要安装其他语言包,则可以根据具体需求替换 `-chi-sim` 参数为对应的语言代码。例如,对于繁体中文,可以运行如下命令:
```bash
sudo apt install tesseract-ocr-chi-tra
```
完成语言包的安装后,建议验证其是否成功加载到 Tesseract 中。通过执行以下命令测试已安装的语言列表:
```bash
tesseract --list-langs
```
该命令将返回当前系统中可用的所有语言名称。如果有新安装的语言未显示在此列表中,请重新检查环境变量配置或尝试重启终端窗口后再试[^1]。
此外,在 Windows 和 macOS 平台上也可以找到相应的语言包资源,并按照官方文档中的说明手动解压至指定路径[^2]。
#### Python 使用 Pytesseract 调用特定语言模型
当利用 Python 库 `pytesseract` 进行文字提取时,可通过参数传递目标语言代号给函数调用来实现不同语种的文字解析操作。下面是一个简单的例子展示如何读取图片内的汉字内容:
```python
import pytesseract
from PIL import Image
# 设置 tessdata_dir_config 来指向自定义的数据目录 (仅需必要情况下修改默认位置)
custom_oem_psm_config = r'--oem 3 --psm 6 -l chi_sim'
image_path = 'example_chinese_image.png'
text = pytesseract.image_to_string(Image.open(image_path), config=custom_oem_psm_config)
print(text)
```
以上脚本设置了 `-l chi_sim` 参数指明要处理的是简化版中文字符集。
---
阅读全文
相关推荐

















