tesseract中文语言包下载
时间: 2025-07-01 12:22:54 浏览: 13
### 下载并安装 Tesseract OCR 的中文语言包
#### 1. 下载 Tesseract OCR 安装包及中文语言包
可以从以下地址下载 Tesseract OCR 的安装包和中文语言包[^1]。项目地址为:https://gitcode.com/open-source-toolkit/d2e51。此外,也可以从官方仓库下载简体中文语言包[^2]。
下载完成后,请确保语言包文件的版本与 Tesseract OCR 的版本兼容。如果不确定兼容性,可以在仓库中提出 Issue 获取帮助。
---
#### 2. 安装 Tesseract OCR
将下载的 Tesseract OCR 安装包进行解压或安装。通常情况下,Tesseract OCR 的安装目录会包含一个名为 `tessdata` 的文件夹,该文件夹用于存放语言包文件。
---
#### 3. 配置中文语言包
将下载的简体中文语言包文件(如 `chi_sim.traineddata`)放置在 Tesseract OCR 的 `tessdata` 目录中[^3]。例如,如果 Tesseract OCR 安装在 `E:\ENSPACE\Tesseract-OCR`,则需要将语言包文件复制到 `E:\ENSPACE\Tesseract-OCR\tessdata`。
---
#### 4. 验证语言包安装
打开命令行工具(CMD),运行以下命令以验证语言包是否成功安装:
```bash
tesseract --list-langs
```
如果安装成功,输出结果中应包含 `chi_sim`(简体中文)或 `chi_tra`(繁体中文)[^3]。
---
#### 5. 使用 Python 调用 Tesseract OCR
可以使用 Python 的 `pytesseract` 库调用 Tesseract OCR 进行中文文本识别。以下是一个简单的代码示例:
```python
from PIL import Image
import pytesseract
# 打开图片文件
file = 'chmsg.png'
image = Image.open(file)
# 使用 Tesseract OCR 识别图片中的中文文本
str_result = pytesseract.image_to_string(image, lang="chi_sim")
print(str_result)
```
---
#### 注意事项
- 确保 Tesseract OCR 已正确安装,并且路径已添加到系统环境变量中。
- 如果需要支持繁体中文,可以下载对应的 `chi_tra.traineddata` 文件。
- 在训练自定义语言包时,需确保基础语言包是最新的[^4]。
---
阅读全文
相关推荐


















