tesseract ocr库下载
时间: 2025-05-17 14:25:27 浏览: 24
### 下载并安装 Tesseract OCR 的方法
#### 安装前准备
为了成功运行 Tesseract OCR,需先确认操作系统环境以及依赖项。以下是针对不同操作系统的具体安装步骤。
#### Windows 平台下的安装过程
1. **下载预编译的二进制文件**
访问官方 GitHub Releases 页面获取最新的稳定版 Tesseract OCR 预编译包[^2]。链接如下:
```
https://github.com/tesseract-ocr/tesseract/releases
```
2. **解压安装程序**
将下载好的 `.exe` 文件执行后完成安装,并记录下安装目录的位置。例如,默认路径可能为 `C:\Program Files\Tesseract-OCR`.
3. **配置系统环境变量**
设置名为 `TESSDATA_PREFIX` 的环境变量,其值应指向 tessdata 路径。例如,在默认情况下设置为:
```plaintext
C:\Program Files\Tesseract-OCR\tessdata
```
此外还需将 Tesseract 主目录加入到 PATH 环境变量中以便命令行调用[^3]。
4. **验证安装**
打开命令提示符输入以下指令来测试是否正常工作:
```bash
tesseract --version
```
#### Linux/MacOS 平台上的安装方式
对于基于 Unix 的系统可以利用包管理器简化流程:
##### Ubuntu/Linux Mint 用户
通过 APT 包管理工具快速部署:
```bash
sudo apt update && sudo apt install -y tesseract-ocr
```
如果需要额外的语言支持,则单独安装对应的数据包比如中文 (chi_sim):
```bash
sudo apt-get install tesseract-ocr-chi-sim
```
##### macOS 使用 Homebrew 方法
Homebrew 是 Mac 上常用的软件包管理者之一,借助它可以轻松实现自动化构建与维护。
```bash
brew install tesseract
```
#### 自定义语言数据加载
除了基础英文识别能力之外,还可以扩展其他语种的支持功能。前往下面这个网址寻找所需资源文件夹内的 lang.traineddata 文件进行本地化适配[^1]:
```
https://gitcode.com/Resource-Bundle-Collection/b88e3
```
将其复制至先前指定过的 tessdata 子目录之下即可生效。
```python
import pytesseract
from PIL import Image
# 加载图片对象
img = Image.open('example.jpg')
# 利用 Pytesseract 进行文字提取
text = pytesseract.image_to_string(img, lang='eng')
print(text)
```
阅读全文
相关推荐

















