mineru离线使用
时间: 2025-07-21 15:30:16 浏览: 9
MinerU 是一个用于将 PDF 文档转换为 Markdown 格式的工具,通常依赖于网络连接以获取模型文件和依赖库。然而,在没有网络连接的环境中(即离线环境),仍然可以通过提前准备好的依赖包和模型文件完成安装和使用。
### 离线安装步骤
1. **准备依赖包**
在有网络连接的机器上,创建一个目录用于存放 MinerU 所需的所有依赖包。可以通过以下命令收集依赖:
```bash
pip download -r requirements.txt
```
这将下载所有依赖包的 `.whl` 或 `.tar.gz` 文件,可以将这些文件复制到离线环境中进行本地安装。
2. **打包 MinerU 源码**
在有网络的环境中克隆 MinerU 的源码仓库,并将其打包以便在离线环境中使用:
```bash
git clone https://github.com/opendatalab/MinerU.git
tar -czvf MinerU.tar.gz MinerU
```
3. **复制到离线环境并解压**
将打包好的 MinerU 源码和依赖包复制到离线环境中,并解压源码包:
```bash
tar -xzvf MinerU.tar.gz
cd MinerU
```
4. **本地安装依赖**
使用 `pip` 安装本地依赖包:
```bash
pip install --no-index --find-links=/path/to/packages/ -r requirements.txt
```
5. **下载并部署模型文件**
在有网络的环境中下载 MinerU 所需的模型文件,并将其复制到离线环境中的指定目录。例如,可以将模型文件存放在 `models/` 目录下,并在配置文件中指定路径。
6. **修改配置文件**
修改 MinerU 的配置文件(如 `magic-pdf.json`),确保指向本地模型路径。例如:
```json
{
"model_path": "/path/to/models"
}
```
7. **运行 MinerU**
完成上述步骤后,即可在离线环境中运行 MinerU 进行 PDF 到 Markdown 的转换:
```bash
python mineru.py input.pdf output.md
```
### 注意事项
- 确保离线环境的 Python 版本与依赖包兼容。
- 如果依赖包存在 C 扩展,需要确保离线环境的操作系统和架构与依赖包构建的环境一致,否则可能需要手动编译。
- 模型文件较大,建议使用高速存储介质进行复制[^1]。
---
阅读全文
相关推荐













