17K star！开源免费的离线OCR工具

最新推荐文章于 2025-05-11 03:19:05 发布

原创

最新推荐文章于 2025-05-11 03:19:05 发布 · 1.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#ocr #github #开源 #开源软件

Umi-OCR是一款开源、免费的离线OCR软件，支持截图OCR、批量OCR、二维码读取和文档识别等功能。内置PaddleOCR和RapidOCR两种内核，提供CLI和HTTP接口，已在GitHub上获得17K+ star。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

平时工作中，总会遇到想对图片内文字进行处理的情况，我们就来介绍一款开源、免费的离线OCR工具，它就是：Umi-OCR。

关于 Umi-OCR

Umi-OCR是开源、免费的离线OCR软件。支持截屏/粘贴/批量导入图片，段落排版/排除水印，扫描/生成二维码。项目内置多国语言库，方便切换。

Umi-OCR支持两种内核，一种是PaddleOCR，另一种是RapidOCR。

工具包括的主要功能有：

截图OCR：识别图中的文字，还支持段落合并、鼠标划选等功能。
批量OCR：支持批量导入本地图片并识别
二维码：可截图/粘贴/拖入本地图片，读取其中的二维码、条形码
文档识别：支持导入多种格式的文件进行识别。
调用接口：支持CLI和HTTP接口

目前项目在GitHub已经获得17K+ star，项目发布时间不长，增长趋势在OCR类产品里是比较不错的。

为什么用 Umi-OCR

为什么要使用Umi-OCR呢，我们来说一说:

开源免费：不是OCR工具用不起，而是开源更有性价比，不花钱，还不用看些乱七八糟的广告，难道不香么。
开箱即用：

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

IT咖啡馆

关注关注

4
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

毫秒识别、开源免费的OCR离线部署方案

shangjg3的博客

08-04

1935

准备一张图片，这张图片已经很模糊了，字体倾斜，识别准确率还是挺高的。而且识别耗时不超过1秒。3.开发web api服务为其他模块调用提供API接口。pycharm2019.3.5及以上版本。安装python3.6及以上版本。4.其他模块调用（Java）1.1 软件和开发工具版本。1.3安装paddle。

小程序开发工具OCR：文字识别技术应用

小程序开发

05-09

944

随着移动互联网的普及，小程序以其轻量化、跨平台的特性成为企业和开发者的首选。OCR（Optical Character Recognition，光学字符识别）技术能够将图像中的文字转换为可编辑的文本，在小程序中集成OCR功能可显著提升用户体验（如扫码识别、单据录入、图片搜索等）。本文聚焦于小程序开发中OCR技术的落地实践，涵盖技术原理、算法实现、项目实战及应用场景，帮助开发者掌握从需求分析到功能实现的全流程。核心概念：解析OCR技术架构与关键步骤算法实现：通过Python代码演示图像处理与识别逻辑。

参与评论您还未登录，请先登录后发表或查看评论

tr：免费离线OCR离线的中文文本检测+识别SDK

02-06

tr-文字识别单一针对扫描文档的离线文本识别SDK，核心代码全部采用C ++开发，并提供Python接口更新说明 c ++接口支持支持Windows系统添加python2支持删除opencv-python，Pillow依赖，降低部署难度支持多线程支持GPU 联系电子邮件：要求 Windows 7 + / Ubuntu 16.04 / Ubuntu 18.04 python2 / python3，需要安装numpy Windows系统需要安装 GPU版本安装说明如果对速度有要求，推荐安装GPU版本要使用GPU版本，复制tr_gpu文件夹里面的文件到tr文件夹注意：需要先

ai之pdf解析rapidOCR 的两种底层依赖PaddlePaddle 和ONNXRuntime

nalanxiaoxiao2011的博客

05-11

1049

ai之pdf解析rapidOCR 的两种底层依赖PaddlePaddle 和ONNXRuntime

代码讲故事

06-19

8505

一款免费、开源、可批量识别的离线OCR软件，适用于 Windows7 x64及以上平台

weixin_43973655的博客

04-13

1048

一款免费、开源、可批量识别的离线OCR软件，适用于 Windows7 x64及以上平台

香港二代证识别ocr技术，离线SDK

chenlianjun112233的博客

03-21

489

一、香港身份证识别应用背景这些年，随着移动互联网的的发展，越来越多的企业都推出了自己的移动APP，这些APP多数都涉及到个人身份证信息的输入认证（即实名认证），如果手动去输入身份证号码和姓名，速度非常慢，且用户体验非常差。为了提高在移动终端上输入身份证信息的速度和准确性，我们开发出香港身份...

百度OCR身份证识别C++离线SDKV3.0 C#对接

.NET 人工智能实践

04-08

1621

百度OCR身份证识别C++离线SDKV3.0 C#对接

php开源ocr,GitHub - thinkphpdev/PaddleOCR: 基于飞桨的OCR工具库，包含总模型仅8.6M的超轻量级中文OCR，单模型支持中英文数字组合识别、竖排文本识别、长文本识...

weixin_30183847的博客

03-29

1302

简介PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力使用者训练出更好的模型，并应用落地。近期更新2020.5.30，模型预测、训练支持Windows系统，识别结果的显示进行了优化2020.5.30，开源通用中文OCR模型2020.5.30，提供超轻量级中文OCR在线体验特性超轻量级中文OCR，总模型仅8.6M单模型支持中英文数字组合识别、竖排文本识别、长文本识别检测模型DB(4...

【GitHub项目推荐--OCR 图片转文字识别软件】【转载】

j8267643的博客

01-28

5353

基于 PaddleOCR 的 OCR 图片转文字软件，已经获得 3.6K 的 Star。该开源项目完全离线，支持截屏/批量导入图片，除了能准确辨认常规文字，对手写、方向不正、杂乱背景等情景也有不错的识别率。可设置忽略区域排除水印、设置文块后处理合并排版段落，得到规整的文本。开源地址：https://github.com/hiroi-sora/Umi-OCR。

又一款超好用开源知识库管理工具

jakpopc的博客

08-20

3815

收集整理每周优质开发者内容，包括、、等方面。每周五定期发布，同步更新到。欢迎大家投稿，，推荐或者自荐开源项目/资源/工具/文章~

紫光身份证OCR离线识别

04-26

紫光身份证(支持正反面)OCR离线识别，写了个控制台程序，方便程序员使用，包内带批处理例子。主程序加壳了，运行速度秒级(未加壳是毫秒级)，识别技术库从紫光官网下载的，本人只是写了一个控制台程序，有兴趣的朋友也可以自行反编译紫光的程序进行分析，手机拍摄的身份证照片，要稍稍处理下才能识别。

离线OCR语言文件.zip

07-15

uPDF功能强大的PDF文件处理离线OCR语言文件 uPDF功能强大的PDF文件处理离线OCR语言文件

百度离线识别SDK1.1 demo

01-18

解决百度人脸识别之离线识别SDK1.1demo编译失败和运行失败的问题，gradel3.4的implementation、api、complile区别，技术交流QQ:774908055

文字识别OCR开发包

08-09

文字识别OCR开发包，并且有例子和文档，供大家学习，包括文字识别OCR开发包和Demo两个文件夹

OCR SDK文字识别二次开发包

08-14

一个英文识别OCR SDK包，识别效果还不错，提供java接口

OCR文字识别SDK

Mrfeng_OCR的博客

06-10

1193

文字检测识别系统SDK开发包是一款基于PC平台的复杂图片文字识别技术的SDK开发包程序。 • 可识别复杂背景图片上的文字； • 识别率高，单张识别速度快； • 支持SDK挂接到Linux平台、Windows平台； • 支持识别视频画面中字幕上的文字内容； • 支持识别网络图片中的文字，用于大数据挖掘分析、舆情监控领域； ...

扫描文档SDK ocr识别技术

ZsHua_18519103264的博客

08-30

1164

档案、合同、书刊、报纸、资料等印刷打印出版物的扫描图像云OCR识别利器【产品介绍】近期推出的文档OCR云识别产品，可以将过去单机低效率的转换工作，放到云端服务器进行处理，这样可以实现企业集团级别的应用；当企业部署了这套系统之后，可以将各分支机构的文档、资料的转换换工作便携的搬到云端处理，这样既节省了人工消耗、机器维护损耗也能满足全集团级别的图片的OCR功能应用。该系统能够快速地、大批量...

OCR文本识别SDK应用

ZsHua_18519103264的博客

07-30

1543

OCR识别技术现已相当的成熟，故其应用也变得普遍起来。今天以ocr sdk为例，详细了解下其应用场景。我们的Ocr sdk可以提供api接口，方便集成挂接，且效果良好。比如，ocr sdk可以用于档案管理系统，OA系统等。下面就来看下OA系统中的ocr sdk作用。现在ocr sdk已经被应用在OA系统中，它彻底解决了纸质文件的查询和管理问题，将ocr sdk集成于OA系统中，便...

离线提取图片文字脚本

最新发布

07-04

<think>嗯，用户希望开发一个离线OCR图片文字识别脚本项目，并写入简历。参考用户提供的引用资料，特别是Umi-OCR[^3][^4]和微信OCR引擎[^2]的技术实现，这个项目需要突出离线、高效、批量处理等核心优势。用户可能正在准备技术岗简历，需要能体现工程能力的项目。从引用看，用户关注的是：1)完全离线运行2)命令行/脚本形式3)可量化的性能提升。因此简历描述应紧扣这三点。技术选型上，引用[^4]提到C++引擎的效率优势，引用[^2]展示Python的快速开发能力。考虑到简历受众，建议采用混合方案：核心用C++/PaddleOCR保证性能，外围用Python/Java做自动化流程。这样既能展示多语言能力，又能解释技术难点。量化指标是关键。引用[^3]提到"比在线OCR更快"，可设计对比实验：在相同设备测试100张图，离线脚本耗时比某云OCR服务少xx%。准确率方面，引用[^4]提到对手写体的支持，可加入ICDAR标准数据集测试结果。难点设计要避免简单调用API。参考引用[^2]的二次开发经验，可以突出：1)自行优化文本后处理算法2)多线程批量调度机制3)内存泄漏修复等底层问题。这些都能提升技术深度。最后考虑开源协作价值。类似引用[^2]的完整项目解析，建议将代码放GitHub并撰写技术文档，体现工程规范性。简历中可注明"Star数xx"或"被某某项目采用"增强可信度。</think>基于OCR技术的离线图片文字识别脚本开发项目，可参考以下简历描述方案（结合引用资料[^1][^3][^4]）： ### 简历项目示例 **离线OCR图片文字识别系统 (Python/C++)** [2023.03-2023.08] - **项目背景**：解决企业内部纸质文档数字化需求，需完全离线运行保障数据安全[^3] - **核心技术**： - 采用**PaddleOCR C++引擎**实现高效识别（速度较在线服务提升40%+）[^4] - 开发**多线程批量处理模块**，支持并发处理1000+图片（吞吐量达50页/分钟） - 实现**文本后处理算法**：自动合并排版段落、过滤水印区域（准确率提升至98.5%）[^3] - **核心功能**： ```python # 伪代码示例核心流程 def batch_ocr(image_dir): for img in load_images(image_dir): # 批量加载图片 preprocessed = remove_noise(img) # 预处理降噪 text_blocks = paddle_ocr_engine(preprocessed) # 调用C++引擎 result = merge_paragraphs(text_blocks) # 段落重组算法 save_to_json(result) # 结构化输出 ``` - **成果**： - 开发Windows命令行工具，支持`ocr_cli -i ./images -o results.json`调用 - 输出标准化JSON格式（含文本/坐标/置信度），适配下游NLP处理系统[^1] - 节省文档数字化成本70%，获部门技术创新奖 --- ### 技术亮点提炼 | 维度 | 实现方案 | 简历价值点 | |--------------|--------------------------------------------------------------------------|--------------------------------| | **架构设计** | C++识别引擎 + Python胶水层 | 展示多语言协同开发能力 | | **性能优化** | 多线程批处理/内存池技术/AVX指令集加速 | 解决大数据场景性能瓶颈[^4] | | **输出处理** | 自定义段落合并算法/非文本区域过滤 | 体现业务逻辑抽象能力 | | **部署方案** | 单文件绿色版（<50MB），无需依赖.NET框架 | 突出工程化能力[^3] | --- ### 技术难点与解决方案 1. **识别精度优化** - 问题：复杂背景导致文字漏识别 - 方案： - 实现**自适应二值化算法**：动态调整阈值 $$ T = \mu + k \cdot \sigma $$ - 开发**文本区域增强模块**：基于Canny边缘检测的ROI提取 2. **内存泄漏问题** - 问题：批量处理时内存持续增长 - 方案： - 使用RAII模式管理C++引擎对象生命周期 - 通过Valgrind分析定位泄漏点，修复3处资源释放漏洞 3. **格式规范化输出** - 问题：原始识别结果缺乏结构化 - 方案： - 设计**版面分析算法**（基于连通域分析） - 输出带坐标的JSON Schema： ```json { "page": 1, "blocks": [ {"text": "示例段落", "confidence": 0.97, "bbox": [x1,y1,x2,y2]} ] } ``` > **简历提示**：优先量化性能指标（如：处理速度提升X倍/准确率提升X%），并强调**完全离线**特性满足企业安全需求[^3][^4] ---