全文目录,一步到位
0. 业务需求
根据图示提取出全部数据 并转换成需要的json格式
1. 方案一 传统ocr识别(最好接入深度学习模型
)
1.1 缺点
高度
依赖人工
规则,不同场景
调整参数,处理流程复杂
,准确度不一定高, 并不能生成想要的结构化数据
, 需要复杂的代码
逻辑进行处理, 并且没有泛化能力, 一旦模板变化, 可能还得重新调整, 开发周期长例: 版面分析需大量规则,
二值化
过程易丢失信息,导致复杂背景下的识别率骤降。
1.2 优点
识别效率最快,部署成本较低
1.3 实现流程
预处理
+Tesseract,PaddleOCR(识别中文与布局
)+自定义医疗词典+代码处理文本+语义纠错(距离算法)修改错误识别文字
变为结构化数据
json + 检测识别效果与转换效果 + 多数据测试 + 如果接入(深度模型需要训练)
1.3.1 图片预处理
- 基于模板匹配和手工特征设计(如边缘检测、投影分析)
- 流程包含图像预处理(二值化、去噪)、
- 字符分割
- 特征提取(形状、纹理等)
- 分类器(SVM、Adaboost)等
1.3.2 OCR识别
- PaddleOCR支持中英文和表格识别
- 可结合深度学习模型如YOLOv8进行轮廓检测,
1.3.3 自定义医学词汇词典
- 自定义医学词汇词典以提高识别准确率。
1.3.4 语义纠错(距离算法)
代码找出与词库不一致情况
如果发现医学词汇词典数据量不够 手动维护
[需要标注大量的检测报告单据]
1.3.5 数据结构化部分[与业务对接核心
]
需要将OCR提取的文本映射到JSON字段,需要写各种各样的正则表达式和验证规则
最后生成标准化的JSON输出, 包括检测结果评分,质量评分等等
1.2 人力成本估算
计算机视觉和图像处理技术:OCR技术的基础是计算机视觉和图像处理。需要掌握图像预处理技术,如去噪、二值化、灰度化、倾斜校正等,以提高图像质量,提升ocr识别率
特征提取:在预处理后,会提取图像中每个字符的特征,如边缘、纹理、形状等信息,以便后续的识别过程
字符识别:需要熟悉字符识别的方法,包括模板匹配、
机器学习: (如支持向量机、神经网络)和深度学习(如卷积神经网络CNN、循环神经网络RNN)等技术
深度学习基础:理解深度学习的基本概念,特别是卷积神经网络(CNN)和循环神经网络(RNN)在图像识别和序列数据处理中的作用
编程语言和工具:掌握Python编程语言,以及OpenCV等图像处理库和TensorFlow、PyTorch等机器学习库的使用
项目实践:参与OCR相关的项目实践,如PaddleOCR、Tesseract等
数学和统计学基础:具备一定的数学和统计学基础,理解数据结构和算法的基本原理和应用
硬件加速框架:对英伟达、华为昇腾等各系列GPU、NPU硬件加速框架有一定了解,有助于提升OCR系统的性能
2. 传统ocr内置大模型或深度学习模型 (减少训练成本)
2.1 DocExt (文档较少)
2.2 Zerox(可以尝试)
基于GPT-4o-mini模型训练的 视觉模型
2.2.1 优点
零样本,多格式,复杂布局,Markdown格式输出
2.2.2 缺点
网上案例少
3. 购买OCR在线图像识别
3.1 阿里云OCR
3.1.1 使用效果
需要调研
4. llm大模型(图像理解-模型)
4.1 本地部署模型(未测试)
需要尝试 但要求电脑配置很高 12G-20G左右即可测试
初期
调整prompt, 后可以
外挂知识库调整
RAG, 后续也可进行
模型微调, 打造成
专属医疗大模型`, 泛化能力强, 不仅能查看结构化数据, 也可对影像进行筛查分析诊断模型介绍可能存在错误, 还没有进行挨个验证
- DeepSeek Janus-Pro-7B
- GLM-4V-Flash(智谱 AI)
- HiDream-I1(智象未来)
- Xinference + Llama 2-70B
- Falcon-40B-Instruct
4.2 付费模型
4.2.1 qwen-vl-max-2025-04-08(及以上效果更好)
我大致估算 不一定准确 可能1元能用50次左右, 本地测试没优化预计80次
大模型调用时间 45s-90s之间 (平均)
准确度: 很准确, 错误率很低
4.2.1.1 优点
精准, 可基于零样本进行使用, 开发周期较短, 只需要不断调整提示词,来满足需求即可, 能够输出格式化数据 markdown格式的json, 仅需要简单处理即可生效
4.2.1.2 缺点
如果特别隐私得数据, 不放心云端, 害怕泄露得, 不建议使用
5. 总结
5.1 传统OCR
5.1.1 优点:
计算资源需求低,适合实时场景(如车牌识别);规则明确, 有模板的场景
5.1.2 缺点:
流程复杂导致误差累积;难以处理手写体、模糊图像;泛化能力差。
5.2 深度学习OCR
5.2.1 优点
端到端简化流程;高精度识别复杂文本,如医疗票据、化验单、保险单等;支持整行识别避免字符分割。
结合自然语言处理(NLP)等人工智能技术,可实现更智能化的文字识别和信息提取功能。例如,在金融行业中,深度学习OCR技术被用于票据审核、合同管理等场景,显著提高了工作效率。
5.2.2 缺点
依赖大量标注数据和GPU资源;模型训练耗时(数小时至数天)。
5.3 大模型OCR
5.3.1 优点
泛化能力强,适应
多场景
;结合语言模型优化语义连贯性;针对零样本或者少样本提示词均可使用
5.3.1 缺点
自己训练成本极高
;可以使用开源大模型
, 但是部署也需高性能硬件
支持, 同时也可能需要针对开源大模型结合行业的数据
进行继续调整,包括对模型的监督微调等等
作者pingzhuyan 感谢观看