AI-图像识别- 医疗图像,识别技术栈方案(传统与大模型)-python


0. 业务需求

根据图示提取出全部数据 并转换成需要的json格式

在这里插入图片描述

在这里插入图片描述

1. 方案一 传统ocr识别(最好接入深度学习模型)

1.1 缺点

高度依赖人工规则,不同场景调整参数,处理流程复杂,准确度不一定高, 并不能生成想要的结构化数据, 需要复杂的代码逻辑进行处理, 并且没有泛化能力, 一旦模板变化, 可能还得重新调整, 开发周期长

例: 版面分析需大量规则,二值化过程易丢失信息,导致复杂背景下的识别率骤降。

1.2 优点

识别效率最快,部署成本较低

1.3 实现流程

预处理 +Tesseract,PaddleOCR(识别中文与布局)+自定义医疗词典+代码处理文本+语义纠错(距离算法)修改错误识别文字
变为结构化数据json + 检测识别效果与转换效果 + 多数据测试 + 如果接入(深度模型需要训练)

1.3.1 图片预处理

  • 基于模板匹配和手工特征设计(如边缘检测、投影分析)
  • 流程包含图像预处理(二值化、去噪)、
  • 字符分割
  • 特征提取(形状、纹理等)
  • 分类器(SVM、Adaboost)等

1.3.2 OCR识别

  • PaddleOCR支持中英文和表格识别
  • 可结合深度学习模型如YOLOv8进行轮廓检测,

1.3.3 自定义医学词汇词典

  • 自定义医学词汇词典以提高识别准确率。

1.3.4 语义纠错(距离算法)

代码找出与词库不一致情况
如果发现医学词汇词典数据量不够 手动维护
[需要标注大量的检测报告单据]

1.3.5 数据结构化部分[与业务对接核心]

需要将OCR提取的文本映射到JSON字段,需要写各种各样的正则表达式和验证规则
最后生成标准化的JSON输出, 包括检测结果评分,质量评分等等

1.2 人力成本估算

‌计算机视觉和图像处理技术‌:OCR技术的基础是计算机视觉和图像处理。需要掌握图像预处理技术,如去噪、二值化、灰度化、倾斜校正等,以提高图像质量,提升ocr识别率
‌特征提取‌:在预处理后,会提取图像中每个字符的特征,如边缘、纹理、形状等信息,以便后续的识别过程‌
‌字符识别‌:需要熟悉字符识别的方法,包括模板匹配、
机器学习: (如支持向量机、神经网络)和深度学习(如卷积神经网络CNN、循环神经网络RNN)等技术‌
‌深度学习基础‌:理解深度学习的基本概念,特别是卷积神经网络(CNN)和循环神经网络(RNN)在图像识别和序列数据处理中的作用‌
‌编程语言和工具‌:掌握Python编程语言,以及OpenCV等图像处理库和TensorFlow、PyTorch等机器学习库的使用
‌项目实践‌:参与OCR相关的项目实践,如PaddleOCR、Tesseract等
‌数学和统计学基础‌:具备一定的数学和统计学基础,理解数据结构和算法的基本原理和应用‌
‌硬件加速框架‌:对英伟达、华为昇腾等各系列GPU、NPU硬件加速框架有一定了解,有助于提升OCR系统的性能‌

2. 传统ocr内置大模型或深度学习模型 (减少训练成本)

2.1 DocExt (文档较少)

===> 文档地址 <===

2.2 Zerox(可以尝试)

基于GPT-4o-mini模型训练的 视觉模型

===> 体验地址: <===

在这里插入图片描述

2.2.1 优点

零样本,多格式,复杂布局,Markdown格式输出

2.2.2 缺点

网上案例少

3. 购买OCR在线图像识别

3.1 阿里云OCR

在这里插入图片描述

3.1.1 使用效果

需要调研

4. llm大模型(图像理解-模型)

4.1 本地部署模型(未测试)

需要尝试 但要求电脑配置很高 12G-20G左右即可测试
初期调整prompt, 后可以外挂知识库 调整RAG, 后续也可进行模型微调 , 打造成专属医疗大模型`, 泛化能力强, 不仅能查看结构化数据, 也可对影像进行筛查分析诊断

模型介绍可能存在错误, 还没有进行挨个验证

  • DeepSeek Janus-Pro-7B
  • GLM-4V-Flash(智谱 AI)
  • HiDream-I1(智象未来)
  • Xinference + Llama 2-70B
  • Falcon-40B-Instruct

4.2 付费模型

4.2.1 qwen-vl-max-2025-04-08(及以上效果更好)

在这里插入图片描述
我大致估算 不一定准确 可能1元能用50次左右, 本地测试没优化预计80次

大模型调用时间 45s-90s之间 (平均)
准确度: 很准确, 错误率很低

4.2.1.1 优点

精准, 可基于零样本进行使用, 开发周期较短, 只需要不断调整提示词,来满足需求即可, 能够输出格式化数据 markdown格式的json, 仅需要简单处理即可生效

4.2.1.2 缺点

如果特别隐私得数据, 不放心云端, 害怕泄露得, 不建议使用

5. 总结

5.1 传统OCR

5.1.1 优点:

计算资源需求低,适合实时场景(如车牌识别);规则明确, 有模板的场景

5.1.2 缺点:

流程复杂导致误差累积;难以处理手写体、模糊图像;泛化能力差。

5.2 深度学习OCR

5.2.1 优点

端到端简化流程;高精度识别复杂文本,如医疗票据、化验单、保险单等;支持整行识别避免字符分割。
结合自然语言处理(NLP)等人工智能技术,可实现更智能化的文字识别和信息提取功能。例如,在金融行业中,深度学习OCR技术被用于票据审核、合同管理等场景,显著提高了工作效率。

5.2.2 缺点

依赖大量标注数据和GPU资源;模型训练耗时(数小时至数天)。

5.3 大模型OCR

5.3.1 优点

泛化能力强,适应多场景;结合语言模型优化语义连贯性;针对零样本或者少样本提示词均可使用

5.3.1 缺点

自己训练成本极高;可以使用开源大模型, 但是部署也需高性能硬件支持, 同时也可能需要针对开源大模型结合行业的数据进行继续调整,包括对模型的监督微调等等



作者pingzhuyan 感谢观看

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pingzhuyan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值