AI-图像识别- 医疗图像,识别技术栈方案(传统与大模型)-python

本文链接：https://blog.csdn.net/pingzhuyan/article/details/148133825

全文目录,一步到位

0. 业务需求
1. 方案一传统ocr识别(最好接入`深度学习模型`)
2. 传统ocr内置大模型或深度学习模型 (减少训练成本)
3. 购买OCR在线图像识别
- 3.1 阿里云OCR
- - 3.1.1 使用效果
4. llm大模型(图像理解-模型)
5. 总结

0. 业务需求

根据图示提取出全部数据并转换成需要的json格式

在这里插入图片描述

1. 方案一传统ocr识别(最好接入`深度学习模型`)

1.1 缺点

高度依赖人工规则，不同场景调整参数，处理流程复杂,准确度不一定高, 并不能生成想要的结构化数据, 需要复杂的代码逻辑进行处理, 并且没有泛化能力, 一旦模板变化, 可能还得重新调整, 开发周期长

例: 版面分析需大量规则，二值化过程易丢失信息，导致复杂背景下的识别率骤降。

1.2 优点

识别效率最快,部署成本较低

1.3 实现流程

预处理 +Tesseract,PaddleOCR(识别中文与布局)+自定义医疗词典+代码处理文本+语义纠错(距离算法)修改错误识别文字
变为结构化数据json + 检测识别效果与转换效果 + 多数据测试 + 如果接入(深度模型需要训练)

1.3.1 图片预处理

基于模板匹配和手工特征设计（如边缘检测、投影分析）
流程包含图像预处理（二值化、去噪）、
字符分割
特征提取（形状、纹理等）
分类器（SVM、Adaboost）等

1.3.2 OCR识别

PaddleOCR支持中英文和表格识别
可结合深度学习模型如YOLOv8进行轮廓检测,

1.3.3 自定义医学词汇词典

自定义医学词汇词典以提高识别准确率。

1.3.4 语义纠错(距离算法)

代码找出与词库不一致情况
如果发现医学词汇词典数据量不够手动维护
[需要标注大量的检测报告单据]

1.3.5 数据结构化部分[`与业务对接核心`]

需要将OCR提取的文本映射到JSON字段，需要写各种各样的正则表达式和验证规则
最后生成标准化的JSON输出, 包括检测结果评分,质量评分等等

1.2 人力成本估算

‌计算机视觉和图像处理技术‌：OCR技术的基础是计算机视觉和图像处理。需要掌握图像预处理技术，如去噪、二值化、灰度化、倾斜校正等，以提高图像质量,提升ocr识别率
‌特征提取‌：在预处理后，会提取图像中每个字符的特征，如边缘、纹理、形状等信息，以便后续的识别过程‌
‌字符识别‌：需要熟悉字符识别的方法，包括模板匹配、
机器学习: （如支持向量机、神经网络）和深度学习（如卷积神经网络CNN、循环神经网络RNN）等技术‌
‌深度学习基础‌：理解深度学习的基本概念，特别是卷积神经网络（CNN）和循环神经网络（RNN）在图像识别和序列数据处理中的作用‌
‌编程语言和工具‌：掌握Python编程语言，以及OpenCV等图像处理库和TensorFlow、PyTorch等机器学习库的使用
‌项目实践‌：参与OCR相关的项目实践，如PaddleOCR、Tesseract等
‌数学和统计学基础‌：具备一定的数学和统计学基础，理解数据结构和算法的基本原理和应用‌
‌硬件加速框架‌：对英伟达、华为昇腾等各系列GPU、NPU硬件加速框架有一定了解，有助于提升OCR系统的性能‌