【图片识别Excel表格】批量将图片上的区域文字识别后保存为表格，基于WPF和阿里云的项目实战总结

本文链接：https://blog.csdn.net/bbyn3316/article/details/146504049

一、项目背景

在信息处理和文档管理中，经常会遇到需要从大量图片中提取文字并进行整理的场景。例如，财务部门需要从大量报销票据中提取金额、日期等信息；法务部门需要从合同文档中提取关键条款；教育行业需要从试卷中提取学生的答题内容等。传统的手工处理方式不仅耗时长、效率低，还容易出现错误，因此，开发一个自动化、高精度的文字识别和数据整理工具显得尤为重要。

本项目旨在基于WPF（Windows Presentation Foundation）和阿里云OCR（Optical Character Recognition，光学字符识别）服务，构建一个用户友好的桌面应用程序，实现批量导入图片、识别图片上的指定区域文字、并将识别结果保存为表格文件的功能，提高用户在信息处理过程中的效率和准确性。

二、界面设计

基于简洁、易用的原则，设计了如下界面：

1. 主界面

顶部：应用程序标题“图片文字识别与表格保存工具”
左侧：
- 图片导入按钮：用于批量选择需要处理的图片，支持导入本地文件夹或直接选择多个图片文件。
- 图片显示区域：以缩略图的形式展示导入的图片，方便用户查看。
中间：
- 区域选择工具：用户可在图片上绘制矩形框或指定区域，用于选择需要识别的文字位置。
- 识别参数设置：如语言类型（中文、英文或多语言）、表格输出格式（Excel、CSV）、是否自动校验识别结果等。
右侧：
- 识别结果预览：显示识别出的文字内容，帮助用户确认识别准确性。
- 保存设置：设置表格文件的保存路径和文件名。
底部：
- 状态栏：显示当前操作状态（如“准备中……”、“识别进度：50%”等）和结果显示（如“共导入10张图片，成功识别8张”）。

2. 操作流程流程图

用户点击“图片导入”按钮，选择需要处理的图片或文件夹。
导入的图片在左侧图片显示区域以缩略图形式展示。
用户点击某张图片，在右侧区域使用区域选择工具框选需要识别的文字位置。
用户设置识别参数，如语言类型和输出格式。
点击“开始识别”按钮，程序调用阿里云OCR API进行批量文字识别。
识别过程中，状态栏显示进度信息。
识别完成后，识别结果在右侧预览区域显示，用户确认无误后点击“保存表格”按钮，将结果保存为指定的表格文件。

三、详细步骤

步骤1：项目初始化

创建WPF项目：在Visual Studio中创建一个新的WPF应用（.NET Framework 或 .NET Core）。
安装必要的NuGet包：
- Aliyun.OSS.SDK：用于与阿里云服务进行交互（如果需要上传图片到OSS）。
- EPPlus 或 ClosedXML：用于生成Excel文件。
- Newtonsoft.Json：用于处理JSON格式的数据。

步骤2：设计界面

使用XAML设计上述界面，主要包括图片导入控件、图片显示区域（使用ItemsControl绑定图片列表）、区域选择工具（使用鼠标事件绘制选区）、参数设置控件、结果显示区域和保存按钮等。

步骤3：实现图片导入功能

点击“图片导入”按钮，打开文件对话框，选择本地图片文件或文件夹。
遍历选中路径，获取所有图片文件（支持格式如JPG、PNG、BMP等）。
加载图片并显示缩略图，将图片路径和相关元数据保存到ViewModel中的集合中，并绑定到界面进行展示。

步骤4：区域选择工具实现

绑定鼠标事件（如MouseDown、MouseMove、MouseUp）到图片显示区域。
记录鼠标坐标，在鼠标按下时开始记录，移动时实时更新选区边界，鼠标释放时完成选区绘制。
保存选区信息，将每个图片对应的选区坐标与图片关联，存储在ViewModel中。

步骤5：调用地图云OCR服务进行文字识别

初始化阿里云OCR客户端，配置阿里云的AccessKeyId和AccessKeySecret。
遍历选中的图片和对应的选区信息，对每张图片指定区域发送OCR识别请求。
- 前处理选区坐标，将其转换为阿里云OCR要求的格式（如归一化坐标）。
处理OCR响应，提取识别出的文字内容，并与对应的选区关联。

步骤6：结果显示与确认

将识别出的文字信息显示在右侧的预览区域，可以采用DataGrid或ListView控件绑定识别结果。
允许用户对识别结果进行手动校对和修正，确保准确性。

步骤7：保存识别结果为表格文件

设置保存路径和文件名，用户可以选择保存为Excel或CSV格式。
生成表格数据，将识别结果整理为表格结构。
调用Excel生成库（如EPPlus或ClosedXML），将表格数据写入指定的文件路径，完成保存。

步骤8：状态反馈与错误处理

实时更新状态栏，显示当前操作进度和状态信息。
捕捉并处理可能出现的错误，如网络异常、OCR服务错误、文件读写错误等，提供友好的用户提示。

四、具体代码

以下为部分关键功能的示例代码：

1. 调用阿里云OCR服务

// 引入必要的命名空间
using Aliyun.OSS;
using Aliyun.OSS.Util;
using System.Net.Http;
using System.Text;
using Newtonsoft.Json;

// 阿里云OCR识别方法
public async Task<string> RecognizeTextAsync(string imagePath, string regionCoordinates)
{
    // 配置阿里云OCR的请求参数
    var client = new HttpClient();
    // 假设已获取阿里云OCR的API地址和认证信息
    string apiUrl = "https://ocr.cn-shanghai.aliyuncs.com/recognizeGeneralText";
    // 构建请求头，包含认证信息
    // ...

    // 构建请求体，包含图片和选区信息
    var requestBody = new
    {
        ImageUrl = "图片上传后的URL或Base64编码",
        Region = regionCoordinates, // 格式化选区坐标
        Language = "zh"
    };

    string json = JsonConvert.SerializeObject(requestBody);
    var content = new StringContent(json, Encoding.UTF8, "application/json");

    // 发送POST请求
    HttpResponseMessage response = await client.PostAsync(apiUrl, content);
    response.EnsureSuccessStatusCode();

    // 读取响应
    string result = await response.Content.ReadAsStringAsync();
    // 解析JSON结果，提取文字信息
    dynamic parsedResult = JsonConvert.DeserializeObject(result);
    // 提取文字
    string recognizedText = parsedResult.Text;

    return recognizedText;
}

2. 保存识别结果为Excel

// 引入EPPlus库
using OfficeOpenXml;

public void SaveToExcel(List<RecognitionResult> results, string filePath)
{
    using (ExcelPackage package = new ExcelPackage())
    {
        ExcelWorksheet worksheet = package.Workbook.Worksheets.Add("识别结果");

        // 写入表头
        worksheet.Cells[1, 1].Value = "文件名";
        worksheet.Cells[1, 2].Value = "识别内容";
        // 根据需要添加更多列

        // 写入数据
        for (int i = 0; i < results.Count; i++)
        {
            worksheet.Cells[i + 2, 1].Value = results[i].FileName;
            worksheet.Cells[i + 2, 2].Value = results[i].Text;
            // 根据需要添加更多数据
        }

        // 保存文件
        FileInfo excelFile = new FileInfo(filePath);
        package.SaveAs(excelFile);
    }
}

3. 绑定和显示识别结果

<!-- XAML中定义DataGrid显示识别结果 -->
<DataGrid AutoGenerateColumns="False" ItemsSource="{Binding RecognitionResults}">
    <DataGrid.Columns>
        <DataGridTextColumn Header="文件名" Binding="{Binding FileName}" />
        <DataGridTextColumn Header="识别内容" Binding="{Binding Text}" />
        <!-- 添加更多列根据需要 -->
    </DataGrid.Columns>
</DataGrid>

// ViewModel中定义识别的集合
public ObservableCollection<RecognitionResult> RecognitionResults { get; set; }

// 添加结果到集合
public void AddRecognitionResult(string fileName, string text)
{
    RecognitionResults.Add(new RecognitionResult { FileName = fileName, Text = text });
}

// 识别结果类
public class RecognitionResult
{
    public string FileName { get; set; }
    public string Text { get; set; }
}

五、总结

本项目基于WPF和阿里云OCR服务，成功构建了一个批量图片文字识别并保存为表格的桌面应用程序。通过项目的实施，达到了以下成果和收获：

提高处理效率：实现了图片文字的自动化批量识别，大幅提升了图片文字提取的效率，减少了人工处理的工作量和误差。
灵活的区域选择：用户可以根据实际需求，灵活选择需要识别的图片区域，提高了识别的准确性和针对性。
友好的用户界面：设计简洁、操作便捷的用户界面，使用户能够轻松地完成图片导入、区域选择、结果查看和保存等操作。
强大的扩展能力：通过调用阿里云OCR服务的API，便于后续集成更多阿里云的其他服务，如表格识别、手写体识别、语言翻译等，进一步扩展应用的功能。
稳定的数据处理：采用可靠的Excel处理库（如EPPlus），确保识别结果能够准确无误地保存为多种格式的表格文件，满足不同用户的存储和共享需求。

在项目开发过程中，遇到并解决了以下问题和挑战：

OCR识别精度问题：部分图片由于清晰度不够或文字复杂，导致识别精度不高。通过优化图片预处理（如增强对比度、去噪、调整分辨率等）和调整OCR参数，显著提升了识别效果。
批量处理性能优化：在处理大量图片时，OCR识别耗时较长，可能导致界面卡顿。通过异步编程和多线程技术，提升程序的响应速度和用户体验。
区域选区的准确性：用户手动绘制选区时，可能出现坐标不准确导致识别失败的情况。通过增加选区调整工具和提供选区校正功能，确保选区的准确性。
错误处理和用户提示：在网络异常、OCR服务错误或文件操作失败时，提供明确的错误信息和提示，并设计相应的恢复机制，确保应用程序的稳定性和健壮性。

总体而言，本项目不仅实现了预期的功能，还为类似的应用场景提供了可行的解决方案。未来，可以进一步优化用户交互体验，增加更多的自动化功能，如自动检测文字区域、智能校正识别结果等，提升应用的智能化水平和应用价值。