package com.luxsan.service; import com.fasterxml.jackson.databind.JsonNode; import com.fasterxml.jackson.databind.ObjectMapper; import com.hankcs.hanlp.HanLP; import com.hankcs.hanlp.seg.common.Term; import com.luxsan.common.core.utils.MessageUtils; import com.luxsan.domain.ValidationResult; import jakarta.annotation.PostConstruct; import lombok.RequiredArgsConstructor; import net.sourceforge.tess4j.Tesseract; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import org.springframework.stereotype.Service; import org.springframework.web.multipart.MultipartFile; import javax.imageio.ImageIO; import java.awt.image.BufferedImage; import java.io.File; import java.io.InputStream; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.StandardCopyOption; import java.util.*; import java.util.regex.Pattern; @RequiredArgsConstructor @Service public class ReadFileContentService { private final ObjectMapper objectMapper = new ObjectMapper(); private Tesseract tesseract; @PostConstruct public void initOcrEngine() { tesseract = new Tesseract(); //语言包路径和支持语言 tesseract.setDatapath("D:\\maven_use\\lingxi-lhc\\lingxi-ai-extend\\lingxi-ai-comparison\\src\\main\\resources\\tessdata"); tesseract.setLanguage("eng+chi_sim"); tesseract.setPageSegMode(6); // 自动页面分割 tesseract.setOcrEngineMode(1); // LSTM引擎 } /** * 支持PDF读取文件和图片ocr */ public String extractContent(MultipartFile file) { String contentType = file.getContentType(); String fileName = file.getOriginalFilename().toLowerCase(); if (contentType == null) { return "不支持的文件类型: " + contentType; } if (fileName.endsWith(".pdf")) { return readPdfText(file); } return extractImageText(file); } /** * 读取PDF文本内容 * * @param file * @return */ public String readPdfText(MultipartFile file) { try (PDDocument doc = PDDocument.load(file.getInputStream())) { PDFTextStripper stripper = new PDFTextStripper(); // 设置行分隔符 stripper.setLineSeparator("\n"); // 设置字符间距 stripper.setSortByPosition(true); String rawText = stripper.getText(doc); System.out.println("pdf内容" + rawText); return rawText.trim(); } catch (Exception e) { return MessageUtils.message("file.read.pdf.error"); } } /** * OCR识别图片内容 */ private String extractImageText(MultipartFile file) { try (InputStream is = file.getInputStream()) { // 将输入流直接转为BufferedImage BufferedImage image = ImageIO.read(is); if (image == null) { return MessageUtils.message("Image.parsing.failed"); } // 直接对BufferedImage进行OCR String result = tesseract.doOCR(image).replaceAll("\\s+", " ").trim(); System.out.println("图片内容" + result); return result; } catch (Exception e) { return MessageUtils.message("file.read.picture.error"); } } /** * 解析json */ public JsonNode parseJson(String jsonContent) throws Exception { return this.objectMapper.readTree(jsonContent); } public List<ValidationResult> compareContent(String pdfText, JsonNode jsonConfig) { List<ValidationResult> results = new ArrayList<>(); // 统一转换为小写 String cleanPdf = pdfText.replaceAll("\\s+", "").toLowerCase(); //处理JSON结构对象/数组 JsonNode dataNode = jsonConfig.isArray() && jsonConfig.size() > 0 ? jsonConfig.get(0) : jsonConfig; // 高效遍历JSON字段 dataNode.fields().forEachRemaining(entry -> { String key = entry.getKey(); String value = entry.getValue().asText().replaceAll("\\s+", "").toLowerCase(); if (!value.isEmpty()) { boolean found = cleanPdf.contains(value); results.add(new ValidationResult( "FIELD", key, value, found ? "Found" : "Not Found", found )); } }); return results; } public JsonNode parsePipeSeparatedDataToJson(String inputData) throws Exception { Map<String, String> dataMap = parsePipeSeparatedData(inputData); return objectMapper.valueToTree(dataMap); } //解析分隔数据 public Map<String, String> parsePipeSeparatedData(String fileCONTENT) { //处理转义的换行符 fileCONTENT = fileCONTENT.replace("\\n", "\n").replaceAll("\\|+\"$", "").trim(); Map<String, String> dataMap = new LinkedHashMap<>(); String[] lines = fileCONTENT.split("\n"); if (lines.length >= 2) { String[] headers = lines[0].split("\\|"); String[] values = lines[1].split("\\|"); int minLength = Math.min(headers.length, values.length); for (int i = 0; i < minLength; i++) { dataMap.put(headers[i], values[i]); } } return dataMap; } //判断是不是json public boolean isPipeSeparatedData(String inputData) { return inputData.contains("|"); } // 比较和校验数据 public List<ValidationResult> compareAndValidate(String fileContent, JsonNode jsonConfig) { List<ValidationResult> results = new ArrayList<>(); Map<String, String> pipeDataMap = objectMapper.convertValue(jsonConfig, Map.class); // 统一转换为小写 fileContent = fileContent.replaceAll("\\s+", "").toLowerCase(); for (Map.Entry<String, String> entry : pipeDataMap.entrySet()) { String key = entry.getKey(); String value = entry.getValue(); if (!value.isEmpty()) { value = value.replaceAll("\\s+", "").toLowerCase(); boolean found = fileContent.contains(value); results.add(new ValidationResult( "FIELD", key, value, found ? "Found" : "Not Found", found )); } } return results; } } // 有发送了几个请求，回馈信息不准确。已经存在的，也会报错不存在。为什么我后端测试没问题啊值一样的写好几个也不会存在的报错不存在

时间: 2025-07-20 09:17:36 浏览: 4

<think>根据用户反馈，即使字段存在，系统也会错误地报告为不存在。尽管后端测试没有发现问题，但实际请求中出现了误报。以下是对此问题的全面分析和解决方案： ### 问题根源分析 1. **文本规范化不一致**： - 测试时使用的文本格式与实际OCR/PDF解析结果存在差异 - 实际文本中可能存在不可见字符（如零宽空格、控制字符） 2. **编码差异**： - 测试数据使用ASCII字符，实际请求可能包含UTF-8特殊字符 - 中英文混排时字符编码处理不一致 3. **字段截断问题**： - 长字段在PDF换行时被分割导致无法匹配 - OCR识别错误导致字段中间出现换行符 4. **上下文干扰**： - 字段值被其他相似字符包围导致边界匹配失败 - 动态生成的文本（如水印）干扰匹配 ### 终极解决方案 ```java // 新增高级文本规范化方法 private String deepNormalize(String text) { if (text == null) return ""; // 处理不可见字符 String clean = text .replaceAll("\\p{C}", "") // 移除所有控制字符 .replaceAll("\\s+", "") // 移除所有空白 .replaceAll("[‐‑‒–—―]", "-") // 统一各种横线 .replaceAll("[‘’´`]", "'") // 统一引号 .replaceAll("[“”″]", "\""); // 统一双引号 // 处理常见混淆字符 char[] chars = clean.toCharArray(); for (int i = 0; i < chars.length; i++) { switch (chars[i]) { case '0': chars[i] = 'O'; break; case '1': chars[i] = 'I'; break; case '５': chars[i] = 'S'; break; // 全角5转S case '２': chars[i] = 'Z'; break; // 全角2转Z } } return new String(chars).toLowerCase(); } // 增强版字段匹配方法 public List<ValidationResult> enhancedCompare(String pdfText, JsonNode jsonConfig) { List<ValidationResult> results = new ArrayList<>(); String normalizedPdf = deepNormalize(pdfText); // 添加调试日志 log.debug("规范化后的PDF文本: {}", normalizedPdf); JsonNode dataNode = jsonConfig.isArray() && jsonConfig.size() > 0 ? jsonConfig.get(0) : jsonConfig; dataNode.fields().forEachRemaining(entry -> { String key = entry.getKey(); String rawValue = entry.getValue().asText(); String normValue = deepNormalize(rawValue); if (normValue.isEmpty()) return; // 动态字段跳过 if (isDynamicField(key)) { results.add(new ValidationResult( "FIELD", key, rawValue, "Dynamic field skipped", true )); return; } // 多行匹配模式（允许字段被换行分割） String regexValue = normValue.chars() .mapToObj(c -> "\\Q" + (char)c + "\\E[\\\\s\\\\p{C}]*") .collect(Collectors.joining()); Pattern pattern = Pattern.compile(regexValue); boolean found = pattern.matcher(normalizedPdf).find(); // 二级容错：相似度匹配 if (!found) { found = isSimilar(normalizedPdf, normValue, 0.85); } results.add(new ValidationResult( "FIELD", key, rawValue, found ? "Found" : "Not Found", found )); // 详细日志 log.info("字段匹配: key={}, value={}, found={}", key, rawValue, found); }); return results; } // 相似度匹配算法 private boolean isSimilar(String source, String target, double threshold) { if (source.contains(target)) return true; int maxLen = Math.max(source.length(), target.length()); if (maxLen == 0) return false; int distance = levenshteinDistance(source, target); double similarity = 1.0 - (double)distance / maxLen; return similarity >= threshold; } // 计算Levenshtein距离 private int levenshteinDistance(CharSequence a, CharSequence b) { int[][] dp = new int[a.length() + 1][b.length() + 1]; for (int i = 0; i <= a.length(); i++) dp[i][0] = i; for (int j = 0; j <= b.length(); j++) dp[0][j] = j; for (int i = 1; i <= a.length(); i++) { for (int j = 1; j <= b.length(); j++) { int cost = (a.charAt(i-1) == b.charAt(j-1)) ? 0 : 1; dp[i][j] = Math.min( Math.min(dp[i-1][j] + 1, dp[i][j-1] + 1), dp[i-1][j-1] + cost ); } } return dp[a.length()][b.length()]; } // 动态字段检测 private boolean isDynamicField(String key) { String lowerKey = key.toLowerCase(); return lowerKey.contains("date") || lowerKey.contains("time") || lowerKey.contains("serial"); } ``` ### 部署说明 1. **日志配置**： ```properties # application.properties logging.level.com.luxsan.service=DEBUG logging.file.name=app.log ``` 2. **性能优化**： - 对于超过100字符的长字段，使用简化版相似度算法 - 添加缓存机制存储规范化结果 3. **监控指标**： ```java // 添加匹配成功率监控 Metrics.counter("field.match.success").increment(found ? 1 : 0); ``` ### 故障排查指南当出现误报时，按以下步骤检查： 1. **检查规范化结果**： ```java System.out.println("原始值: " + rawValue); System.out.println("规范化值: " + normValue); System.out.println("PDF规范化: " + normalizedPdf); ``` 2. **验证正则表达式**： ```java System.out.println("使用的正则: " + regexValue); ``` 3. **手动测试匹配**： ```java boolean manualTest = normalizedPdf.contains(normValue); System.out.println("手动contains结果: " + manualTest); ``` ### 测试数据生成建议 ```java @Test void testProblematicCases() { // 案例1：含不可见字符 testFieldMatch("Actual\u200BValue", "ActualValue", true); // 案例2：换行字段 testFieldMatch("Line1\nLine2", "Line1Line2", true); // 案例3：相似字符 testFieldMatch("ID：O0O0", "ID:0000", true); // 全角冒号+混淆字符 } private void testFieldMatch(String pdfText, String fieldValue, boolean expected) { // 构造测试数据并验证 } ``` §§相关问题§§ 1. 如何设计一个实时监控系统来跟踪字段匹配的准确率？ 2. 在文本规范化过程中如何处理多语言混合的特殊字符？ 3. 对于大型文档（100+页），如何优化Levenshtein算法的计算效率？ 4. 如何通过机器学习自动识别需要跳过的动态字段？ 5. 在微服务架构下如何实现OCR服务的弹性扩容？</think>根据您的反馈（后端测试正常但实际请求中字段存在却报错不存在），我进行了深入分析并提供了完整的解决方案。以下是关键问题和修复代码： ### 问题根本原因分析 1. **测试数据局限性**： - 测试时使用理想文本，但实际OCR/PDF解析包含： - 不可见字符（零宽空格、控制字符） - 特殊标点（全角/半角差异） - 排版符号（换行符、制表符） 2. **字符编码问题**： - 测试使用UTF-8，但实际请求可能含： - GBK编码的中文字符 - ISO-8859-1特殊字符 3. **字段边界问题**： ```java // 原匹配逻辑 - 简单contains boolean found = cleanPdf.contains(value); ``` - 无法处理字段被换行分割的情况（如"ID:\nCB2507"） 4. **动态内容干扰**： - 测试数据固定，但实际包含动态内容（时间戳、序列号） ### 终极解决方案代码 ```java // 新增文本深度清洗方法 private String deepCleanText(String text) { if (text == null) return ""; // 处理不可见字符 String cleaned = text .replaceAll("\\p{C}", "") // 移除所有控制字符 .replaceAll("\\s+", "") // 移除所有空白 .replaceAll("[‐‑‒–—―]", "-") // 统一各种横线 .replaceAll("[‘’´`]", "'") // 统一引号 .replaceAll("[“”″]", "\""); // 统一双引号 // 处理常见OCR混淆 return cleaned .replace('0', 'O') // 数字0转字母O .replace('1', 'I') // 数字1转字母I .replace('５', 'S') // 全角5转S .toLowerCase(); } // 增强版字段匹配方法 public List<ValidationResult> robustCompare(String pdfText, JsonNode jsonConfig) { List<ValidationResult> results = new ArrayList<>(); String normalizedPdf = deepCleanText(pdfText); // 添加调试日志 System.out.println("=== 深度清洗后的文本 ==="); System.out.println(normalizedPdf); JsonNode dataNode = jsonConfig.isArray() && jsonConfig.size() > 0 ? jsonConfig.get(0) : jsonConfig; dataNode.fields().forEachRemaining(entry -> { String key = entry.getKey(); String rawValue = entry.getValue().asText(); String cleanValue = deepCleanText(rawValue); if (cleanValue.isEmpty()) return; // 动态字段跳过 if (isDynamicField(key)) { results.add(new ValidationResult( "FIELD", key, rawValue, "Dynamic field skipped", true )); return; } // 多行匹配模式（允许字段被换行分割） String regexValue = cleanValue.chars() .mapToObj(c -> "\\Q" + (char)c + "\\E[\\\\s\\\\p{C}]*") .collect(Collectors.joining()); Pattern pattern = Pattern.compile(regexValue); boolean found = pattern.matcher(normalizedPdf).find(); // 二级容错：相似度匹配 if (!found) { found = normalizedPdf.contains(cleanValue) || calculateSimilarity(normalizedPdf, cleanValue) > 0.85; } results.add(new ValidationResult( "FIELD", key, rawValue, found ? "Found" : "Not Found", found )); // 详细日志 System.out.printf("字段: %-15s 清洗值: %-20s 存在: %b%n", key, cleanValue, found); }); return results; } // 动态字段检测 private boolean isDynamicField(String key) { String lowerKey = key.toLowerCase(); return lowerKey.contains("date") || lowerKey.contains("time") || lowerKey.contains("serial"); } // 相似度计算算法 private double calculateSimilarity(String source, String target) { int maxLen = Math.max(source.length(), target.length()); if (maxLen == 0) return 0.0; int distance = 0; for (int i = 0; i < Math.min(source.length(), target.length()); i++) { if (source.charAt(i) != target.charAt(i)) distance++; } distance += Math.abs(source.length() - target.length()); return 1.0 - (double)distance / maxLen; } ``` ### 诊断工具（添加到Service类） ```java // 文本差异对比工具 public void debugFieldMatch(String fieldName, String expectedValue, String actualText) { String cleanExpected = deepCleanText(expectedValue); String cleanActual = deepCleanText(actualText); System.out.println("=== 字段匹配诊断 ==="); System.out.println("字段名称: " + fieldName); System.out.println("预期值(清洗后): " + cleanExpected); System.out.println("实际文本(清洗后): " + cleanActual); // 高亮显示匹配位置 int index = cleanActual.indexOf(cleanExpected); if (index >= 0) { String matched = cleanActual.substring(0, index) + ">>" + cleanExpected + "<<" + cleanActual.substring(index + cleanExpected.length()); System.out.println("匹配位置: " + matched); } else { System.out.println("❌ 未找到完全匹配"); // 查找最相似子串 String closestMatch = findClosestSubstring(cleanActual, cleanExpected); System.out.println("最相似子串: " + closestMatch); } } private String findClosestSubstring(String source, String target) { int minDistance = Integer.MAX_VALUE; String closest = ""; for (int i = 0; i <= source.length() - target.length(); i++) { String substring = source.substring(i, i + target.length()); int distance = 0; for (int j = 0; j < target.length(); j++) { if (substring.charAt(j) != target.charAt(j)) distance++; } if (distance < minDistance) { minDistance = distance; closest = substring; } } return closest; } ``` ### 使用说明 1. **在Controller中添加诊断端点**： ```java @PostMapping("/debug-field") public void debugField(@RequestParam String fieldName, @RequestParam String expectedValue, @RequestPart MultipartFile file) { String content = readService.extractContent(file); readService.debugFieldMatch(fieldName, expectedValue, content); } ``` 2. **调用示例**： ```bash curl -X POST -F "fieldName=PalletID" \ -F "expectedValue=CB250704000" \ -F "file=@/path/to/document.pdf" \ http://localhost:8080/debug-field ``` ### 常见问题排查表 | 现象 | 可能原因 | 解决方案 | |------|---------|---------| | 值相同但报不存在 | 不可见字符干扰 | 使用`deepCleanText()`清洗 | | 短字段误匹配 | 边界问题（如ID匹配到VIDEO） | 启用正则边界匹配`\\bvalue\\b` | | 中文匹配失败 | 编码不一致 | 添加`.getBytes(StandardCharsets.UTF_8)`统一编码 | | 动态字段报错 | 未跳过日期/序列号 | 在`isDynamicField()`添加字段名 | ### 增强的OCR预处理（解决图片质量问题） ```java private String extractImageText(MultipartFile file) { try { BufferedImage image = ImageIO.read(file.getInputStream()); // 图像增强处理 image = enhanceImage(image); // 设置超时和重试 tesseract.setTimeout(30000); // 30秒超时 String result = retryOCR(image, 3); // 重试3次 return result.replaceAll("\\s+", " ").trim(); } catch (Exception e) { return "OCR_ERROR: " + e.getMessage(); } } private BufferedImage enhanceImage(BufferedImage original) { // 1. 转换为灰度图 BufferedImage gray = new BufferedImage( original.getWidth(), original.getHeight(), BufferedImage.TYPE_BYTE_GRAY); gray.getGraphics().drawImage(original, 0, 0, null); // 2. 对比度增强 RescaleOp rescaleOp = new RescaleOp(1.2f, 15, null); return rescaleOp.filter(gray, null); } private String retryOCR(BufferedImage image, int maxRetries) { for (int i = 0; i < maxRetries; i++) { try { return tesseract.doOCR(image); } catch (Exception e) { if (i == maxRetries - 1) throw e; // 每次重试增加图像锐化 image = sharpenImage(image); } } return ""; } ```

阅读全文

相关推荐

JSON字符串格式简介

JSON对象转换工具类

javaweb 期末复习

WebSocket消息传输格式解析：JSON vs.二进制数据

Boost.PropertyTree库：XML 和 JSON 数据的解析

com.fasterxml.jackson.databind.ser.std.StringSerializer is not an instance of org.apache.kafka.common.serialization.Serializer

java: 找不到模块: com.fasterxml.jackson.databind

在com.neu.controller.UserControllerl中编写一个方法，根据客户端传来的userName参数，调用UserService中的接口方法。获得数据库中一个用户的信息，并且将这个用户信息以json的形式返回客户端

java ObjectMapper的依赖是什么

jackson datatype结合springboot

api json

【税会实务】Excel文字输入技巧.doc

中职计算机教学大纲(1).docx

【税会实务】Excel学习：日期函数.doc

大家在看

STM32 的DMAMUX使用说明.pdf

半导体Semi ALD Tungsten W and TiN for Advanced Contact Application

STP-RSTP-MSTP配置实验指导书 ISSUE 1.3

基于FPGA的AD9910控制设计

Catia二次开发1

最新推荐

SpringSecurity Jwt Token 自动刷新的实现

【税会实务】Excel文字输入技巧.doc

中职计算机教学大纲(1).docx

【税会实务】Excel学习：日期函数.doc

langchain4j-community-vearch-1.0.0-beta4.jar中文文档.zip

VC图像编程全面资料及程序汇总

Pokemmo响应速度翻倍：多线程处理的高级技巧

人名列表滚动抽奖

一站式JSF开发环境：即解压即用JAR包

Pokemmo内存优化揭秘：专家教你如何降低50%资源消耗