split按空格分割失败的罪魁祸首：不换行空格 (`\u00A0`)

前言

在日常开发中，经常需要处理用户输入的文本，一个常见的操作就是根据空格将字符串分割成数组（例如，处理用空格分隔的标签、ID 列表等）。Java 中的 String.split(' ') 方法通常能很好地完成这个任务。但有时，会发现一个看起来完全是用标准空格分隔的字符串，用 split(' ') 处理后却得到了一个未分割的、包含整个原始字符串的单元素数组！这到底是为什么呢？

本文揭示一个常见的“隐形杀手”—— 不换行空格 (Non-Breaking Space, NBSP)，并提供健壮的处理方法。

问题复现

假设我们有这样一个场景：在一个类似评论的功能中，用户输入了一串用空格分隔的 Issue Key，我们希望在后端监听器中获取评论内容，并将其解析为一个 Key 的列表。

输入文本（看起来是空格分隔）:

KEY-123 KEY-456 KEY-789

失败的代码尝试:

// 假设 commentBody 是从评论中获取的字符串 "KEY-123 KEY-456 KEY-789"
String commentBody = event.getComment().getBody();

// 尝试用标准空格分割
String[] items = commentBody.split(' ');

// 打印结果
log.warn("Items: " + Arrays.toString(items));

// 预期输出: [KEY-123, KEY-456, KEY-789]
// 实际输出: [KEY-123 KEY-456 KEY-789]  <-- 分割失败！

为什么会这样？字符串明明看起来是用空格分隔的啊？

认识“罪魁祸首”：不换行空格 (\u00A0)

问题的根源很可能在于，我们看到的“空格”并非我们通常在键盘上敲击产生的标准空格 (U+0020)，而是不换行空格 (NBSP)，其 Unicode 码点为 U+00A0（十进制 160）。

NBSP 的特点和用途：

视觉一致性: 它看起来和标准空格几乎一模一样，极具欺骗性。

防止换行: 其主要设计目的是告诉渲染引擎（如浏览器）不要在此处断行。例如，在 “100 km” 中使用 “100\u00A0km” 可以确保 “100” 和 “km” 总是在同一行显示。

常见来源:

复制粘贴: 这是最常见的原因！从网页、Word 文档、PDF 等富文本环境复制内容时，原文中的 NBSP 很容易被一同复制过来。
键盘输入: 特殊的快捷键组合（如 macOS 上的 Option + Space）可以输入 NBSP。
富文本编辑器: 编辑器本身有时为了排版会自动插入 NBSP。

split(’ ') 为何失败？

Java（以及许多其他语言）的 String.split(String regex) 方法，当传入 ’ ’ (即标准空格 U+0020) 作为分隔符时，它会精确地查找 U+0020 这个字符来进行分割。它并不认识 U+00A0 (NBSP)。

因此，如果字符串实际上是 “KEY-123\u00A0KEY-456\u00A0KEY-789”，那么 split(’ ') 就找不到任何标准空格，自然无法分割，最终返回包含整个未分割字符串的数组。

解决方案：健壮的空白字符处理

知道了问题所在，解决方案就很明确了：我们需要一种更健壮的方式来处理字符串中的各种空白字符，在分割或匹配之前，将它们标准化。

推荐方法：使用 replaceAll 配合正则表达式 \s+

正则表达式元字符 \s 通常能匹配任何 Unicode 空白字符，这包括：

标准空格 (，\u0020)
不换行空格 (\u00A0)
制表符 (\t)
换行符 (\n)
回车符 (\r)
换页符 (\f)
其他 Zs, Zl, Zp 分类字符

\s+ 表示匹配一个或多个连续的空白字符。

因此，我们可以使用 String.replaceAll(“\s+”, " ") 将字符串中所有连续的、各种类型的空白字符序列，统一替换为单个标准空格 (’ ')。

改进后的处理流程:

import java.util.regex.Matcher
import java.util.regex.Pattern
import java.util.Arrays // 用于打印数组

// 假设 commentBody 是从评论中获取的，可能包含 \u00A0
String commentBody = event.getComment()?.getBody();
log.warn("Original commentBody: [{}]", commentBody);

String cleanedInput = ""; // 初始化为空

if (commentBody != null && !commentBody.isEmpty()) {
    String cleaned = commentBody;

    // (可选) 先移除你明确不想要的控制字符 (\p{C})
    // cleaned = cleaned.replaceAll("[\\p{C}]+", "");
    // log.debug("After removing C chars: [{}]", cleaned);

    // (可选) 处理其他非空白分隔符，比如将各种逗号替换为空格
    cleaned = cleaned.replaceAll("[\\uFF0C,]+", " ");
    log.debug("After replacing commas with space: [{}]", cleaned);

    // 关键步骤：将所有类型的连续空白(\s+)标准化为单个标准空格(' ')
    cleaned = cleaned.replaceAll("\\s+", " ");
    log.debug("After normalizing whitespace: [{}]", cleaned);

    // 最后，移除首尾可能存在的空格
    cleanedInput = cleaned.trim();
    log.warn("Final cleanedInput for splitting: [{}]", cleanedInput);
}

// --- 现在可以安全地进行分割或匹配 ---

// 方案一：使用 split(' ') (现在可行了，但对空字符串结果需注意)
String[] itemsSplit = cleanedInput.split(' ');
// 注意: 如果 cleanedInput 为空字符串"", split(' ') 会返回 [""]，一个包含空字符串的数组。
// 如果 cleanedInput 不为空但结尾是空格(trim后不会发生)，也可能产生空元素。
// 需要根据业务逻辑过滤掉空字符串元素。
List<String> itemsListSplit = Arrays.stream(itemsSplit)
                                    .filter(s -> s != null && !s.isEmpty())
                                    .collect(Collectors.toList());
log.warn("Items (using split): " + itemsListSplit);

// 现在 itemsListSplit 或 itemsMatcher 包含了正确分割/提取的结果
// [KEY-123, KEY-456, KEY-789]