Dynamic Chunking（H-Net）：告别分词器的AI文本处理革新-CSDN博客

本文链接：https://blog.csdn.net/llm_way/article/details/149445377

当我们在屏幕上阅读"巴黎AI峰会2025年7月召开"这句话时，大脑会自动将字符组合成有意义的词汇和短语，这种对语言边界的直觉性认知似乎毫不费力。然而，对于人工智能系统而言，这种基础能力却成了长期困扰研究者的难题。数十年来，以BPE（字节对编码）为代表的分词技术一直是语言模型处理文本的标准流程，但它就像一副戴着镣铐的舞蹈——虽然支撑了GPT、Claude等模型的辉煌，却始终受限于预设规则的桎梏。2025年7月10日，Sukjun Hwang、Brandon Wang与Albert Gu提出的"动态分块（Dynamic Chunking）"技术，通过名为H-Net的创新架构，首次实现了真正意义上的无分词器端到端文本处理，为打破这一桎梏带来了曙光。

分词技术的固有困境：从效率浪费到语言偏见

当代语言模型的"认知障碍"很大程度上源于分词机制的设计缺陷。以目前主流的BPE算法为例，其工作原理看似精妙：通过分析海量文本中字符对的出现频率，将最常见的组合合并为分词（Token），反复迭代直至形成固定词汇表。这种基于统计频率的方法，就像一个只看销量的图书管理员，会把《战争与和平》拆成"战争"和"与和平"，只因"战争"出现次数更多。

这种机制导致的第一个显著问题是词汇空间浪费。研究数据显示，BPE生成的词汇表中包含约1500个几乎不会独立出现的"垃圾分词"，这些由合并过程产生的碎片（如"nPar""uly2"）占据了宝贵的词汇空间。通过分词频率分布的幂律曲线可以清晰看到，高频实用分词（如"the""AI"）与中频语义单元（如"Paris""July"）之外，存在一个冗长的"死区"分词尾巴。对比显示，BPE的"死区"分词数量比Unigram LM词汇表多出1500个，相当于每6个分词中就有1个是无效的——这就像图书馆用三分之一的书架堆放空白纸张，严重制约了模型对有意义语言单元的学习效率。<