当我们在屏幕上阅读"巴黎AI峰会2025年7月召开"这句话时,大脑会自动将字符组合成有意义的词汇和短语,这种对语言边界的直觉性认知似乎毫不费力。然而,对于人工智能系统而言,这种基础能力却成了长期困扰研究者的难题。数十年来,以BPE(字节对编码)为代表的分词技术一直是语言模型处理文本的标准流程,但它就像一副戴着镣铐的舞蹈——虽然支撑了GPT、Claude等模型的辉煌,却始终受限于预设规则的桎梏。2025年7月10日,Sukjun Hwang、Brandon Wang与Albert Gu提出的"动态分块(Dynamic Chunking)"技术,通过名为H-Net的创新架构,首次实现了真正意义上的无分词器端到端文本处理,为打破这一桎梏带来了曙光。
分词技术的固有困境:从效率浪费到语言偏见
当代语言模型的"认知障碍"很大程度上源于分词机制的设计缺陷。以目前主流的BPE算法为例,其工作原理看似精妙:通过分析海量文本中字符对的出现频率,将最常见的组合合并为分词(Token),反复迭代直至形成固定词汇表。这种基于统计频率的方法,就像一个只看销量的图书管理员,会把《战争与和平》拆成"战争"和"与和平",只因"战争"出现次数更多。
这种机制导致的第一个显著问题是词汇空间浪费。研究数据显示,BPE生成的词汇表中包含约1500个几乎不会独立出现的"垃圾分词",这些由合并过程产生的碎片(如"nPar""uly2")占据了宝贵的词汇空间。通过分词频率分布的幂律曲线可以清晰看到,高频实用分词(如"the""AI")与中频语义单元(如"Paris""July")之外,存在一个冗长的"死区"分词尾巴。对比显示,BPE的"死区"分词数量比Unigram LM词汇表多出1500个,相当于每6个分词中就有1个是无效的——这就像图书馆用三分之一的书架堆放空白纸张,严重制约了模型对有意义语言单元的学习效率。<