Yann LeCun 新研究的核心探讨:大语言模型(LLM)的“理解”和“思考”方式与人类认知的根本差异。
核心问题:大模型真的像人一样“思考”和“理解”吗?
人类的思考方式: 你的大脑是个超级整理师。面对海量信息(比如看到无数种鸟),它会自动把相似的东西归类(都叫“鸟类”),并且还能区分哪些是“典型代表”(比如知更鸟很“鸟样”),哪些不那么典型(比如企鹅虽然也是鸟,但不像“典型鸟”)。这种能力让我们既能高效处理信息,又能抓住微妙的细节和语境。
大模型(LLM)的“思考”方式: LLM 更像是一个超级文本统计员。它通过“啃”了网上天文数字的文本数据,学会了词语之间复杂的统计关联模式。它能把词语在数学空间里排布(词嵌入),让意思相近的词靠得近。但它是否真的“理解”这些词背后像人类一样的概念呢?LeCun 的新研究说:本质不同!
研究怎么证明的?用了信息论的“尺子”
研究者们搬来了信息论里的两把“尺子”:
- 速率-失真理论: 衡量一个系统在“压缩信息”(省空间,减少废话)和“保留意义”(不失真,保持原意)之间如何取舍。
- 信息瓶颈原理: 核心也是找到压缩信息和保留关键信息的最佳平衡点。
他们用这把“尺子”量了:
- 人类数据: 经典的心理学实验数据,真实记录人类如何分类和判断典型性(比如为什么觉得知更鸟比企鹅更像鸟)。
- 大模型数据: 分析了好几个主流大模型(BERT, Llama, Gemma, Qwen 等)的内部词嵌入结构。
发现了什么关键差异?三大核心结论
1. AI 会“分大类”,但不会“品细节”:
- 好的一面: LLM 在大的分类任务上表现不错,能把“鸟”和“家具”分清楚。小模型(如 BERT)有时还比大模型分得好点。这说明 AI 能抓住一些宏观的、统计上的相似性。
- 坏的一面: 但在判断“哪个更像典型代表”这种细微语义差别上,LLM 就懵了。它搞不懂为什么人类觉得“知更鸟”比“企鹅”更像鸟。这说明 AI 的“理解”是表面的、缺乏人类那种基于丰富经验和感官的细腻认知。
2. AI 和人类的“目标”背道而驰:
- AI 是“极致压缩狂”: LLM 在内部处理信息时,首要目标是拼命压缩!它想把所有信息用最精简、最高效(信息论意义上)的方式表达,极力消除冗余。代价是牺牲了对细节、微妙含义和语境的敏感性。
- 人类是“细节保留者”: 人脑的概念系统更注重适应性和丰富性。我们愿意多花点“内存”,保留更多细节和上下文信息,即使这样压缩效率低点也没关系。这让我们能灵活应对复杂多变的世界。
3. 模型越大,不一定越像人:
- 研究发现,单纯把模型做得更大(堆参数),并不能让它变得更像人类那样思考。
- 模型的结构和训练目标更重要: 比如 BERT(一种主要用于理解文本而非生成文本的模型)在某些任务上反而比一些更大的生成模型表现得在某些方面更接近人类的数据模式。这说明如何设计模型(架构和目标)比单纯追求规模更能影响它是否“类人”。
差异在哪?意味着什么?
差异本质: LLM 的“理解”是基于海量文本数据的统计模式学习和极致信息压缩。人类的认知则是基于多感官经验、形成有结构的概念(能分大类也能抓典型)、并保留丰富细节以适应环境。
为什么 LLM 对话流畅却不像人? LLM 的压缩能力让它能高效关联词语,生成流畅文本,但这建立在牺牲对细微语义、语境、真实世界经验的深度理解上。
对 AI 发展的启示:
- 追求“智能”不能只靠堆数据和算力(更大更强),更要思考什么样的智能结构能更好地服务于人类需求。
- 也许 AI 不必、也很难完全模仿人类思维。承认并利用这种差异,设计互补型的人机协作,可能是更有前景的方向。比如 AI 负责高效压缩、检索信息,人类负责理解深层含义、做出价值判断。
大模型能聊天,但它的“脑回路”和人类根本不一样!它擅长压缩信息找关联,却不懂为什么知更鸟比企鹅更“鸟样”。想让它更“聪明”,光堆参数不行,得改变设计思路,而且不必强求它像人。