大規模化の一途をたどるAI開発の潮流に、一石を投じる革新的なアーキテクチャが登場した。シンガポールのAIスタートアップ「Sapient Intelligence」が開発した「階層的推論モデル(Hierarchical Reasoning Model, HRM)」である。人間の脳が持つ階層的で効率的な情報処理に着想を得たこのモデルは、わずか2,700万という驚異的な少なさのパラメータで、ChatGPTをはじめとする巨大言語モデル(LLM)が苦戦する複雑な推論タスクを次々と攻略。AI開発の未来が、必ずしも「大きさ」だけにあるのではないことを鮮烈に示したのだ。
AI開発の壁:「大きさ」の限界と「思考の連鎖」の脆さ
現代のAI、特にLLMの進化は、「スケーリング則」という経験則に支えられてきた。これは、モデルのパラメータ数、学習データの量、そして計算リソースを増やせば増やすほど、性能が向上するという考え方だ。この法則に従い、AI業界はパラメータ数を数十億から数兆へと引き上げる巨大化競争を繰り広げてきた。
しかし、この力任せとも言えるアプローチは、いくつかの深刻な課題に直面している。一つは、天文学的な計算コストとエネルギー消費だ。そしてもう一つ、より本質的な問題が「推論能力の限界」である。
この壁を乗り越えるために広く採用されてきたのが、「思考の連鎖(Chain-of-Thought, CoT)」と呼ばれる技術だ。これは、複雑な問いに対してAIが最終的な答えを出す前に、人間のように思考のプロセスを文章として書き出させる手法である。例えば「太郎君はリンゴを5個持っていました。花子さんから3個もらい、その後2個食べました。残りは何個?」という問いに、「まず5個持っていた。3個もらったので5+3=8個。2個食べたので8-2=6個。答えは6個」というように、段階的な思考を生成させる。
CoTは確かにLLMの推論能力を飛躍的に向上させた。しかし、この手法も万能ではない。Sapient Intelligenceの研究者らが指摘するように、CoTは「満足のいく解決策ではなく、いわば松葉杖」なのだ。その理由は、CoTが持つ根本的な脆さにある。思考のプロセスが一つでも間違ったり、順序が狂ったりすると、結論全体が崩壊してしまう。さらに、思考をすべて言語トークンとして生成するため、応答に時間がかかり、膨大な学習データを必要とするという欠点も抱えていた。
AIが真の知能に近づくためには、この脆く、非効率な「言葉による思考」から脱却し、より効率的で堅牢な推論メカニズムを獲得する必要があった。その答えを、Sapient Intelligenceは人間の脳に見出したのである。
答えは「人間の脳」にあり。階層的推論モデル(HRM)の革新性
HRMの核心は、人間の脳が情報を処理する際の「階層性」と「マルチタイムスケール」という二つの特性を模倣した点にある。私たちの脳は、単一の巨大な処理装置ではなく、異なる役割を持つ領域が、異なる時間スケールで連携しながら機能している。例えば、瞬時の判断を下す領域と、長期的な計画を練る領域が同時に働いている。
この構造に着想を得て、HRMは二つの連携する再帰的(リカレント)モジュールで構成されている。
- 高レベル(H)モジュール: 人間の脳で言えば、熟考や計画を司る前頭前野のような役割を担う。ゆっくりと動作し、問題全体の戦略を立てたり、抽象的な計画を練ったりする「戦略家」である。
- 低レベル(L)モジュール: より高速に動作し、高レベルモジュールから与えられた具体的なサブタスクを迅速に処理する「実行部隊」だ。詳細な計算や探索を担当する。
この二つのモジュールが連携することで、「階層的収束」と呼ばれる独自のプロセスが生まれる。まず、戦略家であるHモジュールが全体的な方針を決定する。その指示に基づき、実行部隊のLモジュールが高速で計算を繰り返し、局所的な解(ある部分問題の答え)を見つけ出す。Lモジュールが一旦安定した解にたどり着くと、その結果がHモジュールにフィードバックされる。Hモジュールはその結果を受けて戦略を更新し、次のサブタスクをLモジュールに指示する。
このプロセスは、まるで経験豊富なマネージャー(Hモジュール)が、優秀な部下(Lモジュール)に仕事を割り振り、進捗報告を受けて次の指示を出す、という効率的なチームワークにも似ている。この仕組みにより、従来の再帰型ネットワークが陥りがちだった「早すぎる収束(十分に検討せず安易な結論に飛びつく問題)」を回避し、一つの問題を多角的に、そして粘り強く検討し続けることが可能になるのだ。
「小さな巨人」が証明した圧倒的パフォーマンス
この洗練されたアーキテクチャがもたらした成果は、衝撃的というほかない。研究チームは、HRMの能力を測るため、現代のAIにとって最も困難とされる複数のベンチマークでテストを実施した。
「AIのIQテスト」ARC-AGIチャレンジでの圧勝
Abstraction and Reasoning Corpus(ARC)は、人間なら容易に解けるが、AIにとっては極めて難しいとされる抽象的な図形パズル群だ。未知のルールを数個の例から帰納的に推論し、応用する能力が問われるため、「真の汎用人工知能(AGI)への試金石」とも呼ばれる。

このARC-AGIベンチマークにおいて、わずか2,700万パラメータのHRMは40.3%というスコアを記録。これは、はるかに巨大なモデルであるOpenAIのo3-mini-high(34.5%)や、Anthropic社の最新モデルClaude 3.7 Sonnet(21.2%)を明確に上回る結果であった。
巨大LLMが完全敗北した超難解パズルを攻略

さらに驚くべきは、論理的推論の深さが要求されるタスクでのパフォーマンスだ。
- Sudoku-Extreme: 極めて難しい数独パズル群。最先端のCoTを用いたLLMたちの正答率は0%。一問も解けなかった。対してHRMは、55.0%という驚異的な正答率を達成した。
- Maze-Hard: 30×30の複雑な迷路で最適経路を見つけ出すタスク。ここでもLLMは0%と全く歯が立たなかったが、HRMは74.5%の確率で正解を導き出した。
これらの結果が持つ意味は大きい。それは、HRMが単に既存モデルより少し優秀だという話ではない。これまでAIが不得手としてきた、広範な探索や試行錯誤(バックトラッキング)を必要とする種類の問題解決において、質的なブレークスルーを達成したことを示唆している。
そして何より特筆すべきは、これらの成果が、わずか1,000個という極めて少数の学習サンプルで達成されたという事実だ。数十億、数兆のパラメータを持ち、インターネット全体に匹敵するデータを学習する巨大LLMとは、対極的なアプローチである。HRMは、AIの知性が「量」だけでなく、「構造の賢さ」によってもたらされることを雄弁に物語っている。
なぜHRMは「賢く」推論できるのか?その思考プロセスを覗く
HRMの強さの秘密は、CoTとは異なる「潜在的推論(Latent Reasoning)」にある。これは、思考のプロセスを一つ一つ言語化するのではなく、モデル内部の抽象的な「状態(隠れ状態空間)」で直接計算を進める方式だ。言葉に翻訳するプロセスを介さないため、思考はより高速で、柔軟になる。
論文で公開されたHRMが迷路を解く際の内部状態の可視化を見ると、その思考プロセスの一端を垣間見ることができる。初期段階では、複数の可能性のある経路を同時にぼんやりと探索している。計算ステップが進むにつれて、行き止まりの経路は消え、有望な経路が徐々に鮮明になっていく。そして最終的に、一本の最適経路へと収束していくのだ。

このプロセスは、CoTのように一本道を突き進んで間違えたら終わり、という脆いものではない。複数の仮説を同時に保持し、検証し、有望なものを洗練させていく、より堅牢で効率的な思考法と言えるだろう。
Sapient Intelligenceの創設者兼CEOであるGuan Wang氏は、この並列処理的な思考法によって、タスク完了時間を最大100倍高速化できる可能性があると見積もっている。これは、自動運転やロボティクスのようなリアルタイム性が求められる分野や、推論コストを劇的に削減したいエンタープライズ領域において、計り知れない価値を持つ。
専門家による検証と残された課題:手放しでは喜べない側面も
HRMが画期的な成果を上げたことは間違いないが、科学の世界では常に検証と再現が求められる。Live Science誌の報道によると、ARC-AGIベンチマークの主催者たちが、公開されたHRMのコードを用いて結果の再現を試みた。
その結果、論文に記載されたスコア自体は再現できたものの、興味深い気づきがあったという。彼らの分析によれば、性能向上への貢献は、論文で強調されている「階層的アーキテクチャ」そのものよりも、論文では詳しく記述されていなかった「訓練中の反復的な改良プロセス」に負うところが大きい可能性がある、というのだ。
これは、HRMの成果を否定するものではない。むしろ、優れた性能の真の要因がどこにあるのかをさらに深く探求する必要があることを示唆している。AIの進歩とは、こうしたオープンな議論と検証の積み重ねによって成し遂げられるものであり、HRMがその議論の的となること自体が、この研究の重要性を示している。
HRMが拓くAIの未来:ビジネスから科学、そしてAGIへ
HRMが示した方向性は、AIの応用範囲を大きく広げる可能性を秘めている。
- ビジネス・産業応用: 少ないデータで学習でき、低コストで高速な推論が可能なHRMのようなモデルは、特に実用性が高い。物流の最適化、複雑な金融商品のリスク分析、工場の生産ラインにおける異常検知など、これまで巨大LLMの導入がコスト的に見合わなかった領域へのAI活用を促進するだろう。
- 科学研究: 医薬品開発や気候科学、材料科学といった分野では、実験データが限られていることが多い。HRMのデータ効率の良さは、こうしたデータ希少なドメインでの新たな発見を加速させる強力なツールとなり得る。
- エッジAI: 自動運転車、ドローン、スマート家電など、デバイス上で直接AIを動作させるエッジコンピューティングの重要性が増している。軽量で効率的なHRMは、クラウドに頼らない、真に自律的なエッジAIの実現に貢献するはずだ。
そして、その先にはAGI(汎用人工知能)という壮大な目標が見据えられている。HRMは、現在のLLMが持つ限界を乗り越え、より人間の思考に近い、柔軟で深い推論能力への道筋を示した。もちろん、AGIの実現はまだ遠い道のりだろう。しかし、HRMのような脳に着想を得たアプローチこそが、その長く険しい道のりを照らす光明となるのかもしれない。
AIの進化は「大きさ」から「構造の賢さ」へ
HRMの登場は、AI開発におけるパラダイムシフトの始まりを告げているのかもしれない。これまで業界を席巻してきた「大きければ大きいほど良い」というスケーリング則一辺倒の考え方から、いかにして賢い「構造」を設計し、効率的に知性を引き出すか、という新たな次元の競争へ。
人間の脳という、数十億年の進化が生み出した究極の計算機から学び、その構造的なエッセンスをAIアーキテクチャに落とし込んでいく。HRMが示したのは、そのアプローチの正しさと、そこに眠る無限の可能性だ。AIの未来は、ただ巨大化するのではなく、より洗練され、より効率的で、そしてより「賢く」なる方向へと舵を切ったのだ。
論文
- arXiv: Hierarchical Reasoning Model
参考文献
- Sapient Intelligence: A New Paradigm of Scaling Law: Beyond Sheer Size Toward Structured Intelligence
- GitHub: sapientinc/HRM