GPT-4以降のLLMスケーリング則の課題と解決策

まず、話を始める前にLLMにおけるスケーリング則を定義します。

AIのスケーリング則は限界を迎えたのか?進化の次のステージへによればスケーリング則は以下の3つからなるルールです。

  1. 計算データの量
  2. 計算リソース(計算量)
  3. モデルのパラメータ数

単純化して言えば、よりパラメータ数を増やした大規模モデルにすれば、性能はその分向上するというものです。そして、それには学習に用いるデータも関与しています。学習データを増やすことなく、パラメータ数だけを増やしていけば一般的には過学習に足を取られることが多いです。スケーリング則は、GPT-2からGPT-3へというところでは十分機能していたと言えます。

しかし、GPT-4 あたりからはスケーリング則は十分に機能したと言えない状況が見え始め、2023年にはサム・アルトマンは単に大きなモデルを作る時代は終わったとの発言に至っています。これはスケーリング則は経験則の領域で、それを支える法則には至ってはいないというところでもあります。この部分の壁は一般に収穫逓減の現象として知られています。

一方で物理的な壁は存在します。これは、GPUの計算リソースを増やし続けるには、無数にGPUを増やすほかなく、結果的には計算上、常に故障に悩まされますし、それらを考慮すればどんどんと、かかるコストは鰻上りになります。更に、必要な電力消費は全く軽視できないものになります。そもそも、LLMは人間の脳よりもエネルギー効率という点では全く及ばないのです。

その解決の一つは、MoEとBitNetです。この部分は昨年、LLMの未来: スケーリング則の限界と効率化の新アプローチにまとめています。

収穫逓減の現象そのものにも目を向けていますが、【AI基礎論】スケーリング則進化が加速した生成AI、競争過熱で"AI版ムーアの法則"に限界説も、2025年はどうなる?などいくつか目を通してはいますが、恐らくはスケーリング則そのものが法則という領域ではないということもあるとは思いますが、適切な説明はあまり見当たらないです。

とはいえ、新しい胎動もいくつか見受けられます。先のMoE、BitNetもそうですし、最近だと、DeepSeek-R1のように、学習過程に工夫を凝らすことで性能を向上しています。DeepSeek-R1とは?~推論特化のLLMで見る限りだと、1.と3.がポイントではないかと思われます。DeepSeek-R1について少し気になるところについては、DeepSeek-R1の実力とライセンス:知っておきたい重要ポイントで少しまとめています。

  • 基本モデルに対する大規模強化学習(RL)の直接適用
  • 2つのRLステージと2つのSFTステージによる開発パイプライン

恐らく、この辺の仕組みは参考にしたモデルが出てくるのではないかと思っているので、今後の流れを見ていけば、これらの価値は見通しがつくのではないかと思っています。

これらの成果をうまくまとめたモデルが出てくるのではないかと期待しています。