DeepSeek-R1 – Grayrecord Analytics

先日発表された、DeepSeek-R1を色々調べています。まず、DeepSeek-V3を含めた諸元です。

Name	DeepSeek	DeepSeek	Qwen2.5	Llama 3.1	Claude 3.5	GPT-4o
Version	V3	V2.5	72B-Inst	405B-Inst	Sonnet-1022	0513
Architecture	MoE	MoE	Dense	Dense	–	–
Activted Params	37B	21B	72B	405B	–	–
Total Params	671B	236B	72B	405B	–	–

まず、DeepSeekはMoE (Mixture of Expert)を利用したモデルであること。MoEは理論上、少ないパラメータ数でより精度の高いモデルを作れる可能性があります。この辺はLLMの未来: スケーリング則の限界と効率化の新アプローチで説明しています。そして、既に書いた、GPT-4以降のLLMスケーリング則の課題と解決策で説明したように、DeepSeek-R1では以下のような特徴があります。

基本モデルに対する大規模強化学習(RL)の直接適用
2つのRLステージと2つのSFTステージによる開発パイプライン

これらによって、DeepSeek-R1はかなり、効率のいい学習をしていると考えられます。学習データを導入したかは気にはなりますが、今はおいておきます。いかに大量のデータを入手しようと昨今の収穫逓減の状況にあってはうまい学習をさせないと性能には結びつかないためです。特に注目したのは最初のSFTステージで少量のコールドスタートデータを組み込みのところです。この部分はDeepSeek-R1を読むでも触れられていたので極めてセンスのいい部分だと思います。

聞くところによると、DeepSeek-R1はo1のようなモデルに比べて、1/10のコストで学習をしていると聞きます。これは、破格の高効率学習と言えます。

これらを踏まえると、DeepSeek-R1が普及するかとは別に、これがベンチマークとなって、AIモデルがゲームチェンジする可能性は十分あると見ています。今までは、大量の電力を使って、大量のGPUを買い集めてモデルを作っていました。しかし、それは環境的な持続性を考えても、コストを考えても常に適切だと考えるには無理があります。

いささか古い資料ではありますが、LLM(GPT-3)と人の消費電力の比較によれば、GPT-3において学習には約4.6TJのエネルギーを消費したと推定しています。それに対して、生体脳はたかだか一年で631.7MJです。全く、単位が違います。

生体脳と比べるべくもなく、コストが1/10になれば、チャレンジャーも増えることが想定できます。現状のLLMでは参入しているのはGoogle、Microsoft、metaと言った特に北米の超超大企業だけです。参入障壁は低いに越したことはありません。

私はゲームチェンジを歓迎します。

まず、話を始める前にLLMにおけるスケーリング則を定義します。

AIのスケーリング則は限界を迎えたのか？進化の次のステージへによればスケーリング則は以下の3つからなるルールです。

計算データの量
計算リソース(計算量)
モデルのパラメータ数

単純化して言えば、よりパラメータ数を増やした大規模モデルにすれば、性能はその分向上するというものです。そして、それには学習に用いるデータも関与しています。学習データを増やすことなく、パラメータ数だけを増やしていけば一般的には過学習に足を取られることが多いです。スケーリング則は、GPT-2からGPT-3へというところでは十分機能していたと言えます。

しかし、GPT-4 あたりからはスケーリング則は十分に機能したと言えない状況が見え始め、2023年にはサム・アルトマンは単に大きなモデルを作る時代は終わったとの発言に至っています。これはスケーリング則は経験則の領域で、それを支える法則には至ってはいないというところでもあります。この部分の壁は一般に収穫逓減の現象として知られています。

一方で物理的な壁は存在します。これは、GPUの計算リソースを増やし続けるには、無数にGPUを増やすほかなく、結果的には計算上、常に故障に悩まされますし、それらを考慮すればどんどんと、かかるコストは鰻上りになります。更に、必要な電力消費は全く軽視できないものになります。そもそも、LLMは人間の脳よりもエネルギー効率という点では全く及ばないのです。

その解決の一つは、MoEとBitNetです。この部分は昨年、LLMの未来: スケーリング則の限界と効率化の新アプローチにまとめています。

収穫逓減の現象そのものにも目を向けていますが、【AI基礎論】スケーリング則、進化が加速した生成AI、競争過熱で"AI版ムーアの法則"に限界説も、2025年はどうなる?などいくつか目を通してはいますが、恐らくはスケーリング則そのものが法則という領域ではないということもあるとは思いますが、適切な説明はあまり見当たらないです。

とはいえ、新しい胎動もいくつか見受けられます。先のMoE、BitNetもそうですし、最近だと、DeepSeek-R1のように、学習過程に工夫を凝らすことで性能を向上しています。DeepSeek-R1とは？～推論特化のLLMで見る限りだと、1.と3.がポイントではないかと思われます。DeepSeek-R1について少し気になるところについては、DeepSeek-R1の実力とライセンス：知っておきたい重要ポイントで少しまとめています。

基本モデルに対する大規模強化学習(RL)の直接適用
2つのRLステージと2つのSFTステージによる開発パイプライン

恐らく、この辺の仕組みは参考にしたモデルが出てくるのではないかと思っているので、今後の流れを見ていけば、これらの価値は見通しがつくのではないかと思っています。

これらの成果をうまくまとめたモデルが出てくるのではないかと期待しています。

タグ: DeepSeek-R1

環境に優しいAI：DeepSeek-R1が示す高効率学習の未来

GPT-4以降のLLMスケーリング則の課題と解決策