MoE – Grayrecord Analytics

先日発表された、DeepSeek-R1を色々調べています。まず、DeepSeek-V3を含めた諸元です。

Name	DeepSeek	DeepSeek	Qwen2.5	Llama 3.1	Claude 3.5	GPT-4o
Version	V3	V2.5	72B-Inst	405B-Inst	Sonnet-1022	0513
Architecture	MoE	MoE	Dense	Dense	–	–
Activted Params	37B	21B	72B	405B	–	–
Total Params	671B	236B	72B	405B	–	–

まず、DeepSeekはMoE (Mixture of Expert)を利用したモデルであること。MoEは理論上、少ないパラメータ数でより精度の高いモデルを作れる可能性があります。この辺はLLMの未来: スケーリング則の限界と効率化の新アプローチで説明しています。そして、既に書いた、GPT-4以降のLLMスケーリング則の課題と解決策で説明したように、DeepSeek-R1では以下のような特徴があります。

基本モデルに対する大規模強化学習(RL)の直接適用
2つのRLステージと2つのSFTステージによる開発パイプライン

これらによって、DeepSeek-R1はかなり、効率のいい学習をしていると考えられます。学習データを導入したかは気にはなりますが、今はおいておきます。いかに大量のデータを入手しようと昨今の収穫逓減の状況にあってはうまい学習をさせないと性能には結びつかないためです。特に注目したのは最初のSFTステージで少量のコールドスタートデータを組み込みのところです。この部分はDeepSeek-R1を読むでも触れられていたので極めてセンスのいい部分だと思います。

聞くところによると、DeepSeek-R1はo1のようなモデルに比べて、1/10のコストで学習をしていると聞きます。これは、破格の高効率学習と言えます。

これらを踏まえると、DeepSeek-R1が普及するかとは別に、これがベンチマークとなって、AIモデルがゲームチェンジする可能性は十分あると見ています。今までは、大量の電力を使って、大量のGPUを買い集めてモデルを作っていました。しかし、それは環境的な持続性を考えても、コストを考えても常に適切だと考えるには無理があります。

いささか古い資料ではありますが、LLM(GPT-3)と人の消費電力の比較によれば、GPT-3において学習には約4.6TJのエネルギーを消費したと推定しています。それに対して、生体脳はたかだか一年で631.7MJです。全く、単位が違います。

生体脳と比べるべくもなく、コストが1/10になれば、チャレンジャーも増えることが想定できます。現状のLLMでは参入しているのはGoogle、Microsoft、metaと言った特に北米の超超大企業だけです。参入障壁は低いに越したことはありません。

私はゲームチェンジを歓迎します。

タグ: MoE

環境に優しいAI：DeepSeek-R1が示す高効率学習の未来