タグ別アーカイブ: CRISP-DM

データ分析ことはじめ

データの分析には一つのベストプラクティスがある。CRISP-DMとされているのがそれで、SPSS、NCR、ダイムラークライスラー、OHRAがメンバーとなっている(当時) コンソーシアムにて開発されたデータマイニングのための方法論を規定したもの。CRISP-DMではデータ分析を以下のフェイズで進めて行く。

  1. ビジネスの理解
  2. データの理解
  3. データの準備
  4. モデリング
  5. 評価
  6. 展開/共有

つまり、まず、ビジネスの理解があり、そしてデータの理解がある。つまり、ビジネスを理解せず何もバックボーンがわからない状態では何も分析できない。さらに、データの形式や仕組みを理解しないとやっぱり分析はできない。そして、データの準備がいる。一般にデータ加工と言われるものもこの中に入る。

分析で花形といえるのはモデリングであろうが、一般にデータはBad Data Handbookという本もあるとおり、綺麗ではないケースが圧倒的に多い、外れ値、欠損値といったものの他に小奇麗にされたExcelファイルも難易度が高い。方眼紙Excelも大変だ。なぜなら、人間が見て美しいと思う帳票と処理しやすい、再利用しやすいデータとは違うから。

モデリングはデータ準備の上に成立する。当然ながら、データがごみならばモデルも必定、ごみとなる。もちろん、よいデータに分析目的に適したモデルを組み合わせれば強力である。そして、ここでもビジネスの理解はものを言う。ビジネスの理解が間違っているとモデリング手法も間違う。

そして、評価、モデルは評価され、妥当性を検証する必要がある。手法やさまざまな要因によってオーバーフィットする場合もあるし、もちろんアンダーフィットしてしまうケースもある。当然ながら、どちらのケースも展開/共有するのは厳しい。

評価の結果、十分妥当で利用価値があるならば、展開/共有へと進むことができる。これはケースによってさまざまだ報告書として各種ビジネスの施策になる場合もあれば、具体的に実装されたアプリケーションとしてデプロイされるケースもある。報告書ならば会議の遡上に登ることになるし、アプリケーションとして実装ならば、そこからアプリケーションの開発が始まる。

当然ながら、これで終わりではない。ビジネスに終わりはないから。