Enjoy Data Mining!

データマイニング手法やデータマイニングツールの使用法などの備忘録

データマイニングのプロセス

データマイニングが提唱されたと同時に,データの準備から規則性(パタン)の生成,評価から経済活動や研究活動といった現場にデータベースに保存されたデータから得た知識を報告するまでに至るプロセスが提唱されました.このプロセスは,蓄積されたデータベース中のデータから目的にあったデータを選択・補強・整形して,規則性を得て,評価を行うという一連の流れを中心に,それぞれの処理で何か問題があるときはそれ以前の処理を見直すフィードバックが必要であることを示しています.






データマイニングに関する研究が進むにつれ,当初提唱されていた多重のフィードバックループを持ったプロセス(上図)をいくつかの部分に分けて議論するようになってきました.データの選択・補強・整形をする部分を「データの前処理」,前処理されたデータから規則性(パタン)を得る部分を「マイニング」,パタンを評価可能にする可視化や専門家による評価行為などを含む「結果の後処理」の3つの部分です.データマイニングの研究者の間では,データの前処理:マイニング:結果の後処理=7:1:2などと言われています.さらにデータを収集する手間,結果として報告されたパタンを組織活動に生かしていく労力がかかります.

上述のようなデータマイニングプロセスから,データの収集や問題設定まで含めた”準備段階”や組織活動への反映という要素を加えて提唱されたのがCRISP-DMです.CRISP-DMは主にデータを活用した企業活動を念頭に置いて,PDCAサイクルのようにデータマイニングを用いた組織運営を目指すものです.ちょうど,準備段階が計画(P),実際のデータの処理からモデルの作成が実行(D),モデルの評価が検証(C),知識を基にした行動がAction(A)にあたります.