Enjoy Data Mining!

データマイニング手法やデータマイニングツールの使用法などの備忘録

データマイニングとは(2)

データマイニングとは,呪文のように「データベースからの有益で未知なパタン(知識)の発見」とか,従来のデータ分析技術を統合した枠組み,というように唱えていても,なかなか現実にピンとこないと思います.

過去の事実(蓄積されたデータ)から規則性を見出すためには何が必要か?その課題に一つ一つ応える技術の総称がデータマイニングと考えられます.データマイニングで提唱されている「データの前処理(準備)」「マイニング(パタンやモデルの生成)」「結果の後処理(評価)」はそれぞれ,以下のような詳細な課題へ繋がります.

「データの前処理(準備)」:
何を観測し,規則性の基となる属性(項目)を設定するのか,そして,どのような規則性を見出すのか
「マイニング(パタンやモデルの生成)」:
規則性を見出すために適切な解析方法は何か
「結果の後処理(評価)」:
見出された規則性は設定した問題に対して有用なのか,また,有効に使える場面とはどのような対象に対してなのか

このように,データの用意・問題の設定・規則性(パタンやモデル)の生成・規則性の評価までの含む枠組みがデータマイニングです.しかし,これらの技術は目新しいものではなく,統計解析では解析とドリルダウンや変数選択の繰り返しによって規則性を見出して評価していました.同様に,機械学習でも背景知識の導入とそこから得られたモデルの評価を行っていました.

では,「何をすればデータマイニングなのか?」と問われると,難しいところです.各研究者・実務者で意見は異なると思いますが,私からの一つの解は,従来の解析がデータやアルゴリズムの評価が目的だったものが,見出した規則性を手段として別の目的を達成することに重点が置かれることではないだろうか,というものです.また,規則性を生成し,評価・適用する一連の過程を確立すること,そして継続的にこの過程を利用していくことがデータマイニングの実践ではないか,と考えています.