Enjoy Data Mining!

データマイニング手法やデータマイニングツールの使用法などの備忘録

属性の設定について

データマイニングでは教師あり学習アプローチで数値予測や分類予測を行う問題を扱うことがあります.
また,そうでなくても属性-値のペアで連関のあるものを見出すこともあります.
このような問題を扱うとき,決定木回帰木,数値予測モデル,if-then形式の分類ルールアソシエーションルールを見出して陥ってしまいやすい錯覚について,少し述べます.

例えば数値予測を行う重回帰式を得たいとした場合,説明変数目的変数をず割り当てて出てきたパターンが因果律を表しているかどうかは,理論的な裏づけや経験的な確証がないうちは,関連性があるにすぎないということです.
割り当てた分析者当人は因果のつもりでも,それに対する合意がないと,全く意味が解釈できないという事態に遭遇します.

これは,すでに知られた変数を用いて異なるデータに割り当て,モデル同士(例えば,同一変数の偏回帰係数同士)を比較する分には生じない問題です.
しかし,データマイニングについては「有用な知識」が規則性そのものが使えるような印象を与えているところがあり,これが分析者の拙速な解釈を導いている,と考えるのです.