分類モデルの選定について

何らかのデータがあって，データに基づいて自動的に分類を行いたい場合，分類学習アルゴリズムによる分類予測（識別・判別などと呼ぶこともあり）を行うことが可能です．
このとき，目的によって分類学習アルゴリズムの適用結果である分類モデルの性質に気をつけておくことが必要です．

分類学習アルゴリズムの類型

まず，分類予測に用いられる分類モデル（式，木構造，ルール，ネットワーク）が容易に読解できるかどうか，についての分け方があります．
入力に対して，分類予測結果が計算・出力されるまでの過程を人間が追跡可能なものをここではホワイトボックス型と呼びます．
そうでない分類モデルは，ブラックボックス型と呼ぶことにします．
次に，出力される分類モデルが属性集合で定義される空間において，線形か非線型か，によって分類することもあります．

それぞれの視点から，よく用いられる分類学習アルゴリズムを列挙すると以下のようになります．

ホワイトボックス・線形*1
- 決定木
- 分類ルール学習
- 判別分析
- 回帰木
- 線形回帰
ホワイトボックス・非線形
- 事例に基づく学習（k-NNなど）
- ロジスティック回帰
ブラックボックス・非線形
- ニューラルネットワーク
- サポートベクターマシン(SVM)

分類学習アルゴリズム利用の目的

分類学習アルゴリズムの適用目的は，第一にデータから自動的に分類予測が得られる頑健*2でより正確な分類モデルを得ることです．

また，データマイニングでは，目的変数の分類や識別に関連する属性を分類モデルから得ることも，その適用目的の一つです．
そのため，上記のホワイトボックス型分類モデルは，重要な役割を果たします．
これらのモデルでは，分類予測に関わる属性や属性間の影響の強弱（そもそも要らない属性の特定なども）を比較可能にします．

一方，決定木などは質的な目的変数に対する分類精度（正解率）の高さから，問題によっては，従来，パターン認識としてブラックボックス型の分類学習アルゴリズムが適用されていたようなものでも必要な精度を出すこともあります．
ただし，パターン認識としたほうが相応しい場合に決定木などホワイトボックス型の分類学習アルゴリズムを用いる場合には，前述の目的も含んでいると考えられます．
そのため，これまで分からなかった専門家の着眼点の計測可能化などの利点を付け加えられることが期待できます．
逆に，「便利なツールがあったから」では，提案内容全体の評価まで悪い影響を受けてしまう恐れがあります．

*1:いずれも，複数の属性間での属性の合成や値の変換を伴わないこと

*2:頑健性は，訓練データに対する適度な汎化性能から得られます．

Enjoy Data Mining!

データマイニング手法やデータマイニングツールの使用法などの備忘録

分類モデルの選定について

分類学習アルゴリズムの類型

分類学習アルゴリズム利用の目的