Enjoy Data Mining!

データマイニング手法やデータマイニングツールの使用法などの備忘録

分類ルール(if-thenルール)学習

分類ルールの獲得は,人工知能研究において古くから行われてきた研究の一つです.
分類ルールはif-then形式で得られ,プロダクションシステムのように,if-then-elseの予測過程を繰り返すことで未知データへの予測を行うことでシステムに知的な振る舞いを与えるために用いられてきました.このような,古くからある分類ルール(if-thenルール)獲得では,訓練データの扱いは現在の機械学習と比べて暗黙的だったり,順番を仮定するなど,多種多様でした.
その中でも,属性(説明変数)間は独立であり順序関係を規定しなくてもよく,訓練データ(インスタンス)の入力順に左右されないアルゴリズムがデータマイニングでも用いられます.さらに,90年代以降,計算機の計算やデータ蓄積量の増大に伴って,相関ルール生成を応用した分類ルール学習アルゴリズムなどが開発されてきました.以上のような分類学習アルゴリズムは,訓練データ中に含まれる正例と負例を分割する属性-値ペアを条件節とする分類ルール集合を生成し,ルール集合全体で未知データの予測を行います.それぞれのルールを学習する際,他のルールのデータ分割状況に関係しないことから,このアプローチを分離統治(separate-and-conqure)と呼びます.

また,他の分類器,例えば決定木をif-then形式のルール集合に変換する手法も,基となる分類器学習アルゴリズムの開発と共に行われてきました.
他の形式の分類器を分類ルールに変換する利点は,計算コストが低い分類器学習アルゴリズムが利用可能であることに加えて,ルールの記述が「もし○○が××であれば,△である」という簡潔な記述が人間の利用者にも分かりやすい,とされるためです.ただし,他の形式からの変換過程で,元の分類器の特徴(予測過程の簡潔さや同時並行で起こる相互作用)が失われることも考慮しておく必要があります.このため,変換後のルール集合の予測精度は元の分類器に劣ることもしばしばあります.

分類ルール(集合)の学習

separate-and-conqureのアプローチによるルール学習では,属性-関係演算子-属性値から成る条件節を用いて,訓練データを分割していきます.このとき,なるべく負例を含まないように条件節を設定していきますが,負例の含有度合いをどのような指標で計測するかは,ルール生成アルゴリズムの差異となることもあります.元々,正例と負例の1クラス問題を扱うアルゴリズムでも,クラス値毎に正例を設定するマルチプレクサ処理によって多クラス問題に適用することができます.このアプローチでは,各ルールの初期状態と条件節によって含むデータの増減を決める方法によって,いくつかに類型化されます.

初期状態 条件節の操作
各データをルール化したもの 削除・併合
追加
ランダム 追加・削除

以上の類型から,1つの類型によるもの,あるいは2つ以上の類型を組み合わせたアルゴリズムがそれぞれ開発されてきました.ルールの併合は,同じ条件節(特に数値属性)のルールがある場合,関係演算子を用いて区間やグループとしていく操作です.削除は,条件節をルールから除去しても負例を含まない(含んでも許容範囲)場合に,ルールの条件部から条件節を削除していく操作です.追加は,訓練データの属性と属性値群(数値属性では区間)から,ある関係演算子を用いて条件節を作成してルールの条件部に追加していく操作です.このように,条件部に条件節を追加・削除していく操作は,属性空間中に仕切り線を引いていく探索問題とも考えることができ,様々な探索戦略が適用できます.代表的なものに,各データからルール生成を始める方法(AQファミリーなど),空状態からルール作成を始める方法(C-Aprioriなど),ランダムな初期状態のルール集合に遺伝的アルゴリズム(GA)を適用する方法があります.ただし,属性空間中の仕切り線探索は,非常に組み合わせ数が多く,計算コストがかかり,その状況下で適度な汎化性能が求められるため,探索の効率化という研究的な側面も残されています.
他の分類器に基づく方法では,決定木のルートから葉に至る分岐を条件節として,結論部を葉とする変換方法があります.また,ニューラルネットワークなど,予測過程が複雑な分類器の特徴をルールとして,ルール集合に変換する方法も研究されてきました.

分類ルール(集合)による予測

データから分類ルールを得る手法を適用すると,通常はルール集合が得られます.このため,未知(テスト)データのクラスを予測するためには,まず始めに分類予測に用いるルールをルール集合の中から決定する必要があります.このルール集合からのルールの決定を競合解消と呼び,この決め方を競合解消戦略と呼びます.競合解消戦略は,条件部の長い特殊なルール優先,負例の含有を許した場合は訓練段階においての信頼性優先などの戦略が用いられます.
また,予測を繰り返す過程で各ルールの重み付けを変更するルールベースマネジメント手法の適用も行われることもあります.このような過程で,決定木から変換されたルールなどは,元の分類器での適用順と異なる順でルールが適用されることになります.
競合解消を行って選ばれたルールによって,未知データの属性-値と条件節が照合され,ルールの示す結論が予測として出力されます.順位の高いルールが適合しなかった場合は,次のルールが適用されます.この繰り返しは,if-then-elseの連鎖となります.
しかし,未知データの値域が異なる場合,各ルールの条件節が極端に少ない場合など,全てのルールが適合しない自体が生じます.これを防ぐため,訓練データで最も割合の多いクラスを無条件に適用するデフォルトルールを用いるなどの方策が採られます.

Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems)

Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems)


プロダクションシステムの発展 (朝倉AIらいぶらり)

プロダクションシステムの発展 (朝倉AIらいぶらり)



C4.5: Programs for Machine Learning (Morgan Kaufmann Series in Machine Learning)

C4.5: Programs for Machine Learning (Morgan Kaufmann Series in Machine Learning)


Data Mining and Knowledge Discovery Approaches Based on Rule Induction Techniques (Massive Computing)

Data Mining and Knowledge Discovery Approaches Based on Rule Induction Techniques (Massive Computing)