Enjoy Data Mining!

データマイニング手法やデータマイニングツールの使用法などの備忘録

決定木から分類ルール集合への変換

決定木は,根から葉に至る経路が条件分岐からなっていて,訓練データのデータを葉に割り当てていく上で尤もらしくなる過程を表しています. この過程を用いて,節と枝に与えられら属性と関係演算子と値を組み合わせて条件節,葉に割り当てられたクラスを結論…

分類ルール(if-thenルール)学習

分類ルールの獲得は,人工知能研究において古くから行われてきた研究の一つです. 分類ルールはif-then形式で得られ,プロダクションシステムのように,if-then-elseの予測過程を繰り返すことで未知データへの予測を行うことでシステムに知的な振る舞いを与…

決定木の基本的な考え方

マイニング手法としてクラス(質的な目的変数)を分類予測するとき,よく用いられる手法として決定木があります*1. データマイニングというと決定木という印象をもっている方も多いことと思います. 決定木は,分類予測に至る道筋を一意に表現できるため,…

分類モデルの選定について

何らかのデータがあって,データに基づいて自動的に分類を行いたい場合,分類学習アルゴリズムによる分類予測(識別・判別などと呼ぶこともあり)を行うことが可能です. このとき,目的によって分類学習アルゴリズムの適用結果である分類モデルの性質に気を…

CSVデータの読み込みと書き出し

WekaをMicrosoft Excelなどの表計算ソフトと連携するとき,ファイル形式の不一致が問題になることがあります. 少しずつですが,Wekaで扱えるファイル形式も増えてきていますが,現在のところExcelなどの商用ソフトの独自形式は直接読み込めません. この場…

コマンドラインでのWekaの利用法(その1)

Wekaは,ExplorerやKnowledge FlowなどのGUIを通しての利用だけではなく,通常のJavaクラスと同様にAPIやコマンドラインからも利用可能です. Perlなどのスクリプト言語から,複数の訓練データやテストデータを指定して同じアルゴリズムを実行するのに便利で…

属性の設定について

データマイニングでは教師あり学習アプローチで数値予測や分類予測を行う問題を扱うことがあります. また,そうでなくても属性-値のペアで連関のあるものを見出すこともあります. このような問題を扱うとき,決定木,回帰木,数値予測モデル,if-then形式…

再開してみました

以前,どこからもリンクを張らずに開設していたブログをはてなに引っ越ししました. データマイニングに関する内容を少しづつアップしていく予定です.ノートPCも新しいものに引っ越したので,心機一転がんばって1日1記事を目指したいと思います. ...…

データマイニングが登場した背景

データマイニングの登場には,情報通信や計算機技術の発展が強く関係しています.特にデータの集積に関しては,計算機の性能が向上し,補助記憶装置(ハードディスク)などの記録装置の容量も飛躍的に向上したことにより,容易に蓄積が可能になってきました…

データマイニングのプロセス

データマイニングが提唱されたと同時に,データの準備から規則性(パタン)の生成,評価から経済活動や研究活動といった現場にデータベースに保存されたデータから得た知識を報告するまでに至るプロセスが提唱されました.このプロセスは,蓄積されたデータ…

データマイニングとは(2)

データマイニングとは,呪文のように「データベースからの有益で未知なパタン(知識)の発見」とか,従来のデータ分析技術を統合した枠組み,というように唱えていても,なかなか現実にピンとこないと思います.過去の事実(蓄積されたデータ)から規則性を…

データマイニングとは

データマイニングとは,1990年代後半にかけて,データ分析のありかたを整理した概念として提唱された言葉です.当初の「データマイニング」の定義は,「データに内在する未知で有用な規則性(パタン)を見出すこと」であり,様々な要素技術から成る一連のプ…

Enjoy Data Miningについて

このサイトの目的は,hidenao個人が行っているデータマイニングに関する研究について,頭の中を整理したり,備忘録として使うことです.そのため,記述の正確性については保証できませんので,書籍を適宜紹介していきます.また,大学などの教育機関でこのサ…