Enjoy Data Mining!

データマイニング手法やデータマイニングツールの使用法などの備忘録

再開してみました

以前,どこからもリンクを張らずに開設していたブログをはてなに引っ越ししました.
データマイニングに関する内容を少しづつアップしていく予定です.

ノートPCも新しいものに引っ越したので,心機一転がんばって1日1記事を目指したいと思います.
...と,あまり意気込むと長く続かないので,まずは,書いてみることからやっていきます.

データマイニングが登場した背景

データマイニングの登場には,情報通信計算機技術の発展が強く関係しています.特にデータの集積に関しては,計算機の性能が向上し,補助記憶装置(ハードディスク)などの記録装置の容量も飛躍的に向上したことにより,容易に蓄積が可能になってきました.この流れは,1980年代に小型計算機が普及したことにより,より多くの分野でデータの大量蓄積を可能にしました.もちろん,データを取得・蓄積・管理するためのデータベース管理システムの発展も大きくこの流れに寄与しています.

このような技術の浸透は,ビジネス分野のみならず,自然科学・社会科学・医療といった分野にも及び,それぞれの分野でデータから有用な知見を得るための分析が行われることに注目が集まり始めました.しかし,従来のデータ分析は,データベース統計解析機械学習の分野でそれぞれの立場を主張して行われていたのです.例えば,データベース技術は分析者に便利な命令セット(あるいはそれらを作成する機能)を提供し,どれだけ有用な規則性が発見されるかは分析者に任されていました[商業的には,用意した命令セットやそれらを作る機能が優れていることで,誰もが有用な発見が可能であるかのように宣伝されてしまうこともあった].

データの収集については,データベース技術によるところが大きいのですが,事象のモデル化やそのモデル管理人工知能知識技術と関連していると考えられますし,得られた規則性の評価や推測・推定といった分析は統計解析が得意としてきたところでもあります.また,人工知能の分野では,機械学習アルゴリズムによって分類規則をはじめとする規則性の生成手法が数多く存在しましたし,現在でも多くのアルゴリズムが開発されています.統計解析でも,各種の回帰判別分析など,データから特徴的なモデルを生成することが可能です.これらの多くの技術を統合し,ひとつの考え方の基で必要が技術をそれぞれの処理で選択可能とすることを提唱したのがデータマイニングという枠組みなのです.

データマイニングのプロセス

データマイニングが提唱されたと同時に,データの準備から規則性(パタン)の生成,評価から経済活動や研究活動といった現場にデータベースに保存されたデータから得た知識を報告するまでに至るプロセスが提唱されました.このプロセスは,蓄積されたデータベース中のデータから目的にあったデータを選択・補強・整形して,規則性を得て,評価を行うという一連の流れを中心に,それぞれの処理で何か問題があるときはそれ以前の処理を見直すフィードバックが必要であることを示しています.






データマイニングに関する研究が進むにつれ,当初提唱されていた多重のフィードバックループを持ったプロセス(上図)をいくつかの部分に分けて議論するようになってきました.データの選択・補強・整形をする部分を「データの前処理」,前処理されたデータから規則性(パタン)を得る部分を「マイニング」,パタンを評価可能にする可視化や専門家による評価行為などを含む「結果の後処理」の3つの部分です.データマイニングの研究者の間では,データの前処理:マイニング:結果の後処理=7:1:2などと言われています.さらにデータを収集する手間,結果として報告されたパタンを組織活動に生かしていく労力がかかります.

上述のようなデータマイニングプロセスから,データの収集や問題設定まで含めた”準備段階”や組織活動への反映という要素を加えて提唱されたのがCRISP-DMです.CRISP-DMは主にデータを活用した企業活動を念頭に置いて,PDCAサイクルのようにデータマイニングを用いた組織運営を目指すものです.ちょうど,準備段階が計画(P),実際のデータの処理からモデルの作成が実行(D),モデルの評価が検証(C),知識を基にした行動がAction(A)にあたります.





データマイニングとは(2)

データマイニングとは,呪文のように「データベースからの有益で未知なパタン(知識)の発見」とか,従来のデータ分析技術を統合した枠組み,というように唱えていても,なかなか現実にピンとこないと思います.

過去の事実(蓄積されたデータ)から規則性を見出すためには何が必要か?その課題に一つ一つ応える技術の総称がデータマイニングと考えられます.データマイニングで提唱されている「データの前処理(準備)」「マイニング(パタンやモデルの生成)」「結果の後処理(評価)」はそれぞれ,以下のような詳細な課題へ繋がります.

「データの前処理(準備)」:
何を観測し,規則性の基となる属性(項目)を設定するのか,そして,どのような規則性を見出すのか
「マイニング(パタンやモデルの生成)」:
規則性を見出すために適切な解析方法は何か
「結果の後処理(評価)」:
見出された規則性は設定した問題に対して有用なのか,また,有効に使える場面とはどのような対象に対してなのか

このように,データの用意・問題の設定・規則性(パタンやモデル)の生成・規則性の評価までの含む枠組みがデータマイニングです.しかし,これらの技術は目新しいものではなく,統計解析では解析とドリルダウンや変数選択の繰り返しによって規則性を見出して評価していました.同様に,機械学習でも背景知識の導入とそこから得られたモデルの評価を行っていました.

では,「何をすればデータマイニングなのか?」と問われると,難しいところです.各研究者・実務者で意見は異なると思いますが,私からの一つの解は,従来の解析がデータやアルゴリズムの評価が目的だったものが,見出した規則性を手段として別の目的を達成することに重点が置かれることではないだろうか,というものです.また,規則性を生成し,評価・適用する一連の過程を確立すること,そして継続的にこの過程を利用していくことがデータマイニングの実践ではないか,と考えています.

データマイニングとは

データマイニングとは,1990年代後半にかけて,データ分析のありかたを整理した概念として提唱された言葉です.当初の「データマイニング」の定義は,「データに内在する未知で有用な規則性(パタン)を見出すこと」であり,様々な要素技術から成る一連のプロセスを指しています.データマイニングは,それ自体が全く新しい技術ではなく,それまで別々に研究や利用が行われていた”データの扱いや分析”に関する技術を総合して扱うための呼称です.

データマイニングは,データの蓄積から規則性の抽出,規則性を評価して知識として利用することまでが含まれます.これは,それまでのデータ分析に関する技術でも暗黙に行われていた,あるいはそれぞれの問題として研究が行われていました.現在は,データマイニングを行う領域(ドメイン)や扱うデータによって,様々な○○マイニングがあります.これらは,実用的に役立っているものもありますし,研究段階のものも多くあります.


amazon:データマイニング
amazon:data mining

Enjoy Data Miningについて

このサイトの目的は,hidenao個人が行っているデータマイニングに関する研究について,頭の中を整理したり,備忘録として使うことです.

そのため,記述の正確性については保証できませんので,書籍を適宜紹介していきます.

また,大学などの教育機関でこのサイトの記述を利用し,不利な評価を得た場合についても当方は一切の責任を負いません.なお,このサイトの記述を引用する場合は,出典を明記する処置(参考文献にリストアップする,トラックバックする等)を講じて下さい.それ以外は盗用とみなします.