データマイニングとは?意味や手順、分析手法、メリット、類似用語
- Writer:
- 山崎雄司
データマイニング(Data mining)とは、収集された膨大な情報から傾向や関連性を見出す分析手法のこと。
データマイニングとは
データマイニングとは、大量のデータから有用な情報やパターンを抽出するための一連の手法やプロセスを指す。予想される事象の発生確率を見出し、データの類似性から新たな仮説を立てることができる。人間が直接分析するには膨大すぎるデータを扱うための技術であり、ビッグデータ解析の根幹ともいえる。
データマイニングで得られるDIKW
データマイニングでは、以下の4つの要素が得られる。
・データ(Data):画像、音声、数値などの素材、生データ
・情報(Information):整理、カテゴライズして解釈できる形にしたデータ
・知識(Knowledge):分析から得られた法則性やルール
・知恵(Wisdom):知識をもとに人が物事を判断した状態
これらの頭文字をとってDIKWモデルと呼ばれる。「データ」と「情報」から「知識」を抽出し、それをもとに「知恵」を見出す。
なお、データマイニングで実施できるのは「知識」の抽出までであり、「知恵」については扱う人の判断による。基本的に、下に進むほど有用性が高いとされる。
データマイニングの手順
目的の決定・データの収集
効率的かつ精度の高いデータマイニングのために、何のデータを用い、何を分析するかを決め、その内容に合わせた生データ(集計、編集されていないデータ)を収集する。
データの加工
収集したデータには欠損やノイズが含まれている場合があるため、データを特定の形式に整え加工する「データクレンジング」を施し、分析作業をスムーズに行えるようにする。
分析
データ分析の手法は「機械学習」と「統計分析」に分類できる。「機械学習」では、AIを活用して想定外の法則や関連性を見つけだし、複雑な条件が絡む課題の分析を行う。
「統計分析」では、仮説を立て、課題や目的に合わせた分析を行う。実際の分析はツールを用いて行い、仮説は都度検証しデータ収集と分析を繰り返すことで精度を高めていく。
データマイニングに用いる主な分析手法
クラスタリング
データを購買行動や趣味嗜好の類似性に基づきグループ分けする手法。グループごとに適した施策を打つことができる。
ロジスティック回帰分析
「Yes」と「No」を明確に定義できる事象について、その発生確率を算出する分析手法。ある特定の性質をもつ顧客がどのくらいの確率で商品を購入するかが判断できるため、重点的にアプローチしたい見込み顧客の抽出に有効。
アソシエーション分析(マーケット・バスケット)
小売店の販売データから商品とサービスの相関性を見出し、ある特定の商品と同時に買われることの多い商品を見つける際に使われる手法。過去には、米国のスーパーマーケットでこの分析手法を通して「おむつとビールは同時に購入される傾向がある」というデータが抽出され、実際におむつとビールの売り場を隣り合わせにした結果、売上の相乗効果が生まれたことが知られている。
データマイニングのメリット
時間や労力の削減
収集方法とルールは人が決める必要があるが、これまで手作業でしていたデータ収集と分析は自動で行うため、時間や労力を削減できる。
信頼できる「知識」が得られる
マンパワーだけでは大量の情報が処理しきれず、一部のデータからの印象や傾向で施策を決めてしまうといった問題を解決し、より信頼できる精度の高い傾向や相関関係を「知識」として導き出せる。
サービスやプロモーションに活用できる
たとえば、ある条件下で特定の商品やサービスを購入する人が多いなど、データと紐付けて人々のライフスタイルを予測することで、キャンペーンや販促活動を展開する有効な時期を把握できる。
データマイニングと類似する用語
データサイエンス
データサイエンスとは、統計学や情報工学、機械学習などを用いて、大量のデータから問題解決に必要な知見を導き出すことを指す。
データマイニングでできることは、データサイエンスのプロセスにおける「知見を導き出す」部分までであり、導き出された知見の有用性や活用方法は人間が判断する。
ビッグデータ
ビッグデータとは、Web上などに拡散した大量かつ複雑な言語データの集合を指す。データマイニングは分析手法を指すのに対し、ビッグデータは分析対象となるデータの性質のことを指す。
統計学
統計学とは、とあるデータ群の傾向や性質を算出する学問である。データサイエンスやデータマイニングの分析過程で用いられるものとして先に触れていたが、ここでは統計学(統計分析)を一つのデータ分析手法として捉えた場合の二者の違いについて説明する。
データマイニングと統計分析との違いは、仮説の有無である。統計分析は何らかの仮説を立ててからデータの分析を開始するが、データマイニングは「知識」を得ることを目的としているため、明確な仮説はない状態からスタートする。また、データマイニングで扱うデータ量は、統計学よりも多い傾向。
テキストマイニング
テキストマイニングは、顧客アンケートやメール、SNS投稿などの文書データから文字列をフレーズや単語ごとに分解して分析し、有益な情報を抽出する手法。データマイニングはすべてのデータを対象に情報を抽出するのに対し、テキストマイニングは文字列のみを対象とした分析手法である。