クラスター分析とは、異なる性質を持つものの集団を特定のルールに基づいて、似たもの同士のクラスターに分けることで集団を分類する分析手法を指します。
クラスター分析は教師なし学習の1つで、データのカテゴリー分けの正解を与えないまま分類を行います。そのため、データの分類基準がはっきりしていないデータを分類する際に用いられることが多いです。(データのカテゴリー分けの正解を決める方法は教師あり学習と呼ばれます。例えばメールに関するデータから迷惑メールとそうでないメールを分類するのは教師あり学習、メールの特徴から似たようなグループに複数分類するのは教師なし学習です。)
クラスター分析を活用することによって、外的基準(性・年代など)に左右されず、生活者の意識や価値観といった潜在的な性質に沿ってセグメンテーションをすることができ、生活者をより一層理解しやすくなります。
クラスター分析は主にマーケティングにおける顧客のセグメンテーションを行う際に主に用いられます。例えば、以下のような分析に利用されます。
・商品の購買基準から顧客をいくつかのセグメントに分類
・取り扱っている多数の商品をいくつかのカテゴリーに分類
目的や仮説がないままに分析を行っても、コンピューターが法則性に則りただデータを分類するということ以上の価値は生まれません。何個クラスターをつくるのか、そのクラスターのセグメント分けはどのようなものが考えられそうか、データを分類したうえで何に役立てるのか、といったデータ分析をする前の段階の準備が必要不可欠です。
クラスター分析は分類ができるというだけであり、分類された結果に対してそれぞれがどのような性質を有しているクラスターなのかは、クラスターごとの集計結果から人間が解釈する必要があります。
クラスタリングは設定する手法や変数を少し変えるだけで結果が変わることがあります。また、後述するk-means法はクラスタリングをする際によく用いられますが、分析ごとに結果が変わる可能性があったり、各クラスターが同じ半径をもつという過程を置いていたりと、完璧な分類方法ではありません。
クラスター分析は単純な分類を行うだけであり、「次に何をすべきか」という示唆を与えるものではありません。市場の分析や自社のポジショニングを確認する際などには有用ですが、そういった市場を分析したうえで「今後何をすべきか」を明らかにするには回帰分析の方が役に立ちます。
詳しくは回帰分析のページをご覧ください。
クラスターについて似ている者同士を結び付ける手法はいくつかあるため、その代表的な手法を紹介します。
階層的クラスタリングは、似ているクラスター同士を階層的に表す手法のことで、デンドログラムという図で階層構造を視覚的に表すことができます。例えば、下のデンドログラムでは、データは大きく2つに分類され、片方のカテゴリーの中で大きく2つの分類があることが視覚的に把握できます。
階層的クラスタリングでは、データの中で最も近い組み合わせを見つけてグループ化していき、さらにそのクラスター同士で似ているものを分類していくことで階層構造を表します。
クラスター同士の類似度を測る方法はいくつかあり、以下のようなものがあります。よく用いられるのはWard法です。
データが多くなったり変数が多くなった場合、階層的クラスタリングでは階層構造をうまく作成できない場合があります。そのような時には非階層的クラスタリングを使用します。
非階層的クラスタリングの代表的な手法であるk-means法では、以下のような手順でクラスタリングを行います。
まず、ランダムにクラスターの中心が振り分けられます。画像(a)ではk=2で赤と青2つのクラスターの中心がランダムな点に振り分けられていることが確認できます。次にそれぞれのクラスターの中心と距離が近いものから順にkこのクラスターに分割します。画像(b)では、赤と青の×印に近いデータがそれぞれ赤と青に分類されています。このようにデータが分類されたら、それぞれのデータの重心(平均値)を求めます。画像(c)では、形成された赤と青のクラスターのちょうど真ん中くらいの位置に新しい×印が形成されています。このような手順を繰り返すことによってクラスタリングを行います。