クラスター分析の概要と実施時の注意点

クラスタ―分析とは

クラスター分析とは

クラスター分析とは、異なる性質を持つものの集団を特定のルールに基づいて、似たもの同士のクラスターに分けることで集団を分類する分析手法を指します。
クラスター分析は教師なし学習の1つで、データのカテゴリー分けの正解を与えないまま分類を行います。そのため、データの分類基準がはっきりしていないデータを分類する際に用いられることが多いです。(データのカテゴリー分けの正解を決める方法は教師あり学習と呼ばれます。例えばメールに関するデータから迷惑メールとそうでないメールを分類するのは教師あり学習、メールの特徴から似たようなグループに複数分類するのは教師なし学習です。)

クラスター分析を活用することによって、外的基準（性・年代など）に左右されず、生活者の意識や価値観といった潜在的な性質に沿ってセグメンテーションをすることができ、生活者をより一層理解しやすくなります。

クラスター分析の用途

クラスター分析は主にマーケティングにおける顧客のセグメンテーションを行う際に主に用いられます。例えば、以下のような分析に利用されます。

・商品の購買基準から顧客をいくつかのセグメントに分類
・取り扱っている多数の商品をいくつかのカテゴリーに分類

クラスター分析の注意点

分析の前に調べる目的や仮説を明確にする‍

目的や仮説がないままに分析を行っても、コンピューターが法則性に則りただデータを分類するということ以上の価値は生まれません。何個クラスターをつくるのか、そのクラスターのセグメント分けはどのようなものが考えられそうか、データを分類したうえで何に役立てるのか、といったデータ分析をする前の段階の準備が必要不可欠です。

分類結果の解釈は人間が行う‍

クラスター分析は分類ができるというだけであり、分類された結果に対してそれぞれがどのような性質を有しているクラスターなのかは、クラスターごとの集計結果から人間が解釈する必要があります。

クラスタリングの結果は絶対ではない

‍クラスタリングは設定する手法や変数を少し変えるだけで結果が変わることがあります。また、後述するk-means法はクラスタリングをする際によく用いられますが、分析ごとに結果が変わる可能性があったり、各クラスターが同じ半径をもつという過程を置いていたりと、完璧な分類方法ではありません。

回帰分析との併用が推奨‍

クラスター分析は単純な分類を行うだけであり、「次に何をすべきか」という示唆を与えるものではありません。市場の分析や自社のポジショニングを確認する際などには有用ですが、そういった市場を分析したうえで「今後何をすべきか」を明らかにするには回帰分析の方が役に立ちます。
詳しくは回帰分析のページをご覧ください。

クラスター分析の方法

クラスターについて似ている者同士を結び付ける手法はいくつかあるため、その代表的な手法を紹介します。

階層的クラスタリング

階層的クラスタリングは、似ているクラスター同士を階層的に表す手法のことで、デンドログラムという図で階層構造を視覚的に表すことができます。例えば、下のデンドログラムでは、データは大きく2つに分類され、片方のカテゴリーの中で大きく2つの分類があることが視覚的に把握できます。

‍

階層的クラスタリングでは、データの中で最も近い組み合わせを見つけてグループ化していき、さらにそのクラスター同士で似ているものを分類していくことで階層構造を表します。

クラスター同士の類似度を測る方法はいくつかあり、以下のようなものがあります。よく用いられるのはWard法です。

重心法：2つのクラスターそれぞれの重心(平均)間の距離をクラスター間の距離とする
最短距離法：2つのクラスタ―に含まれるデータの中で最も近いデータ同士の距離をクラスター間の距離とする
最長距距離法：2つのクラスターに含まれるデータの中で最もと多いデータ同士の距離をクラスター間の距離とする。
Ward法：クラスター内のデータの分散が小さい順にクラスターを分類する。分散はデータがどの程度ばらつきがあるかを表す記述統計量です。

非階層的的クラスタリング

データが多くなったり変数が多くなった場合、階層的クラスタリングでは階層構造をうまく作成できない場合があります。そのような時には非階層的クラスタリングを使用します。

非階層的クラスタリングの代表的な手法であるk-means法では、以下のような手順でクラスタリングを行います。

ランダムにk個のクラスターの中心を決める。(何個のカテゴリーに分類したいか、kは自分で決める)
すべてのデータについて、1で定めたクラスターの中心のうち、最も近いものにデータを振り分け、kこのクラスターに分割する。
k個のクラスターの重心(平均値)を求める
3で求めた重心を用いて、再度データを振り分ける。グループの振り分けが変わらなくなるまで繰り返す。

まず、ランダムにクラスターの中心が振り分けられます。画像(a)ではk=2で赤と青2つのクラスターの中心がランダムな点に振り分けられていることが確認できます。次にそれぞれのクラスターの中心と距離が近いものから順にkこのクラスターに分割します。画像(b)では、赤と青の×印に近いデータがそれぞれ赤と青に分類されています。このようにデータが分類されたら、それぞれのデータの重心(平均値)を求めます。画像(c)では、形成された赤と青のクラスターのちょうど真ん中くらいの位置に新しい×印が形成されています。このような手順を繰り返すことによってクラスタリングを行います。

‍

クラスタ―分析を調べた人は、他にもこんな用語をチェックしています

クラスタ―分析をご検討なら
Quest Researchにご相談ください

実施企業数

40

社以上

調査実績

225

件以上

Intv.実績

2,120

人以上

掲載パネル数

1,900

万人以上

クラスタ―分析の実施等に関するご相談はこちら

画面が切り替わらない場合は、こちらをクリックしてください。

エラーが発生しました。インターネット接続を確認の上、再度お試しください。それでもエラーが発生する場合は、お手数をおかけしますが、support@quest-research.co.jp 宛にメールにてご連絡ください。