
クラスター分析とは、異なる性質を持つものの集団を特定のルールに基づいて、似たもの同士のクラスターに分けることで集団を分類する分析手法を指します。
クラスター分析は教師なし学習の1つで、データのカテゴリー分けの正解を与えないまま分類を行います。そのため、データの分類基準がはっきりしていないデータを分類する際に用いられることが多いです。(データのカテゴリー分けの正解を決める方法は教師あり学習と呼ばれます。例えばメールに関するデータから迷惑メールとそうでないメールを分類するのは教師あり学習、メールの特徴から似たようなグループに複数分類するのは教師なし学習です。)
クラスター分析を活用することによって、外的基準(性・年代など)に左右されず、生活者の意識や価値観といった潜在的な性質に沿ってセグメンテーションをすることができ、生活者をより一層理解しやすくなります。
クラスター分析は主にマーケティングにおける顧客のセグメンテーションを行う際に主に用いられます。例えば、以下のような分析に利用されます。
・商品の購買基準から顧客をいくつかのセグメントに分類
・取り扱っている多数の商品をいくつかのカテゴリーに分類
クラスターについて似ている者同士を結び付ける手法はいくつかあるため、その代表的な手法を紹介します。
階層的クラスタリングは、似ているクラスター同士を階層的に表す手法のことで、デンドログラムという図で階層構造を視覚的に表すことができます。例えば、下のデンドログラムでは、データは大きく2つに分類され、片方のカテゴリーの中で大きく2つの分類があることが視覚的に把握できます。
階層的クラスタリングでは、データの中で最も近い組み合わせを見つけてグループ化していき、さらにそのクラスター同士で似ているものを分類していくことで階層構造を表します。
クラスター同士の類似度を測る方法はいくつかあり、以下のようなものがあります。よく用いられるのはWard法です。
データが多くなったり変数が多くなった場合、階層的クラスタリングでは階層構造をうまく作成できない場合があります。そのような時には非階層的クラスタリングを使用します。
非階層的クラスタリングの代表的な手法であるk-means法では、以下のような手順でクラスタリングを行います。
まず、ランダムにクラスターの中心が振り分けられます。画像(a)ではk=2で赤と青2つのクラスターの中心がランダムな点に振り分けられていることが確認できます。次にそれぞれのクラスターの中心と距離が近いものから順にkこのクラスターに分割します。画像(b)では、赤と青の×印に近いデータがそれぞれ赤と青に分類されています。このようにデータが分類されたら、それぞれのデータの重心(平均値)を求めます。画像(c)では、形成された赤と青のクラスターのちょうど真ん中くらいの位置に新しい×印が形成されています。このような手順を繰り返すことによってクラスタリングを行います。
アンケートもインタビューも最短半日で完了する、業界最速水準の消費者調査を提供しています。これまで1週間以上かかっていた調査も最短半日で完了し、利用したほぼ全てのクライアント企業様から「スピードが他社よりも速い」と認識頂いています。戦略コンサルティング会社出身者がサポートすることにより品質を向上する一方で、最適な手法を選択することで価格もリーズナブルに抑えられることも特徴です。