因子分析とは、ある観測された変数に対しどのような潜在的変数が影響を与えているかを探る分析手法です。
いくつかの変数が相互に高い相関を持つとき、それらの変数は何か共通のものを測定していると考えられます。この観測されたデータの相関関係から、データに共通して影響を与えている因子を探り、各変数の性質をよりコンパクトな形で記述することが因子分析の目的です。
例えば、国語のテストと英語のテストに強い相関関係があり、数学と物理の間にも強い相関関係があるとすれば、その背後には言語能力と数的能力という2つの因子があることが推測されます。因子分析はこのように、観測されたデータから、その背後にあって直接測定できない要因を逆算して求める手法といえます。
消費者調査のアンケートや職場満足度といったアンケートの結果を分析する際に、質問項目が多くなりすぎると結果の解釈が困難になることが多々あります。そこで、いくつもある変数のうち相関関係の高いものを見つけ、それらに共通していそうな要因を抽出してシンプルにすることでより結果の解釈や示唆の提示を楽に行うことができます。
競合や自社に対して同一の質問項目がある調査を行うことで、主観にとらわれることのない純粋に客観的・定量的なニーズの調査が行えます。
例えば、車の各性能について自社のイメージを評価してもらい、より少数の因子に抽出します。ここで得られた「コストパフォーマンス」、「デザイン性」、「機能性」等といった因子に関して他の属性(年齢、性別、居住地など)でグループ分けすることで顧客の潜在的なニーズを理解しやすい形で把握することができます。ある年代に特に強く影響している因子を発見したり(若い世代はデザイン性とコストパフォーマンス、中年世代は機能性や安全性など)、年代ごとの重要視している要素を明らかにすることができます。
また、同じ質問項目を競合の各社についても消費者に尋ねることで、得られた共通因子からポジショニングマップを作成することもできます。
因子分析の基本的な考え方は、ある観測された変数は”観測変数の背後にある共通因子”と”その変数独自の要因”という2つの変数であらわされるというものです。
ある観測された変数をXとすると、数学的なモデルは
Xj=aj1Fj1+aj2Fj2+dj1Uj1
と表されます。ここで、F1とF2は共通因子、U1は独自因子、a1とa2は因子負荷と呼びます。つまり、あるXというデータは、F1、F2、U1という要因にそれぞれ重み付けをして足し合わせたものといえます。例えば、これがXが作文の点数であるとすれば、
作文の点数=a1×言語能力+a2×数的能力+d1×作文独自に必要な能力
という風に表せます。ここでaとdはそれぞれの能力がどの程度影響を与えているかという影響力の強さを表しています。作文の点数の例でいえば、a1は大きい値をとり、a2は小さい値をとることが想像できます。
因子負荷:上のモデルのaで、それぞれの観測変数がその因子をどの程度反映しているかを表します。この因子負荷を計算することが因子分析最大の目的であり、因子名を決める際はこの数値を見て決めます。
因子寄与:上のモデルでは観測変数がある因子で説明できる大きさを表す指標です。
因子寄与率:因子寄与を%表示したものです。
共通性:観測変数のうち、共通因子によって示される情報の割合を表したものです。各因子負荷の二乗和です。共通性が高いほど、独自因子の影響が小さいことを表しています。
因子の数は人が決めることになりますが、この際明確な仮説や基準がないままに因子の数を決定しても分析結果を解釈することが困難になってしまいます。明確な仮説がない場合は、上記で紹介した定量的な手法を採用し統計ソフトである程度因子数の目安を付けることが重要です。
因子分析は相関関係をもとにした分析方法であるため、変数間の相関関係がないデータに関しては因子分析を行っても相関係数に反映されません。また、データは数量的に記録されている必要があり、質的データは分析不可能です。共通因子は観測変数より少なくなるため、質問項目は共通因子の目安3-4倍が望ましく、回答者は項目数の5-10倍程度が望ましいです。なお、因子分析では4段階、または6段階の評価を利用することが多いです。
因子分析はデータに影響を与えている要因の共通因子を抽出する方法であり、因子(原因)がデータ(結果)に影響を与えていると考えます。一方、主成分分析では多数のデータから少数の主成分として表す方法であり、データ(原因)から主成分(結果)が作られます。このような性質を持つため、同じデータで因子分析と主成分分析を行うと主成分と共通因子の値は非常に似た値を持つことになります。