ロジスティック回帰分析は回帰モデルの1つで、回帰分析の記事で紹介したように因果関係を測定する際に使用します。(回帰分析に関してはこちらの記事をご覧ください)
通常の回帰モデルと異なっている点は、調べたい結果の変数(被説明変数)が0か1の2値変数をとるときに用いる点です。説明変数によってつくられる値に対して、累積密度関数を確率に変換することができます。確率への変換に標準正規分布を使ったモデルのことをプロビットモデルといい、ロジスティック分布を使ったモデルをロジットモデルといいます。特に、ロジットモデルのことをロジスティック回帰分析と呼ぶことが多いです。
後述するように、プロビットモデルとロジットモデルはどちらも使っても結果の値がほぼ同じになることが多く、両者どちらも選択しても特に大きな違いは生まれません。
(ロジットモデルは指数関数exp(x)を使用しているため微分が行いやすく統計解析ソフトで数値計算を早く正確に行えるという点で広く使われてきましたが、現在はコンピュータの高性能化によりそのメリットは薄れています。しかし、慣習的にロジットモデルの推定は引きつづき多く行われているそうです。)
被説明変数が0か1の2値変数をとるときにこのモデルを使用します。0か1の2値をとる変数はダミー変数と呼ばれ、異なる2つ、または2つ以上のグループを区別する際に使われます。
例えばある広告キャンペーンを実施してコンバージョンにつながった人を1、コンバージョンしなかったひとを0とするダミー変数を被説明変数として用いたいときにこのモデルを使用します。そうすることでどの要因がコンバージョンにプラスとマイナスの影響を与えているかがわかるようになります。
他のケースとして、職業満足度を「1.満足している 2.まあまあ満足している 3.あまり満足していない 4.満足していない 」と聞いたとします。このように被説明変数が2変数以上の数値をとる場合は順序付きプロビット/ロジットモデルを使用することができます。また、満足度のように順序付けできない離散変数の場合(例えば営業職、マーケティング職、ファイナンス職といったカテゴリーなど)でも多項ロジットモデルを使うことができます。
ロジスティック回帰分析は通常の回帰分析と異なり、説明変数の係数パラメーターを直接的に解釈することはできず、解釈可能な値を得るためには推定結果に少し加工を施す必要があります。
ロジットモデル(ロジスティック回帰分析)の場合、回帰係数の推定値を指数関数で変換することによりオッズ比として解釈することが可能です。
実際の計算では指数関数exp()に係数を代入することでオッズ比を得ることができます。説明変数が量的変数の場合は、1単位あたりのオッズ比になり、説明変数が質的変数の場合は、他のカテゴリー(女性など)に対するあるカテゴリー(男性など)のオッズ比となります。
オッズ比の値の大小で、影響を与えている要因かどうかという因果関係を導くことは可能ですが、数値通りに○○倍という解釈をすることはできません。
あるロジスティクス回帰分析の結果、係数をオッズ比に変換したものが6だからといって、その要因があるとないとでは結果に対し6倍の違いがある、とはいえません。あくまで6という大きなオッズ比をとるため結果に対し影響を与えている要因らしい、ということがいえるのです。
また、プロビット・ロジットモデル両方に対し、数学の偏微分と対応する概念である、限界効果を用いた解釈も行えます。この限界効果は、「その他の要素を一定としたとき、ある1つの要素を変更した時にどれくらい効果があるか」という解釈ができます。
実務上では統計ソフトで各個人の限界効果の平均値を算出することで説明変数の効果を推定します。実際に計算してみるとロジットモデル、プロビットモデル、または線形確率モデル(被説明変数が2値のものに対して通常の回帰分析を行ったモデル)の間で、それぞれの限界効果はおよそ似た値をとることが多いです。