ロジスティック回帰分析でよく出てくるキーワードが「多重共線性」です。
そこでこの記事では、ロジスティック回帰分析での多重共線性の調べ方や調整方法などをまとめています。
多重共線性があると結果が正しく出ない
(多重)共線性とは関連の高い説明変数(独立変数)が存在すると、結果の精度が悪くなり誤ったオッズ比をとったりする現象。
多重共線性が起こりやすい条件として
① 説明変数に相関係数が±1に近い組み合わせが含まれる
② 説明変数の個数がサンプルサイズに比べて大きい
があげられます。
ロジスティック回帰分析での多重共線性を無くす方法
解析前から調整する方法や、解析後に調べる方法もあります。
1.多重共線性がありそうな変数はあらかじめ抜く
解析を行う前に明らかに相関が高い変数は、あらかじめ片方だけを説明変数にいれましょう。
例:BMIは身長と体重から計算されるため、BMIは入れて、身長、体重は抜く
2. 相関で調べて抜く
説明変数間で相関があるかどうか確認。
⇒【EZR】などで相関があるかは調べられます
相関係数0.95 以上が多重共線性の目安です。
相関がある説明変数の組み合わせがみつければ、片方の説明変数を除きます。
3.ロジスティック回帰分析の結果から調べる
EZRでロジスティック回帰分析をすると「vif」という値が出ます。
VIFはVariance Inflation Factorの略で、これが多重共線性を検出するための指標の1つとなります。
多重共線性の目安として、VIF値が 10 以上と言われています。
こちらも相関がある説明変数の組み合わせがみつければ、片方の説明変数を除きます。
どっちを残せばいいか分からない場合、先行研究をいくつか調べてよく含まれている変数を残すようにしましょう。
参考
日本理学療法学会連合:https://www.jspt.or.jp/ebpt_glossary/multicollinearity.html
福山平成大学:https://www.heisei-u.ac.jp/ba/fukui/tips/tip006.pdf