大学院生で統計を学んでいるそらです!
この記事では、
- 主成分分析で寄与率・累積寄与率の目安が分からない
- 累積寄与率が低いけど、どうすればいい?
という方に、主成分分析で寄与率・累積寄与率の目安や低い場合の解釈方法について、注意点なども含め分かりやすく解説していきます。
主成分分析の細かい計算方法や求め方については、難しいので割愛します。
結論から言うと
- 主成分分析で寄与率の目安
・固有値が1以上
もしくは
・スクリープロットでなだらかになる手前(目視でok)
- 累積寄与率の目安
25%以上(データによる)
- 累積寄与率が低いけど、どうすればいい?
データとして使えないので再度見直す。
①主成分をもっと取る
②不要な項目を消して再度統計を取り直す
③スクリープロット(グラフの種類)で1を越えている主成分を取る
となります。
※本や先生によっても意見が分かれるところなので、答えの一つとして考えてください。
分析の手順としては 「固有値・固有ベクトル」 → 寄与率(この記事) となります。
主成分分析で出る「寄与率」とは?
全体のうち、その因子で説明できる%を表しています。
英語ではProportion of Varianceと言います。
一番下から2行目のProportion of Varianceが「寄与率」です。
Comp.1は0.32なので32%
Comp.2は0.24なので24%
になります。
主成分分析で選択する「寄与率の目安」
寄与率の目安はこれしかダメ!とは決まっていませんが
一般的には、
・固有値が1以上
もしくは
・スクリープロットでなだらかになる手前(目視でok)
※どちらかと言えばスクリープロットの方で解釈する方がいい
となっていることが多いようです。
※書きたい論文によっても違ってきます。
また、解釈方法は複数人で確認して議論して決めるのがよいそうです。
細かくは決まっておらず経験や主観できまるので、自分の書きたい論文と同じ分野の論文を参考にして寄与率を選びましょう!
主成分分析で出る「累積寄与率」とは
寄与率の合計(%)のこと。
英語では、Cumulative Proportion などと書きます。
一番下の行にあるCumulative Proportionが「累積寄与率」です。
Comp.1だけでは累積寄与率が0.32なので32%
Comp.2を入れると、0.24プラスされるので57%になります。
主成分分析の累積寄与率の目安は25%以上
明確には決まってませんが、~25%くらいでもいいです!
※ただし、分析したいデータによって違ってくるので、やりたい研究に近い論文を3本くらい読んで同じようにやるのがいいです。
教科書だと70%とか80%とかで出ている場合もありますが、
実際にはそんな高くなることはまれ!
なので25%くらいでも良いそう。
また、後々の解析を考えて「5個あると分析が大変だから3個にした」という感じでも決められるそう。
下限ですが。10%や20%まで低いと全体の1/10や1/5しか説明できなくなるので推奨はされていません。
しかし、具体的に「この項目と結果の関係を見たい」というのが決まっていれば累積寄与率が低くても研究としては成立する場合があります。
主成分分析で累積寄与率が低い場合はデータとして使えない?
使えません。
※ただし、具体的に「この項目と結果の関係を見たい」というのが決まっていれば累積寄与率が低くても研究としては成立する場合があります。
累積寄与率が低い場合の対処法としては、
①主成分をもっと取る
主成分をとることで累積寄与率が上がっていきます。
②不要な項目を消して再度統計を取り直す
重なっている項目があればどちらかを削除していくことで累積寄与率が上がります。
③スクリープロット(グラフの種類)で見る
↑スクリープロットはEZRで出したものです。
主成分の固有値が、各データ変量の標準化されている分散の値である1を越えている主成分を取ります。
まとめ:主成分分析で寄与率・累積寄与率の目安や低い場合の解釈方法
- 主成分分析で寄与率の目安
・固有値が1以上
もしくは
・スクリープロットでなだらかになる手前(目視でok)
- 累積寄与率の目安
25%以上(データによる)
- 累積寄与率が低いけど、どうすればいい?
データとして使えないので再度見直す。
①主成分をもっと取る
②不要な項目を消して再度統計を取り直す
③スクリープロット(グラフの種類)で1を越えている主成分を取る
となります。
主成分分析と聞くと難しくて取っつきにくいイメージですが、
使えるようになれば解析の幅も広がるのでぜひ習得してみてください!