【初心者用】主成分分析(PCA)とは何がわかる?理論や意味を簡単にわかりやすく徹底解説!【多変量解析】

こんにちは!大学院で統計の勉強をしているそらです!

  • 主成分分析の基本がわからない
  • 本を読んでも数式ばっかりで理解できない
  • 主成分分析って何?

という方に、主成分分析とは何がわかるのかや、理論や意味について大学教授に質問したり本を読んだりした内容を簡単にわかりやすく解説していきます。

 

結論から言うと、

主成分分析をする意味や理由としては、

1.データをまとめて、解釈しやすくする。

2.主成分分析のデータをもとに他の項目との関連を調べる

超基本的な内容で用語などもかみ砕いて解説していますので、主成分分析が分からないという方は参考にしてください。

 

 

主成分分析をする意味や理由は?

主成分分析は英語で principal component analysis(PCA)と呼ばれています。

 

「多変量解析」の1つである「主成分分析(PCA)」は医学や心理学など幅広く使われています。

※多変量解析=ザックリ言うと、たくさんのデータを解析する手法

 

犬くん
犬くん
それで、主成分分析はなんでやるの?

主成分分析をする意味や理由としては、

1.データをまとめて、解釈しやすくする。

2.主成分分析のデータをもとに他の項目との関連を調べる

という目的があります。

犬くん
犬くん
データを分かりやすくしてくれるんだね!

 

1.データをまとめて、解釈しやすくする

主成分分析は複数のデータを合成して、新しい概念(主成分)を導き解釈しやすくするという方法です。

例えば、XとYの座標であれば、主成分分析によって2次元のデータを1次元のデータに変換することが可能です。

 

そら
そら
分析するデータ数によって4次元から2次元へ、20次元から5次元へ等もあり!

 

犬くん
犬くん
データが減るのは分かったけど「新しい概念」って何だ?

新しい概念というと難しく感じるかもしれませんが、

身近な例でいうと、BMI(肥満度の数値)があります。

BMI(1つの数)身長と体重(2つの数)から計算することができ、新しい概念を表しています。

犬くん
犬くん
なるほど!

2.主成分分析のデータをもとに他の項目との関連を調べる

2つ目は、主成分分析のデータをもとに他の項目との関連を調べる、分析の前段階として行います。

 

例えば、

犬くん
犬くん
何個かの要因から糖尿病が起こるか起こらないかの確率を知りたい!

という場合、「ロジスティックス回帰分析※」というものをやることになります。

※ロジスティックス回帰分析:いくかの要因(説明変数)から「2値の結果(目的変数)」が起こる確率を説明・予測することができる統計手法です。

この時、

年齢
性別
各食品を食べる頻度(米、野菜、肉、魚、お菓子など)
糖尿病の有無

のデータがあるとして、

 

糖尿病の有無を年齢+性別+各食品を食べる頻度(米、野菜、肉、魚、お菓子など)から割り出したい場合

主成分分析をしない場合

主成分分析をしないでロジスティック回帰分析をする場合、

β₃X₃に入るのは個々の食品ごとの摂取頻度となります。

 

食事単品との関係に着目したい場合はこれで良いですが、野菜が多いからと言って肉や間食が多かったりすると正しい結果が出にくい場合も。

また、

犬くん
犬くん
食事のパターンとの関連を見たかったのに!

という場合、バランスの良い食事との関連を見たくても、食事パターンでのアンケートは摂っておらず単品ごとのデータしかないのでできません。

犬くん
犬くん
諦めるしかないの・・・?
そら
そら
そんな時に登場するのが主成分分析!

主成分分析をしてから解析した場合

食事のバランスとの関連を見たい!というときには主成分分析をしてからロジスティックス回帰分析します。

そこで出た結果を「和食パターン」、「洋食パターン」、「中華パターン」に分けられたとすると

(※主成分分析の結果は、自分で解釈するので好きな名前を付けられます)

各パターンを入れることで、食事パターンとの関連を見ることができます。

犬くん
犬くん
食事単品よりも食事パターンに着目したい場合は主成分分析してから!

このように、主成分分析で得られたデータをもとに回帰分析などを行うことで解釈しやすくなる場合があります。

主成分分析をすると何が分かる?

  • 新たな変数(主成分)
  • 新たな変数をもとに別の解析をすることで他の変数の関連

※変数=データ

が分かります。

 

主成分分析はデータをまとめて分かりやすくするだけなので、

主成分分析だけでは何かと比較検討するわけでもなく

t検定のように有意差がでるようなこともありません。

 

新たな変数と他の変数の関連を出せるようになり、類似性や位置づけを明らかにしてくれます。

主成分分析の理論

主成分分析の理論について分かりやすく解説していきたいと思います!

主成分分析ではプロットされたデータの一番散らばっている所(分散が一番大きい)に向かって軸を作ります。

第一主成分を「pc1」と書きます。

※「z1」と書かれているものもありますが、基本的には同じ意味なのでどちらでも大丈夫です。

犬くん
犬くん
xとy使っちゃったからzにしとくか的な考えで使われているそう

 

pc1だけだと情報が少なくなりすぎてしまうので、pc2をつくります

(pc1と直行、かつ次に散らばり具合の多い所に向かって引く)

これによってデータの次元を減らすことができ、データが分かりやすくなります。

 

犬くん
犬くん
どういう理論で線を引いてるの?
実は、これは後付けなので、背景や意味合いは考えられていない!
そら
そら

固有値と固有ベクトル

そらいろブログ

大学院生で統計を学んでいるそらです! この記事では、 主成分分析で固有値・固有ベクトルの意味が分からない 固有値1以上や…

寄与率と累積寄与率

そらいろブログ

大学院生で統計を学んでいるそらです! この記事では、 主成分分析で寄与率・累積寄与率の目安が分からない 累積寄与率が低い…

実例を交えた主成分分析のやり方

そらいろブログ

今回は、 主成分分析のやり方が分からない 主成分分析で出た結果をどう解釈すればいいか分からない という方に、   この記…

解析後:主成分分析でバリマックス回転はあまりやらない

犬くん
犬くん
主成分分析後にバリマックス回転をやったって書いてある論文があったけど、バリマックス回転て必要?

 

実際、主成分分析でバリマックス回転はあまりやらないですが、

結果が解釈しにくい場合はやってもokです!

 

バリマックス回転とは軸が小さくなるように調整することで、値が0になるものが多くなるので解釈しやすくなります。

本来は因子分析の手法なので、主成分解析でやるべきかというと・・・どちらでもいいです。

主成分分析で行う場合、主成分分析で出た主成分が主成分ではなくなってしまいますので注意してください。

 

バリマックス回転はEZRでは因子分析でしかできず、無料のツールでは「R」でしか行えません。

因子分析では、解釈しにくい場合はバリマックス回転を行うことが多いです。

そら
そら
バリマックス回転をすることで、分かりやすくなり解釈しやすくなる!

まとめ:主成分分析の理論や意味

犬くん
犬くん
まとめ!

主成分分析をする意味や理由としては、

1.データをまとめて、解釈しやすくする。

2.主成分分析のデータをもとに他の項目との関連を調べる

主成分分析というと難しく感じてしまいますが、実際にやってみると面白い分析なのでぜひ一度挑戦してみてください。

主成分分析の参考書の入門書

主成分分析の本は3冊くらい読みましたが初心者向けで一番読みやすかったです。

多変量解析の本ですが、主成分分析の章がちゃんとあります。

章ごとに予習・復習テストがあるので、自分が内容を理解できているかが分かります。

参考

初心者がらくらく読める多変量解析の実践 上 菅民郎

京都大学大学院:主成分分析

スポンサーリンク