こんにちは、大学院博士課程で統計を学んでいるそらです!
医学や心理学など幅広い分野で出てくる多変量解析って何なのかよく分からない・・・多変量解析の種類に何があるのか分からないという方も多いと思います。
そこでこの記事では、超初心者向けに多変量解析とは何かについて、多変量解析の定義や種類をわかりやすく解説したいと思います。
多変量解析の種類
結論から言うと、
・多変量解析とは
多(複数の)変量(データ)を同時に解析する手法のこと
・多変量解析でできることは、大きく分けて2つ
データの要約
データから予測する
となります。
・多変量解析の種類は
主なものは、多変量回帰分析、ロジスティック回帰分析、主成分分析、判別分析、因子分析、クラスター分析
他に、数量化1類、包絡分析法、正準相関分析、分散分析法、潜在構造解析法
となります。
では、多変量解析の定義や意味、多変量解析の種類について、絵などを入れてわかりやすく解説したいと思います!
多変量解析とは?定義や使う理由
多変量解析の定義や使う理由について詳しく解説していきます!
多変量解析の定義とは:複数のデータを扱う手法
まずは多変量解析の定義について、
互いに相関のある多変量(多種類の特定値)のデータのもつ特徴を要約し、かつ所与の目的に応じて総合するための手法
多変量解析法:奥野忠一他,日科技連出版社,1977,P2-3 より
統計学において、複数の独立変数(説明変数)からなる多変量データを統計的に扱う手法。
Wikipedia:多変量解析
となっています。
ちなみに、多変量解析は英語で Multivariate Analysis もしくは Multivariate Technique と書きます。
多変量解析をする理由:相関のある複数のデータを解析し要約や予測をする
▼1変量解析は1つずつデータ解析が必要ですが、多変量解析は複数のデータを同時に解析することができます。
参考:多変量解析法,奥野忠一他,日科技連出版社,1977,P3
解析するデータ(値段、味など)が互いに統計的に相関が0となる場合は、1つずつ1変量解析でいいのですが、
実際には、それぞれ大なり小なり相関があります。
それぞれのデータ間に相関がある場合、一変量解析をしてしまうと相関部分は何度も評価されてしまうことになります。
互いに相関を持つ変数がたくさん存在するので、
1つ1つ個別に解析はせず、まとめて多変量解析をします。
多変量解析法の限界:変な結果が出ることも・・・
多変量解析にも限界があります。
当たり前ですが、変数の組み合わせで結果が決まります。
結果を鵜呑みにするのではなく、変な結果が出たときには
①変数を変えて計算しなおす。
②元のやり方から再検討する
などが必要となります。
結果が出たら、変数の組み合わせなどを見直し、モデル変更や変数の追加・削除をして再計算、
ということを繰り返すことで精査されたデータとなります。
多変量解析の種類は主に5種類
でも、必ず出てくるのは、主成分分析、多変量回帰分析(重回帰分析、ロジスティック回帰分析)、判別分析、因子分析、クラスター分析
多変量解析の種類として挙げられているのは、
数量化1類、包絡分析法、正準相関分析、分散分析法、潜在構造解析法
などがあります。
主成分分析:データの要約
主成分分析(PCA:principal component Analysis)は、データを要約し、新たな変数をつります。
目的変数が無く、単に多くの説明変数の多変量データを合成して、データの類似性や位置づけを明らかにしてくれます。
▲例:各教科のテストの点数で理系・文系に分けるなど
数学、理科、国語、英語のテストを行った時、複数の変数を合成し理系・文系など新たな変数を作って指標とする。
テストの点数は単位が「点」で統一されていますが、もし、データ単位が違っていたら統一して理解するのは大変。
詳しくは↓
こんにちは!大学院で統計の勉強をしているそらです! 主成分分析の基本がわからない 本を読んでも数式ばっかりで理解できない…
正準相関分析 (CCA:Canonical Correlation Analysys)
データの要約。
複数の目的変数に対して,複数の説明変数が影響することを調べる手法です.
多変量回帰分析:要因から結果を予測
データの予測ができる。
回帰分析の種類
単回帰分析:1つの目的変数を1つの説明変数で予測(多変量解析の一種ではない)
多変量回帰分析:複数のデータから回帰直線を作成する
- 重回帰分析:1つの目的変数を複数の説明変数で予測
- ロジスティック回帰分析:結果が2値(はい・いいえ、生死など)の場合、起こる確率を要因(説明変数)によって説明予測
- Cox回帰分析:患者の「生存/死亡」、顧客の「継続/離反」などのイベントが発生するまでの期間を分析する生存時間分析(survival time analysis)の手法。
▲例:お店の売り上げを来店数と降水率から予測する
単回帰分析は、お店の売り上げと来店数の関係を見たい場合、
重回帰分析(multiple regression)は、お店の売り上げと来店数と降水率の関係を見たい場合に使います。
判別分析:どのグループに属するかの判別
データの予測ができる。
判別分析(discriminant function)は、あらかじめ、各グループが決まっていて各サンプルが、どのグループに属するかを考える。
事前に与えられているデータが異なるグループに分かれる場合、新しいデータが得られた際に、どちらのグループに入るのかを判別するための基準を得るための正規分布を前提とした分類の手法
▲例:多変量データ(テストの点数)から、理系・文系どちらのグループに入るのかを判別します。
また、アンケートを取ったとき、お金を多く使う客を優良客として一般客と何が違うのか分析し、一般客から優良客にになりえるかを予測したりします。
因子分析:データの因子を探る
データの予測ができる
観測データが合成量であると仮定し、個々の構成要素を得る手法。
データの相関関係から、データに共通して影響を与えている因子を探り、各変数の性質をよりコンパクトな形で記述することが因子分析の目的
▲例:理系・文系から各教科の点数の割合など構成要素を得る。
クラスター分析:グループ分けする
データの予測ができる。
与えられたデータから類似している解析対象の集まりを分類する。
データの分類が階層的になされる階層型手法と、特定のクラスタ数に分類する非階層的手法がある。
それぞれの代表的な手法としてウォード法、K平均法などがある。
▲例:アンケートから性格のグループ分けをする。
多変量のデータから似ているタイプや特徴を持った人をグループ分けする
もしくは、グループをつくり、どのような特徴のグループ化を考える。
分散分析 analaysis of variance
データの予測
1変量分散分析
多変量分散分析 MANOVA ←あまり有効ではない
観測データにおける変動を誤差変動と各要因およびそれらの交互作用による変動に分解することによって、要因および交互作用の効果を判定する、統計的仮説検定の一手法である。
潜在構造解析法
データの予測
一つの集団に対して,個人個人のとる態度や行動をいくつかの質問項目によって調査し,その結果から集団内に潜在する下位集団(潜在クラス)を探り出そうとする統計的データ解析手法。潜在クラス分析ということもある。
その他:包絡分析法
一応多変量解析の1つ
まとめ:多変量解析の定義や種類
・多変量解析とは
相関のあるデータを要約して特徴を分かりやすくする手法のこと
・多変量解析でできることは、大きく分けて2つで
データの要約
データの予測
となります。
・多変量解析とは
多(複数の)変量(データ)を同時に解析する手法のこと
・多変量解析でできることは、大きく分けて2つ
データの要約
データから予測する
となります。
・多変量解析の種類は
主なものは、主成分分析、多変量回帰分析、判別分析、因子分析、クラスター分析
他に、数量化1類、包絡分析法、正準相関分析、分散分析法、潜在構造解析法
となります。
参考にしたおすすめの多変量解析の本
まずはこの一冊から意味がわかる多変量解析, 2014,石井 俊全 (一番分かりやすい)
多変量解析の基本と実践がよ~くわかる本 秀和システム 森田浩 2014(図が多く分かりやすい)
図解雑学 多変量解析 丹慶 勝市 ナツメ社 2005(図が多く分かりやすい)
多変量解析法,奥野忠一他,日科技連出版社,1977(難しい)