Table of Contents

多変量解析の分類

目的変数 解析の目的 説明変数.量的. 説明変数.質的.
あり 量的 関係式の発見 重回帰(型の)分析
あり 質的 標本の分類 クラスター分析 クラスター分析
あり 質的 質の推定 判別分析
なし 変量の整理 主成分分析

単変量解析/二変量解析

平均の差を比較する方法

t検定

t検定は2つのグループの平均の差が偶然誤差の範囲内にあるかどうかを調べるものである.

(bunsan1.html)

一群のt検定

母集団の平均値μが特定の値である μ0と等しいかどうかの帰無仮説を検定する際に使用する。

独立二群の平均値の差の検定

一つ目の母集団の平均値μ1が二つ目の母集団の平均値μ2と等しいかどうかの帰無仮説を検定する際に使用する。言い換えるとμ1-μ2=0かどうかの帰無仮説を検定する。

分散分析

Main reading

2つのグループの平均の差を比較する場合も含めて,複数個(2以上,3,4,5・・・)のグル-プの平均の差の検定は分散分析で行うことができる.

(bunsan1.html)

基本的な手法として、まず、データの分散成分の平方和を分解し、誤差による変動から要因効果による変動を分離する。次に、平方和を自由度で割ることで平均平方を算出する。そして、要因効果(または、交互作用)によって説明される平均平方を分子、誤差によって説明される平均平方を分母とすることでF値を計算する(F検定)。各効果の有意性については有意水準を設けて判定する。

種類:

χ2検定1(独立した2変数の場合)

(http://www.kiui.ac.jp/~katayaa/TOUKEI6.html)

質的データ(変数)間でクロス集計し、クロスしたデータ(変数)間で有意差があるか検証する。

多変量解析

重回帰分析

Main reading

回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。

従属変数(目的変数)とは、説明したい変数(注目している変数)を指す。独立変数(説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみると次のようになる。経済全体の消費(Y)を国民所得(X)で説明する消費関数が Y=aX+b というモデルで表されるとする。この例では、消費 Y が従属変数、国民所得 X が独立変数に対応する。そして a,b といった係数(パラメータ)を推定する。

最も単純な方法は上式のような一般化線形モデルを用いる線形回帰であるが、その他の非線形モデルを用いる非線形回帰もある。

主成分分析

Useful for memorization: http://www.ipl.cs.is.nagoya-u.ac.jp/~kita/Lec_CI5/Lec_PCA.pdf http://www.ipl.cs.is.nagoya-u.ac.jp/~kita/lec_keijyo5.html http://www.ipl.cs.is.nagoya-u.ac.jp/~kita/Lec_CI5/Lec_IA.pdf

https://stats.stackexchange.com/questions/2691/making-sense-of-principal-component-analysis-eigenvectors-eigenvalues/35653#35653

http://strata.uga.edu/6370/lecturenotes/principalComponents.html https://oku.edu.mie-u.ac.jp/~okumura/stat/pca.html http://www.e.okayama-u.ac.jp/~nagahata/bstat/rta5syo.pdf https://www.utdallas.edu/~herve/abdi-awPCA2010.pdf https://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90

http://www.doc.ic.ac.uk/~dfg/ProbabilisticInference/IDAPILecture15.pdf http://www.doc.ic.ac.uk/~dfg/ProbabilisticInference/IDAPILecture16.pdf

LDA vs ANOVA (memory trick): https://stats.stackexchange.com/questions/48786/algebra-of-lda-fisher-discrimination-power-of-a-variable-and-linear-discriminan/48859#48859

also: https://stats.stackexchange.com/questions/71489/three-versions-of-discriminant-analysis-differences-and-how-to-use-them/71571#71571

主成分分析(PCAと略すこともある)は、直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に変換するための数学的な手続きのことである。

主成分は、分散共分散行列(あるいは相関係数行列)に対する固有値分解あるいは、分散共分散行列(相関係数行列)に対応した偏差行列(相関係数行列の場合には標準化された行列)の特異値分解によって得ることができる。主成分分析の結果は、元の観測値(対象)に対応した変換後の値である主成分得点と、各々の主成分得点に対する変数の重みに相当する主成分負荷量として得られ、一般的にはこの2つの状況をそれぞれに可視化した主成分プロット、あるいは2つの図を重ねあわせたバイプロットを通して結果を解釈する。

直交回転 主成分負荷量 主成分得点

判別分析

Main reading

判別分析とは

所属する群を推定するのが判別分析

どの群に属しているかが分かっている標本があるときに,まだ分類されていない標本がどちらの群に属するかを推定する手法を判別分析という.

(判別に当たって重視されている要因を分析することにより結果に生かすこともできる.)

量的変数→質的変数

判別分析は,目的変数が質的変数,説明変数が量的変数となる多変量解析であるが,説明変数が質的変数である場合もダミー変数を用いることにより同様に取り扱うことができる.

判別分析に用いられるモデル:

線形判別関数

線形判別関数を用いて,値を直線的・平面的モデルに当てはめる方法

マハラノビスの距離

マハラノビスの距離を用いて,確率を2次曲線モデルに当てはめる方法

Misc: http://sebastianraschka.com/Articles/2014_python_lda.html

判別分析の利用例

各種の検査項目から,ある病気であるかないかを判別する.

クラスター分析

データのパターンに応じてサンプルを分類するための統計技術

同一クラスターに分類されるサンプルは類似性が高い集団

Main reading

類似度
個体
配置
割り付ける
グループ内距離の総和を最小化する学習方法
同一性

グループ内距離の総和をより小さくする分類を探索する

K平均法のアルゴリズム

  1. (初期化) n個の個体を適当にグルーピング
  2. (中心の計算) K 個のクラスタ平均を計算
  3. (再グルーピング)データ点から最も近いクラスタ平均に割り付ける
  4. Step 2に戻

GAP 統計量に基づく選択

階層型クラスタリング

樹形図

  1. 最も下の階層にn個の個体が並ぶ(これらをn個のクラスタと考える)
  2. 段階的に最も「近い二つのクラスタの組」を選び出し、それらを一つの頂点で結んでいく

http://www.stat.cmu.edu/~ryantibs/datamining/lectures/05-clus2-marked.pdf

近隣クラスタ

凝集型

  1. 単一の個体からなる n個のクラスタから開始
  2. 最も近い二つのクラスタの組を選び、それらを一つのクラスタに併合する。
  3. 手続き ii をクラスタ数が1つ(全個体を含む)になるまで繰り返す。

時系列解析

Main reading

自己回帰モデル

Vocab:

概観
視覚化
定常時系列と
非定常時系列
差分によるトレンドの除去
移動平均フィルタ
自己共分散
自己相関関数
定常性
減衰
技法
予測式

自己回帰モデル:
観測値と線形予測子を結ぶ関係を表現したものを考える。

図示
計測値
施す
階差
移動平均平滑化

原データの1階差分をとることで、ある程度トレンド成分を除去できる

差分
1階差分
トレンド成分
除去
有効

対数変換を施すことで、分散不均一性を緩和

分散不均一性
緩和

対数変換を施しても、トレンドは除去できない
トレンド: 時間によって連続的に変化するベースラインの変化

時系列データはある確率過程にしたがう確率変数のn個の実現値と見なす

勾配
〜次式
ラグ数
補正値
不変
定常
推定値
減衰
次第に
線形予測子
誤差項
特性根

最尤推定

測定

高い次数のモデルを使うことで、時系列データの周期特性を捉時系列デタの周期特性を捉えることに成功

赤池情報量規準
尤度
最大対数尤度

Additional link: http://people.duke.edu/~rnau/411home.htm

機械学習

http://qiita.com/icoxfog417/items/c3c8fed9902ad6200069

ANOVA

http://www.statsmakemecry.com/smmctheblog/stats-soup-anova-ancova-manova-mancova

An "Analysis of Variance" (ANOVA) tests three or more groups for mean differences based on a continuous (i.e. scale or interval) response variable (a.k.a. independent variable). The term "factor" refers to the variable that distinguishes this group membership. Race, level of education, and treatment condition are examples of factors.

There are two main types of ANOVA: (1) "one-way" ANOVA compares levels (i.e. groups) of a single factor based on single continuous response variable (e.g. comparing test score by 'level of education') and (2) a "two-way" ANOVA compares levels of two or more factors for mean differences on a single continuous response variable (e.g. comparing test score by both 'level of education' and 'zodiac sign'). In practice, you will see one-way ANOVAs more often and when the term ANOVA is generically used, it often refers to a one-way ANOVA. Henceforth in this blog entry, I use the term ANOVA to refer to the one-way flavor.

一般化線形モデル

http://yutakahogeta.blogspot.jp/2014/10/blog-post_4.html

誤差分布

応答変数の分布(バラつき)として仮定する確率分布.

正規分布が有名だが,それ以外にも二項分布やポアソン分布などがある。 連続変数の場合は正規分布を仮定とした分析を行うが,カウントデータやカテゴリカルデータ(離散値)を扱う場合は正規分布を仮定するのには無理がある場合がある。その場合は,正規分布以外の確率分布が適切となる。

リンク関数

線形予測子と応答変数との関係をリンクさせる関数。1次式である線形予測子を非線形にちょちょっと変えるために使う関数,というイメージ。 ログ,ロジット関数など(誤差分布によってどのリンク関数を指定するかは大体定まっている)。

一般化線形モデルには以下の解析が含まれる。

解析 誤差分布 リンク関数
重回帰 正規分布 恒等リンク
ロジスティック回帰 二項分布 ロジット
ポアソン回帰 ポアソン分布 log
対数線形モデル ポアソン分布 log*

*(ポアソン回帰と同じだが,説明変数がカテゴリカルのみの場合とする)

重回帰

ロジスティック回帰

応答変数yが二値の場合[0, 1 ある, なし などなど],連続量ではないので,誤差分布として正規分布を仮定することはできない。

ポアソン回帰

応答変数yがカウントデータの場合(yが個数を意味する場合),理論的にはポアソン分布に従うのでポアソン回帰をするのが適切。

More: http://www.agri.tohoku.ac.jp/iden/toukei5.html

対数線形モデル

Misc

ANOVA

単変量解析

多変量解析

Sources

http://daweb.ism.ac.jp/~yoshidar/kouza201110/Lecture_ISM_MV-TS_20111021.pdf

http://www.agri.tohoku.ac.jp/iden/toukei7.html

http://www.geisya.or.jp/~mwm48961/koukou/index_m.htm#statistics_math

時系列解析 二変量分布

http://www.csun.edu/~amarenco/Fcs%20682/When%20to%20use%20what%20test.pdf

http://www.niph.go.jp/soshiki/jinzai/download/etc/hotetsu2009.pdf

http://www.toukei-kentei.jp/about/pdf/grade1semi_hani_150801.pdf

http://www.e.okayama-u.ac.jp/~nagahata/bstat/

http://www.ipl.cs.is.nagoya-u.ac.jp/~kita/lec_keijyo5.html

markdownToHTML("/home/eric/Desktop/jobs/-0st/elearn2.md", output="/home/eric/Desktop/jobs/-0st/elearn2.html", options=c("toc"))

a <- read.csv("a.csv", sep=",")
pandoc.table(a, style="rmarkdown", split.cells=Inf)