目的変数 | 解析の目的 | 説明変数.量的. | 説明変数.質的. |
---|---|---|---|
あり 量的 | 関係式の発見 | 重回帰(型の)分析 | |
あり 質的 | 標本の分類 | クラスター分析 | クラスター分析 |
あり 質的 | 質の推定 | 判別分析 | |
なし | 変量の整理 | 主成分分析 |
t検定は2つのグループの平均の差が偶然誤差の範囲内にあるかどうかを調べるものである.
(bunsan1.html)
母集団の平均値μが特定の値である μ0と等しいかどうかの帰無仮説を検定する際に使用する。
一つ目の母集団の平均値μ1が二つ目の母集団の平均値μ2と等しいかどうかの帰無仮説を検定する際に使用する。言い換えるとμ1-μ2=0かどうかの帰無仮説を検定する。
2つのグループの平均の差を比較する場合も含めて,複数個(2以上,3,4,5・・・)のグル-プの平均の差の検定は分散分析で行うことができる.
(bunsan1.html)
基本的な手法として、まず、データの分散成分の平方和を分解し、誤差による変動から要因効果による変動を分離する。次に、平方和を自由度で割ることで平均平方を算出する。そして、要因効果(または、交互作用)によって説明される平均平方を分子、誤差によって説明される平均平方を分母とすることでF値を計算する(F検定)。各効果の有意性については有意水準を設けて判定する。
種類:
(http://www.kiui.ac.jp/~katayaa/TOUKEI6.html)
質的データ(変数)間でクロス集計し、クロスしたデータ(変数)間で有意差があるか検証する。
回帰分析では独立変数と従属変数の間の関係を表す式を統計的手法によって推計する。
従属変数(目的変数)とは、説明したい変数(注目している変数)を指す。独立変数(説明変数)とは、これを説明するために用いられる変数のことである。経済学の例を挙げてみると次のようになる。経済全体の消費(Y)を国民所得(X)で説明する消費関数が Y=aX+b というモデルで表されるとする。この例では、消費 Y が従属変数、国民所得 X が独立変数に対応する。そして a,b といった係数(パラメータ)を推定する。
最も単純な方法は上式のような一般化線形モデルを用いる線形回帰であるが、その他の非線形モデルを用いる非線形回帰もある。
Useful for memorization: http://www.ipl.cs.is.nagoya-u.ac.jp/~kita/Lec_CI5/Lec_PCA.pdf http://www.ipl.cs.is.nagoya-u.ac.jp/~kita/lec_keijyo5.html http://www.ipl.cs.is.nagoya-u.ac.jp/~kita/Lec_CI5/Lec_IA.pdf
http://strata.uga.edu/6370/lecturenotes/principalComponents.html https://oku.edu.mie-u.ac.jp/~okumura/stat/pca.html http://www.e.okayama-u.ac.jp/~nagahata/bstat/rta5syo.pdf https://www.utdallas.edu/~herve/abdi-awPCA2010.pdf https://ja.wikipedia.org/wiki/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90
http://www.doc.ic.ac.uk/~dfg/ProbabilisticInference/IDAPILecture15.pdf http://www.doc.ic.ac.uk/~dfg/ProbabilisticInference/IDAPILecture16.pdf
LDA vs ANOVA (memory trick): https://stats.stackexchange.com/questions/48786/algebra-of-lda-fisher-discrimination-power-of-a-variable-and-linear-discriminan/48859#48859
主成分分析(PCAと略すこともある)は、直交回転を用いて変数間に相関がある元の観測値を、相関の無い主成分とよばれる値に変換するための数学的な手続きのことである。
主成分は、分散共分散行列(あるいは相関係数行列)に対する固有値分解あるいは、分散共分散行列(相関係数行列)に対応した偏差行列(相関係数行列の場合には標準化された行列)の特異値分解によって得ることができる。主成分分析の結果は、元の観測値(対象)に対応した変換後の値である主成分得点と、各々の主成分得点に対する変数の重みに相当する主成分負荷量として得られ、一般的にはこの2つの状況をそれぞれに可視化した主成分プロット、あるいは2つの図を重ねあわせたバイプロットを通して結果を解釈する。
直交回転 主成分負荷量 主成分得点
判別分析とは
所属する群を推定するのが判別分析
どの群に属しているかが分かっている標本があるときに,まだ分類されていない標本がどちらの群に属するかを推定する手法を判別分析という.
(判別に当たって重視されている要因を分析することにより結果に生かすこともできる.)
量的変数→質的変数
判別分析は,目的変数が質的変数,説明変数が量的変数となる多変量解析であるが,説明変数が質的変数である場合もダミー変数を用いることにより同様に取り扱うことができる.
判別分析に用いられるモデル:
線形判別関数を用いて,値を直線的・平面的モデルに当てはめる方法
マハラノビスの距離を用いて,確率を2次曲線モデルに当てはめる方法
Misc: http://sebastianraschka.com/Articles/2014_python_lda.html
判別分析の利用例
各種の検査項目から,ある病気であるかないかを判別する.
データのパターンに応じてサンプルを分類するための統計技術
同一クラスターに分類されるサンプルは類似性が高い集団
類似度
個体
配置
割り付ける
グループ内距離の総和を最小化する学習方法
同一性
グループ内距離の総和をより小さくする分類を探索する
GAP 統計量に基づく選択
http://www.stat.cmu.edu/~ryantibs/datamining/lectures/05-clus2-marked.pdf
近隣クラスタ
Vocab:
概観
視覚化
定常時系列と
非定常時系列
差分によるトレンドの除去
移動平均フィルタ
自己共分散
自己相関関数
定常性
減衰
技法
予測式
自己回帰モデル:
観測値と線形予測子を結ぶ関係を表現したものを考える。
図示
計測値
施す
階差
移動平均平滑化
原データの1階差分をとることで、ある程度トレンド成分を除去できる
差分
1階差分
トレンド成分
除去
有効
対数変換を施すことで、分散不均一性を緩和
分散不均一性
緩和
対数変換を施しても、トレンドは除去できない
トレンド: 時間によって連続的に変化するベースラインの変化
時系列データはある確率過程にしたがう確率変数のn個の実現値と見なす
勾配
〜次式
ラグ数
補正値
不変
定常
推定値
減衰
次第に
線形予測子
誤差項
特性根
最尤推定
測定
高い次数のモデルを使うことで、時系列データの周期特性を捉時系列デタの周期特性を捉えることに成功
赤池情報量規準
尤度
最大対数尤度
Additional link: http://people.duke.edu/~rnau/411home.htm
http://qiita.com/icoxfog417/items/c3c8fed9902ad6200069
http://www.statsmakemecry.com/smmctheblog/stats-soup-anova-ancova-manova-mancova
An "Analysis of Variance" (ANOVA) tests three or more groups for mean differences based on a continuous (i.e. scale or interval) response variable (a.k.a. independent variable). The term "factor" refers to the variable that distinguishes this group membership. Race, level of education, and treatment condition are examples of factors.
There are two main types of ANOVA: (1) "one-way" ANOVA compares levels (i.e. groups) of a single factor based on single continuous response variable (e.g. comparing test score by 'level of education') and (2) a "two-way" ANOVA compares levels of two or more factors for mean differences on a single continuous response variable (e.g. comparing test score by both 'level of education' and 'zodiac sign'). In practice, you will see one-way ANOVAs more often and when the term ANOVA is generically used, it often refers to a one-way ANOVA. Henceforth in this blog entry, I use the term ANOVA to refer to the one-way flavor.
http://yutakahogeta.blogspot.jp/2014/10/blog-post_4.html
誤差分布
応答変数の分布(バラつき)として仮定する確率分布.
正規分布が有名だが,それ以外にも二項分布やポアソン分布などがある。 連続変数の場合は正規分布を仮定とした分析を行うが,カウントデータやカテゴリカルデータ(離散値)を扱う場合は正規分布を仮定するのには無理がある場合がある。その場合は,正規分布以外の確率分布が適切となる。
リンク関数
線形予測子と応答変数との関係をリンクさせる関数。1次式である線形予測子を非線形にちょちょっと変えるために使う関数,というイメージ。 ログ,ロジット関数など(誤差分布によってどのリンク関数を指定するかは大体定まっている)。
一般化線形モデルには以下の解析が含まれる。
解析 | 誤差分布 | リンク関数 |
---|---|---|
重回帰 | 正規分布 | 恒等リンク |
ロジスティック回帰 | 二項分布 | ロジット |
ポアソン回帰 | ポアソン分布 | log |
対数線形モデル | ポアソン分布 | log* |
*(ポアソン回帰と同じだが,説明変数がカテゴリカルのみの場合とする)
応答変数yが二値の場合[0, 1 ある, なし などなど],連続量ではないので,誤差分布として正規分布を仮定することはできない。
応答変数yがカウントデータの場合(yが個数を意味する場合),理論的にはポアソン分布に従うのでポアソン回帰をするのが適切。
More: http://www.agri.tohoku.ac.jp/iden/toukei5.html
ANOVA
単変量解析
多変量解析
http://daweb.ism.ac.jp/~yoshidar/kouza201110/Lecture_ISM_MV-TS_20111021.pdf
http://www.agri.tohoku.ac.jp/iden/toukei7.html
http://www.geisya.or.jp/~mwm48961/koukou/index_m.htm#statistics_math
時系列解析 二変量分布
http://www.csun.edu/~amarenco/Fcs%20682/When%20to%20use%20what%20test.pdf
http://www.niph.go.jp/soshiki/jinzai/download/etc/hotetsu2009.pdf
http://www.toukei-kentei.jp/about/pdf/grade1semi_hani_150801.pdf
http://www.e.okayama-u.ac.jp/~nagahata/bstat/
http://www.ipl.cs.is.nagoya-u.ac.jp/~kita/lec_keijyo5.html
markdownToHTML("/home/eric/Desktop/jobs/-0st/elearn2.md", output="/home/eric/Desktop/jobs/-0st/elearn2.html", options=c("toc"))
a <- read.csv("a.csv", sep=",")
pandoc.table(a, style="rmarkdown", split.cells=Inf)