統計検定1級の統計応用(人文科学)の内容と統計数理の内容で学習漏れがありそうな箇所を公式本『日本統計学会公式認定 統計検定1級対応 統計学』をベースに総整理しました。統計検定1級対策においては『日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック』は関連情報の参照という使い方が良いと考えます。2冊とも両者の良いところを補完し合う関係性のため両方購入は合格に必須です。
本記事では統計検定1級(統計数理と人文科学)の合格を目標に、人文科学特有問題→統計応用の共通問題→統計数理の頻出度と難易度順を考慮して学習すべき内容の総整理を行いました。
統計応用(人文科学)は多変量解析メイン
統計検定1級の統計応用の人文科学は多変量解析が頻出で合否を分ける内容となります。これは過去問を見たら納得です。(過去問解説記事はこちら)
日本統計学会公式認定 統計検定 1級 公式問題集[2012〜2013年]
日本統計学会公式認定 統計検定 1級 公式問題集[2014〜2015年]
日本統計学会公式認定 統計検定1級 公式問題集[2016〜2018年]
日本統計学会公式認定 統計検定1級 公式問題集[2019~2022年]
また統計検定準1級の対策が基盤となってこその人文科学の対策になります。(統計検定準1級の対策記事はこちら)
因子分析(統計検定1級で最も頻出)
因子分析(探索的因子分析)は統計検定1級の統計応用の人文科学においてメインとなる多変量解析法になります。パス解析など他の内容とも絡むのでとても大切な分野になります。
まずは因子負荷行列Λがすべて未知である探索的因子分析(統計検定1級ではこちらがメイン)をメインで説明します。反対にΛの要素の多くが分析者の仮説を反映して0に固定されている場合もあり、これを確証的因子分析といいます。こちらでは回転の不定性が存在せず(Λの要素がいくつか0と判明しているため)ΛとF(共通因子行列)が一意に定まります。また確証的因子分析は構造方程式モデルの下位モデルと扱うことができます。
因子分析の目的はp次元の変数の振る舞いを、より少ない共通因子(k個)の線形結合(厳密には平均と独自因子も合わせたアフィン結合)で表現する構造を発見することです。
因子分析にはいくつかの過程を設けます。無相関のことを共分散で定義するより期待値で定めます。Uの分散が対角行列なのは独自因子を考えているからです。直交モデルのときに単位行列を用いるかは問題設定次第です。
第2行はよく見る式ですが、これは直交モデルで単位行列を用いたとき限定の式だったのですね。
上で設けた仮定を用いて証明もできます。
解の不定性を言うには回転の考えを用います。直交回転では90度に保ったまま回すので内積0のイメージで考えると直交回転後も共通因子間の無相関の関係は維持されていると予想がつきます。
統計検定1級に出題されそうな内容です。
統計検定準1級や統計検定1級では表の読み取り問題などがあるため、バリマックス回転が使われます。またバリマックス回転の具体的な定義式は複雑なので覚える必要はないと考えます。
現実問題では共通因子間に相関がないとは考えにくいので最近は斜交回転の方が使われつつあります。
構造方程式モデル
パス解析(詳しくはこちら)を潜在変数を含む場合へと拡張したのが構造方程式モデルです。これを用いた分析は構造方程式モデリングや共分散構造分析といいます。
潜在方程式の構造方程式モデルは測定方程式と構造方程式をともにモデルの中に含みます。
パス解析は観測変数間の構造方程式モデル
因子分析は測定方程式のみを含む構造方程式モデル
これを一般化したものを考えます。
これにさらに推定する要素を追加して行列表示したものをRAM記法といいます。
構造方程式モデルは多変量解析の最先端なのでとても難易度が高いです。
構造方程式モデルは分析者が変数間の説明。応答関係を自分の仮説にあった形でモデリングできるので、モデル構築の自由度が多変量解析に比べて格段に大きいです。そのためモデルがデータに対してどれくらい当てはまるかを示す適合度の評価が大事で、GFIなどの多くの適合度指標が提案されています。
統計モデルの母数解が1組しかないことをモデルが識別されるといいますが、構造方程式モデルでは識別されないモデルをいくらでも作ることができます。
この対偶を考えれば識別性を持たないことの証明ができますね。
その通りです。現に統計検定1級の過去問に出題されています。
他の問題点として分散母数が負の数に推定されるような不適解が発生してしまうことがあります。これはモデルがデータに適合していない場合や、標本サイズが小さいときに発生しやすいですが、不適解が生じても適合度指標は良い値を示すときもあるので注意が必要です。
テストの分析(項目反応理論など)
項目反応理論
統計検定1級の人文科学については『項目反応理論[入門編]』の第2章までを学習しましょう。詳しくはこちらで解説しています。
ただし『日本統計学会公式認定 統計検定1級対応 統計学』にのみ掲載されている表現や用語もありますので、ここではこの内容について整理します。
1ーPLモデルの別名をラッシュモデルと言います。
IRTでは3つの項目母数と受験者の母数θが分離されているので、テストの等化と呼ばれる方法論により、異なる実施回のテスト項目を同一尺度θ上に位置づけることができます。逆に等化が行われたテスト項目群(項目プール)を利用すれば、異なる実施回の異なる項目に回答した受験者同士を同一尺度θ上に位置づけることができます。
潜在特性θiの関数として測定の精度を表す関数のことを情報関数と言います。情報関数は項目母数のみに依存し受験者母数に依存しないので、最も精度良く測定したい特性値θの値の範囲が既知の場合には、テスト全体に含める項目の情報関数を考慮しながらその目的にふさわしいテストを編集することができます。
テストの信頼性
項目反応理論においてテストが登場したので、テストの信頼性について紹介します。
テストの信頼性とは測定値が一貫している度合いを表す概念です。
古典的テスト理論(項目反応理論とは異なる理論)では受験者母集団におけるテスト得点Xが真の得点成分Tと、それと独立な測定誤差Eの和であるX=T+Eであると考えます。
過去問でも登場したクロンバックのαとは本質的タウ等価測定のもとで導かれる信頼性係数の値です。
このときクロンバックのαは次のように定義されます。
このαの各母分散を標本からの推定値に置き換えると、信頼性係数の推定値として利用できます。
項目反応理論では信頼性は情報関数として与えられます。
クロンバックのαと情報関数は本質的に同じ意味を持つのですね。
テストの妥当性
こちらは数式というよりも記述(考察)対策として覚えておきたい内容をまとめます。
統計検定1級の人文科学の過去問にてテストの信頼性と妥当性について述べさせる問題が出ていますので、妥当性の良い部分と悪い部分を列挙しておきます。一言でいえば信頼性は妥当性の必要条件と考えます。
信頼性はテストの測定の一貫性を定量的に表すのみで、測定の目的や内容に照らし合わせての評価は行われませんが、妥当性はテストが測定しようとしている対象を実際にどれだけ適切に測定できるかを評価します。
テストの妥当性とは、テストが本来目的とする内容を実際に測定できているかの度合いを表します。テストを現実的に用いるにあたり、妥当性は信頼性以上に重要になりますが、妥当性は統計学的な方法論だけから検証できるわけではありません。
妥当性には内的妥当性(テスト構成の各項目などテスト内部に焦点を当てる)と外的妥当性(同じ構成概念の指標、異なる構成概念の指標との関連の側面)があります。外的妥当性は臨床的診断などがあります。
内的妥当性には内容的妥当性もあります。これは複数の専門家によって評価されて高低が決まります。またテストの次元性もあります。理論的な構成概念の次元と対応した次元がテストで得られるかという内容です。この次元性は因子分析や(多次元版の)項目反応理論で検証されます。
外的妥当性には外的基準との関係を調べる基準関連妥当性があります。同じもしくは類似した構成概念を測る指標と相関が高いことを指す収束的妥当性、異なる構成概念を測る指標と相関が低いことを示す弁別的妥当性もあります。
潜在クラス分析
潜在クラス分析は質的な観測変数の背後に質的な潜在変数を考える分析です。各観測対象が少数の潜在クラスのうちいずれかに属すると考えます。
考え方としては条件付き確率で考えることが前提です。xは個人の観測値ですので、その1つ1つの成分ごとにクラスjへ配属される確率(ここではπij)が決まっていると考えます。xのp個の要素でクラスjへ属する確率をすべて考えた後で、他のクラス(j以外)に属する確率も考えて(排反)すべて足します。
条件付き確率は上で考えた内容を追っていくだけで作成できますね。
しかしこれ以上の言及がないので本番では出ないと思われます。現に潜在クラス分析に関わらず2値データの問題ではそれを一般化させる問題は過去に出題されていないからです。
統計検定1級では未出ですがこれがノーヒントで出るとは考えにくいです。
潜在プロファイル分析は『日本統計学会公式認定 統計検定1級対応 統計学』で深掘りされていないので本記事でも触れません。
主成分分析
主成分分析の目的は高い次元のデータをなるべく情報を保ったまま低い次元に圧縮することです。なるべくの部分の判断は累積寄与率で行います。
変数で考えるときと標本で考えるときとを分けて考えます。変数の場合は射影の和の分散を最大にすることを考えますので、標本の場合は標本分散を最大にするw(第1主成分)を考えることになります。転置の順番などは標本分散の結果がスカラーになることから決定できます。
主成分得点は変数と標本の関係のことです。第1主成分の因子負荷量は元のデータの成分と第1主成分との共分散を表しています。元のデータが標準化された場合は相関係数に一致します。
累積寄与率はどこまで主成分を出すのかを考える指標になります。
クラスター分析
判別分析は各個体がどの群に属するか情報が与えられていたが、クラスター分析はこの情報なしで個体を分類する基準を構築します。つまり判別分析は教師あり学習でクラスター分析は教師なし学習です。教師=ラベルのイメージです。
クラスター分析は階層的クラスター分析と非階層的クラスター分析に分けられます。
クラスター分析では各個体間の非類似度(距離)を指定します。
ν=2の時はユークリッド距離になります。通常はこれかその2乗を用います。(過去問はユークリッド距離です。)
階層的クラスター分析
一番非類似度の小さいクラスターの組q,rを融合して新しいクラスターsを次々と作っていく手法です。合併したクラスターとそれ以外のクラスターとの非類似度を新しく決める必要があり、ウォード法や最短距離法、最長距離法などがあります。
最もメジャーなウォード法は統計検定1級の出題頻度が低い(ほぼ出ていない)ので2024年の試験で狙われそうです。
分母はすべてsとtであることを覚えて、最後の項の分子が1項だけと覚えればすぐに覚えられます。
またよく出題される最短距離法の非類似度は次のように表されます。
同様に考えると最長距離法も定義できます。
デンドログラムのことを樹形図と言ったりします。
デンドログラムのどこを切るのかの基準はなく、クラスターによる分類がデータの特徴をよくとらえているかどうかで切る場所を判断します。
非階層的クラスター分析
k-means法(k-平均法)のアルゴリズムを理解することが大事です。
階層的クラスター分析と違いアルゴリズムの各ステップでクラスターが変化する様子は階層的ではありません。
k-menas法は初期点に大きく依存することが知られており、初期点の考え方もさまざまな方法が存在します。
判別分析
母集団がいくつかの群に分かれているとき、どの群に属するかは未知の個体の観測値が与えらえたときに、その観測値の持つ特徴を使ってどの群に属するかを判別する基準を構築することを判別分析といいます。
まず判別関数を求めます。判別関数は各個体がどの群に属するかがわかっているデータを用います。まずは結果から紹介します。
ちなみに各sの計算は次のように行います。
それではYがどのようにして導出されるのかを追っていきましょう。
このデータをY軸方向に射影してデータを見ることで2つの群をうまく判別できます。各群を次のように表現します。
これらのデータを用いて母集団全体の全分散に対して2つの群の間の分散(群間分散)が大きくなるようにβの値を定めれば、データをYに射影した各群の中心間の距離が相対的に離れていくことになります。
それでは計算に用いるyの値などを再確認します。
次に総平方和から出発して平方和の分解を行います。実験計画法のときと同様に郡内平方和と群間平方和に分解できることが予想されます。
相関比η(イータ)を導入し最大性の意味を考えます。
なるほど!この最後の結果はよく知られているものですね。このようにして導出するのですね。
判別関数が出せたらいよいよ未知データがどちらの群に属するかを判別します。その際に誤判別関数を最小にするc(下図)を求めます。cの意味は統計検定1級の統計応用の過去問で頻出です。cをゴリゴリ計算させる問題はあまり出ていませんのでcがどのような場所かが分かればOKです。
ロジスティック回帰分析
ロジスティック回帰分析は、被説明変数Yが0や1の2値である場合に使われる回帰分析の手法です。生物の生死などの白黒思考の場合や、群の判別を確率的に行いたい場合にも適用されます。
ロジスティック回帰分析はβの推定が鍵となります。
確率qの設定からベルヌーイ分布が絡むことは予想できますね!
この尤度を最大化するβを解析的に求めることはできないので、ニュートン-ラフソン法などの数値解析法により近似的に求めます。
数量化理論とコレスポンデンス分析
数量化理論は統計検定1級では出題されておらず計算主体の出題は考えにくいと予想します。そのため論述での提案問題として知識問題として学習しておくことをおすすめします。
数量化理論はとても抽象的ですが『多変量解析法入門 (ライブラリ新数学大系 E20)』が最もわかりやすく解説されています。
多変量解析では説明変数のことを内的基準、応答変数のことを外的基準といいます。数量化理論(1類〜6類まであります)は質的な多変量データ分析のための一群の方法論です。数量化という言葉は質的な変数に対し何らかの基準を最大化するような数量を付与することに由来します。数量化1類と数量化2類は外的基準がある場合の分析法で、数量化3類と数量化4類は外的基準がない場合の分析法です。試験では1〜4類までが試験範囲です。
数量化1類は説明変数が質的変数で外的基準が量的な変数です。
説明変数が量的な場合は重回帰分析に相当するのでダミー変数を用いた重回帰分析になります。
分散分析と同種の方法論ですが前者は各変数の有意性を重視し後者はその効果の解釈に重点が置かれます。
数量化2類は説明変数が質的変数で外的基準も質的変数の場合です。
数量化3類は質的変数に対する主成分分析や因子分析に対応します。コレスポンデンス分析と等価です。
数量化4類は多次元尺度構成法の先駆です。
人文科学での分割表(クロス表)はカイ2乗検定の応用
クラメールの連関係数とピアソンの連関係数を覚え、特例としてファイ係数との関係を覚えましょう。
クラメールの連関係数はクラメールのVとも呼ばれます。
これらの連関係数は2変数が独立なときは0をとり、連関が大きいほど1に近い値をとります。
次に2×2分割表に絞って考えます。
観測変数AとBは2値変数ですが、この背後に連続的な変数XとYが存在して、それをある値cにおいて2値化した変数がAとBであると考えます。四分位相関は2値変数の背後に仮定する連続的な2変量正規分布に従う確率変数間の相関係数です。
人文科学でのアンケート調査の対策
統計検定1級ではアンケート調査の問題が2021年に出題されており、知識問題として知っていれば論述可能な問題でした。ここではデータの取得法についてまとめます。
実験研究とは説明変数を研究者が操作し、それによって応答変数がどのように変化するのかを調べる研究デザインです。無作為割り当てが行われていることが実験研究の根幹です。一方で調査観察研究ではそうした無作為割り当てを伴わない研究デザインです。その中間にあるのが準実験研究です。現実的な制約により独立変数の各水準の割り当てをランダムに行えないが、研究設計や統計分析の工夫により独立変数の応答変数への因果性を統計的に議論する研究デザインの総称です。
準実験研究から得られたデータには欠測データ解析からの方法論(Rubinの因果モデル)や応答変数に影響を与えうる共変量の影響を回帰関係を仮定せずに除去する傾向スコア分析を用いて因果性を統計学的に議論することができます。
人文科学分野での量的な調査研究は、質問紙により実施されます。尺度(1〜5などの順序カテゴリー)を用いて考えます。それを評定尺度法と言います。しかし日本人は中心化傾向(真ん中の3を選ぶ)があるので6件法などの偶数が利用されることがあります。また「わからない」や「無回答」は推定量に偏りを与えたり、その分散を大きくする可能性があります。
調査実施の第1段階
→何を測定したいかを明確にする。
調査実施の第2段階
→質問紙の項目を作成する(回答順も考慮する)。
調査実施の第3段階
→予備調査を実施し不適切な項目を発見する。
天井効果(多くが「当てはまる」)と床効果(多くが「当てはまらない」)など。
予備調査の第4段階
→不適切な項目を削除、修正、新たな項目を追加したり再編集を行う。
人文科学の共通問題の頻出問題は重回帰分析
ガウス-マルコフの定理まで
統計検定1級の重回帰分析は基礎として扱われますので、行列表示を前提に深くまで理解しておきたいところです。
ここで次のステップに進ためにいくつかの定義をしておきます。
yの線形関数で表される推定量を線形推定量といいます。
不偏な線形推定量を線形不偏推定量といいます。
βの線形不偏推定量の分散共分散行列が正定値の意味で最小のとき、この線形不偏推定量はβの最良線形不偏推定量(BLUE)といいます。
具体的に解説しますね。
最後の半正定値の部分は、最小性が一意ではないということに言及しています。
最良線形不偏推定量について、ある特定のβに対して定義の条件が成立すれば良いのではなく、任意のβに対して、観測値の関数として、推定量が定義の条件を満たす必要があります。
それでは最小二乗推定量について深掘りしていきます。統計検定1級では未出の部分ですので要チェックです。
まずは最小二乗推定量は線形推定量です。これは自明ですね。
最小二乗推定量はある仮定を設ければ線形不偏推定量になります。その仮定とは誤差平均が0です。
さらに次のガウス-マルコフの定理より最小二乗推定量は、誤差が平均0で独立同一分布のときに、最良線形不偏推定量になります。
これからガウス-マルコフの定理の証明を行います。とても難しいので初見の方はスルーでもOKです。
まずはBLUEの定義に沿って示す流れを確認します。その際に出てくる必要性を出しておきます。
そして最後に任意の線形不偏推定量の分散を出すところになります。ここが最難関です。
☆の部分と、最後の行列が半正定値行列になるのか教えて下さい!
こちらの証明では前半に証明していた結果を用います。Xに逆行列が定義できないことにご注意ください。
後半部分では線形代数の有名定理を用いた証明を行っています。統計検定1級では未出です。
誤差に正規分布モデルを仮定した残差分析
真のモデルが重回帰モデルに従っているとすると下記のように残差は正規分布に従った振る舞いをします。このことを利用して重回帰モデルの妥当性を検証することを残差分析といいます。
残差プロットに規則性が認められれば残差が正規分布に従っているとは考えにくいです。また正規Q-Qプロットを考えたときに、データが正規分布に従っている場合は、プロットした点が直線上に並びます。
変数選択
重回帰モデルにて説明変数の個数が多いと、予測の意味で好ましくなく、解釈も難しくなります。さらに説明変数同士が強い相関を持っている場合(多重共線性)、最小二乗推定が(行列計算の結果の不安定性から)不自然な結果を導いてしまいます。
重回帰分析の変数選択の基準はここではAICを考えます。また自由度調整済み決定係数も1つの手段として使えます。
AICを用いた変数選択の手順としては以下のものがよく使われます。
変数増加法は説明変数がない定数項のみのモデルから出発し、変数を1つ付け加えたときにAICを一番小さくする変数を付け加えていく方法です。変数を追加してもAICが減少しない場合は、そこで終了します。
変数減少法はすべての説明変数を入れたフルモデルから出発し、変数を1つ削除したときにAICを一番小さくする変数を削除していく方法です。変数を削除してもAICが減少しない場合は、そこで終了します。
変数増減法は、説明変数がない定数項のモデルから出発し、変数を1つ付け加えたときにAICを一番小さくする変数を付け加えます。もしAICを減少させる変数がなければ定数項のみのモデルで終了します。そうでない場合は、変数を1つ付け加えるか、または1つ削除したときに一番AICを小さくするモデルを次々に選んでいきます。変数を付け加えても削除してもAICが減少しなくなったら、そこで終了します。
決定係数は変数選択の基準としてそのまま用いることはできません。
自由度調整済み決定係数を変数選択の基準として用いる場合は、AICとは逆に値が増加していくように変数を選択していきます。ただしこの値は負の値を取ることがあり、その場合は当てはまりの良さの尺度としての意味を求めることは難しくなります。
一般化最小二乗推定
ガウス-マルコフの定理が成立する条件として誤差項の独立同一分布性を仮定していました。ここでは誤差項において次の場合を考えます。
このときβの最良線形不定推定量を求める。
正定値行列や半正定値行列は対称行列のときに定義されることに気をつければ、直交行列を用いて対角化できることがわかります。
なるほど!ガウス-マルコフの定理を適用したいので与えられた重回帰モデルに対して変数変換を行ったのですね!
その通りです。このようにして最小二乗推定量を求める方法を、通常の最小二乗推定と区別するために、一般化最小二乗推定といいます。略してGLSといいます。
GLSについては『データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)』がとてもわかりやすく書かれています!
最後にGLSによる最小二乗推定量をΩなどを用いて表現し直しておきます。これによりΩをIに直すと通常の最小二乗推定量の一般化となっていることがわかりました。
人文科学の共通問題でそろそろ出そうな実験計画法
実験研究と観察研究
実験研究とは研究対象に介入して行う研究のことです。薬を投与する処理群と投与しない対照群に分けて効果の差異を測定するなどの広い意味での実験であり、観察研究は研究対象に介入せずに行う研究のことです。まず観察研究によって現象の因果関係を推測し、仮説を立てることが研究の第1ステップです。
サンプルサイズの設計
母集団からの標本の抽出に置いて、抽出方法も大事ですが、それと同時にどれくらいの数の個体(母集団に属するもの)を母集団から抽出すれば十分かを考えることが大事です。
検出力の最初の式が初見ではなかなか出てこない感じですよね。
その他の検定の場合も、想定される対立仮説の状況と、そのときの検出力から逆算してサンプルサイズの設計を行います。
サンプルサイズ(標本の大きさ)とは母集団から標本抽出した個体の数を指しており、標本数とは標本抽出を繰り返し何セットも実施したときのセット数を示しています。
フィッシャーの3原則
実験計画法は実験研究において効率的に情報を得るための指針を与えます。要因効果を推測する分散分析や回帰分析において、小さなサンプルサイズから効率的に情報を得るための標本の抽出方法として使われる。フィッシャーの3原則は局所管理・無作為化・繰り返しです。
局所管理とは要因効果を精度よく検出するため、実験の場を層化して各層(ブロック)内でできるだけ条件が均一になるようにします。
無作為化とはコントロールできない実験条件の影響を偶然誤差に転化するため、実験順序や位置などを無作為に決めます。
繰り返しとは実験で生じる誤差分散の大きさを評価するため、同一条件下の実験を2回以上繰り返します。単なる繰り返しとブロックの形での繰り返し(反復ということも)があります。
因子(要因)とは実験において結果に影響を与えると想定する原因のことです。
水準とは、実験において因子を量的、質的に変える場合における各段階のことです。
1因子3水準の実験を用いて完全無作為化実験と乱塊法を説明します。
完全無作為化実験とは、フィッシャーの3原則のうち「無作為化」と「繰り返し」を満たした方法ですが、1日目においてA3水準が2回行われています。もし日が因子になる場合、その効果が因子Aによって引き起こされた効果と誤って推測してしまいます。
乱塊法はフィッシャーの3原則をすべて満たす方法です。例えば日の違いを因子として考えれば、1日の中で「局所管理」を適用し、3水準の実験をそれぞれ1回ずつ行います。1日の中での順序も「無作為化」し3日に渡って「繰り返し」の実験を行います。乱塊法により交絡を防げます。
ブロック化とは、実験条件が均一ないくつかのブロックに分けて実験を実施することです。局所管理で使うブロックのことをブロック因子といいます。
ブロック因子B(例えば日にち)がある場合は乱塊法で実験を行ってクロス表のデータが得られ、それを分散分析にかけてF値(とP値)を出して要因効果とブロック効果(日による違い)をF検定します。またモデル化も意識しましょう。誤差はA(温度)のB(日にち)による違いと考えます。
なるほど。誤差とは本来起こらないはずのことが起きてしまったから仕方なく書いている感じですね。
2因子AとBの繰り返しのない2元配置とは、たとえばA1とB1のセルに値が1個あり、2個以上がない場合です。統計検定1級の統計応用共通手法(『日本統計学会公式認定 統計検定1級対応 統計学』内参照)では繰り返しのない2元配置の形まで出ています。(それ以上は理工学になります)また*は5%有意。**は1%有意を表しています。
直交表実験
水準の2をー1に変えると任意の2列の内積が0になることが名前の由来です。
2水準をもつ因子がA、B、C、Dの4つの場合を考えると水準の組み合わせは16通りです。これを全て行う場合を完全実施要因計画と言いますが、実験数が膨大で現実的ではない場合もあります。その場合は一部実施要因計画を検討します。その際はよく直交表を用いた実験を行いますが、フィッシャーの3原則を満たすとは限りません。しかし少ない回数の実験結果から効率的に情報を取り出すことができます。ここでは主効果同士が交絡しない一面を考えます。交絡とは観測値において、ある要因効果が、他の要因効果と混ざってしまい、分離できない状態です。
直交表の代表例は2水準系、3水準系、混合系の3種類があります。ここでは2水準系に限定して考えます。
Lは直交表のなかで最も歴史のあるラテン方格の頭文字です。
表の一番上の行の数字(1〜7)は列番号で、それ以外の行の各行が1つの実験に対応しています。一番左の列の数字(1〜8)は実験番号を表します。実験番号順に実験を行う必要はなく、通常は無作為に順番を決めます。各列に因子を対応づけることを割り付けといいます。必ずしもすべての列を何かしらの因子に割り付ける必要はありません。
例えば実験者が直交表に置いて列番号1、2、4、7を選んで因子A、B、C、Dを割り付けた場合を考えます。このとき実験番号2の実験はA1B1C2D2の水準の実験を行うことを意味しています。このとき要因Aの効果の大きさを不偏測定できることを示します。ただしここでは交互作用を考えません。
要因の仮定と残差の仮定を意識しましょう。
よって他の因子B、C、Dの効果によらずにAの効果の大きさを不偏推定できます。他の因子B、C、Dについても同様の結果が得られます。
直交表が(交互作用が存在しない場合は)主効果同士が交絡しない性質をもつことが示せましたね!
それでは交互作用がある場合の直交表の性質を深掘りしましょう。
真のモデルがAとBの2因子交互作用A×Bを持つ場合を考えます。
まず実験者が直交表の列番号1、2、3、4に因子A、B、C、Dを割り付けた場合を考えます。
このA×Bの動きは直交表の3列目と全く同じです。今、3列目には因子Cが割り付けていますが、これとA×Bは区別がつきません。このときのCとA×Bの交絡のように、効果が全く区別できない状態を完全交絡といいます。完全交絡ではないが部分的に交絡している場合は部分交絡といいます。
交絡の問題点はなんですか?
因子Cの主効果の大きさ Ckの普遍推定量を構築できないことです。例えば列番号1、2、4、7に因子A、B、C、Dを割り付けた場合は列番号3にA×Bを割り付けることによって、それぞれの因子の主効果と交互作用A×Bが交絡しないことを確かめられます。
直交表は効果が小さいと想定される高次の交互作用などを無視することで、実験回数を減らすことを可能にしています。よって、どのようにうまく割り付けたとしても、一部実施要因計画の直交表では、交絡無しで全ての交互作用を同時に推定することはできません。ただし、直交実験においては、小さな部分交絡を許してより多くの因子を割り付けて推定する方法も用いられるので、交絡しないことが最も優先されることではありません。
統計数理のデータ解析手法(分散分析・回帰分析・分割表・ノンパラメトリック法)
分散分析
一元配置分散分析
一元配置の場合は水準ごとに各水準の観測値の個数は異なっても良いです。
各水準の母平均に差があるかを調べることが目標です。
a群の各標本平均の相違(水準間変動VA)が水準間の相違とは無関係なランダム変動(残差変動Ve)と比べて大きかどうかを評価したいので、比の導入すなわちF検定を考えます。
総平方和STを水準間平方和SAと残差平方和Seの和に分解します。
各水準の母平均が0に等しいという帰無仮説のもとで、次の考えのもとで分散分析表を作成します。
なるほど!だから分散分析表を作る必要が出てくるのですね!
二元配置分散分析
2つの要因A、Bを考えます。Aはa個の水準が、Bにはb個の水準があり、2つの要因が互いに無関係のときを考えます。
各水準の母平均に差があるかを検定します。
今回は各水準から1つずつ観測値を得たとします。すなわち繰り返しのないデータとなります。
続いて平方和の分解を行います。AやBの水準間平方和を作ることを見据えて変形する途中で、余って出てきた平方和が残差平方和となります。
F検定と結びつけることにより所望の検定を行います。
交互作用
2つの要因A、B(水準の個数は前の内容と同様です)が互いに無関係かどうかわからない場合は交互作用を考えます。
交互作用がある場合は、繰り返しのあるデータを用いることが必要です。なぜならデータの構造式に置いて交互作用とランダム変動の区別がつかないためです。また、一元配置と異なり二元配置では、各平方和が独立に分布するためには、各水準からの観測値の個数は一定である必要があります。
このように各水準の組からr個ずつ観測値を得たデータを用いてあらためて構造式を考えます。
これで交互作用とランダム変動の区別がつきましたね!
それではいよいよ平方和の分解を考えます。複雑ですが規則性を考えながら処理しましょう!
一度に分解すると混乱するので、まずは残差平方和を取り出しましょう。もう片方の平方和は主効果や交互作用を含むAB間平方和であることにご注意ください。交互作用を表すものではありません。
残差平方和はこれ以上分解できないので、AB間平方和を分解して、主効果と交互作用を表す部分に分けます。
結局構造式とほぼ同じ形をした平方和の分解になりましたね!
分散分析表を作成して終了です。交互作用の部分はA×Bであることにご注意ください。自由度が主効果のそれの積となっているから「積」を強調した記号になっていると考えます。
共分散分析
統計検定1級に未出の分野です。そろそろ出題されると思っています。
分散分析では全体変動を水準間の変動項(群間変動)と水準内の変動項(群内変動)に分け、水準内の変動(郡内変動)はランダム変動とみなしました。そして水準間の変動がランダム変動に対して有意に大きいならば、水準間で差があると判断しました。
しかし、水準内の変動が、別の変量(共変量)により説明されるならば、水準内の変動項をさらに共変量により説明できる変動と、共変量により説明できないランダム変動に分けることができ、これまで有意ではなかった水準間の差を見つけられる可能性があります。
なるほど!これが共分散分析の考えですね!
ランダム変動を分散分析より小さくすることによりF検定の結果が変わってきますね。
一元配置同様のデータを得られたと考えます。
次に構造式を考えます。共変量があることにより複雑化します。
用いる仮定は分散分析と変わりませんが、2変量であることから回帰式の形になります。β(傾き)は水準に依存しないことにご注意ください。
ここで改めて帰無仮説を整理しておきます。
この構造式において、β(と各α)を求めて、μ+αiを新たな観測データとして置き換えた分散分析を行えば良いですが、先ほどのβが水準に依存しない、つまり水準ごとの回帰直線が並行であるという仮定を確認します。その手順として水準ごとの回帰直線が並行であるという仮定を置かなかった場合の回帰直線の係数を用いて、郡内平方和(水準内平方和)から残差平方和を取り出す作業を行っていきます。
ここでのα~(チルダー)は前述のα’の意味を持っています。最小にする量は前述の2重シグマの変数iがないものになります。なぜなら今回のβはiに依存するためです。
最小二乗推定そのものは回帰分析の考え方そのものですが、その応用という感じがしました。
それではいよいよ平方和の分解に入ります。郡内変動(水準内平方和)を考えます。ここでは水準に依存しないβを用いた式を考えます。
なぜ水準内平方和がこの式にするかというと①回帰の同質性の検定を行うために「回帰の差」を次に出すため②回帰の同質性が認められたときに行う共分散分析で用いたいためです。
ここでは馴染みのない回帰の差(Sr)という平方和が登場します。この結果をまとめておきます。
まずは回帰の同質性のための分散分析表を作成して有意性を確認します。(帰無仮説を新たに設定します)
回帰の同質性の検定についてF統計量の注意点を書いておきます。
なるほど!分散分析→共分散分析の流れだったのですね!
この回帰直線を用いて再度、平方和の分解を行います。
最後にこれらの情報をもとに分散分析表を作成します。
この表をもとにF検定を行って帰無仮説を棄却するかを判断します。
回帰分析
線形単回帰
2変量(X、Y)に対しY=α+βXを用いるものを線形単回帰といいます。目的はこの回帰式に意味があるのか、つまりβ≠0かを判断することにあります。
まずは残差平方和の最小値のところまでを一気に求めておきます。
『日本統計学会公式認定 統計検定1級対応 統計学』では共分散を求める際の除数をn-1としています。また計測されたデータが計数データなら0以上の整数で、割合のデータならば0〜1のときのデータです。これらのデータに対して回帰直線を当てはめると説明変数の値によっては応答変数の範囲から外れてしまいます。この際は係数データなら対数変換、割合のデータならロジット変換を用います。
対数変換をXやYに自然対数の底を取るので問題の指示に従うことが大事です。ロジット変換は下記になります。
それではβ≠0かどうかを調べるために平方和の分解から始めます。
回帰変動和についてさらに調べます。
いよいよ分散分析表を作成します。上の考察から残差平方和が小さく、回帰変動和が大きいと回帰に意味があることになります。今回は帰無仮説をβ=0としています。また、回帰変動和の自由度は説明変数の個数である1になることに注意しましょう。
この表に従ってF検定を行えばOKです。
線形重回帰
重回帰分析は統計応用の箇所でも学習していますが、その前段階の部分を復習します。今回も帰無仮説をすべてのβが0となることとして分散分析表を作成するところまでの理解が目標となります。
まずは正規方程式の導出までを復習します。
次に重相関係数と偏相関係数を定義します。紛らわしいのでここで抑えておきましょう。
平方和の分解を行って、帰無仮説「すべてのβは等しく0」を検定するために分散分析表を作成します。
回帰変動和の自由度は、説明変数の個数であるpであることに注意しましょう!
平均への回帰
例えば1年目に活躍した選手が2年目には1年目ほどには目立った活躍ができないことや、去年大きく下がった株が今年は去年ほどは大きく暴落しないなどの現象を平均への回帰と言います。大雑把な理解ですと平均に近づくという内容です。
条件付き分散についても補足しておきます。
この内容は統計検定1級に未出です。
分割表の解析
分散分析では量を測ることで得られる計量値データに関し、水準間の相違の有無を検定しました。分割表では個数を数えることで得られる計数値データに関して、水準間の有無を検定します。
なるほど!分散分析と分割表も調べたい内容は一緒なのですね!
2×2分割表
予めAの2群に人数を割り振れた場合は一様性の検定を用い、予めAの2群に人数を割り振れなかった場合は独立性の検定を考えます。これらは同じ検定方法が利用でき、帰無仮説のもとで期待度数を計算し、それからのずれが実際の観測データ以上になる確率を計算します。フィッシャー検定やカイ二乗検定を用います。
まずは一様性の検定の確率の置き方と、帰無仮説を考えます。
一様性の検定と独立性の検定の確率の設定では、どこが1なのか?という観点で学習をしましょう。
次に独立性の検定の確率の置き方と、帰無仮説を考えます。
期待度数についてまとめておきます。
フィッシャー検定
フィッシャー検定から解説します。これは近似を用いない正確性検定です。
ポイントは1つの表につき1つの確率が算出できるということです。
これらの一連の表に対して、実際の観測データの表以上に期待度数から離れた表の確率をすべて足して、それが有意水準以下なら帰無仮説を棄却します。すなわちP値の考え方になります。片側検定の場合と両側検定の場合で計算方法が異なります。
まず片側検定の場合を考えます。ここでの仮定は該当セルの期待度数と実際の観測データとの大小であることに注目していることにご注意ください。この仮定に沿うように対立仮説が用意されています。
両側検定の場合は、実際の観測データ表と同じくらい反対側に離れている表を考えますので、実際の観測データを用いて、期待度数からの乖離を表す値を計算します。
この値が実際の観測データ表での値以上であるすべての表の確率の合計を計算します。ちなみにこの式に期待度数を代入すると0になります。
カイ二乗検定
次にカイ二乗検定について説明します。
カイ二乗検定は近似を用いている(フィッシャー検定は近似ではない)ため総数Tが小さい(20以下)あるいは期待度数の中で一番小さい値が5以下のときに近似が悪くなりますので、その場合はフィッシャー検定を用いた方が良いです。
マクネマー検定
同じ観測対象に対して、同じことを2度調べて差があるかを検定することをマクネマー検定といいます。分割表は独立性の検定と同じですが目的が異なるので検定の方法は異なります。
右上と右下の期待度数が同じことについては、2回の対象(例えばテスト)の難易度が同じと考えると、対応する周辺度数に変化がない(1回目に合格した人は全員2回目も合格し、1回目に不合格の人は全員2回目も不合格になる)ことから導かれます。
マクネマー検定は連続分布による近似を用いているので、非対角要素が次のシグマ計算を高速にできるほどに小さいならば、直接計算した方が良いです。非対角要素のどちらかが有意に大きいかを検定するので、次の母比率の検定の計算を行えばOKです。
この分布は対称であることに注意すれば両側検定は簡単になります。
a×b分割表
一般の場合も一様性の検定(縦の要素がすべて等しい)と独立性の検定を考える際に期待度数を考えます。
フィッシャー検定においては次のように一般化されます。
カイ二乗検定においては、近似であるため、期待度数の中に1以下のものが1つでもあったり、5以下のものが20%であるような場合は近似が悪くなります。その場合にはいくつかの群をプールするか、フィッシャー検定を用います。
ノンパラメトリック法
母集団分布が正規分布のような有限個のパラメータで記述できる確率分布である仮定を用いない解析法をノンパラメトリック法といいます。
符号検定
n個の観測値によって母集団の中央値が0かを検定したいときに符号検定を用います。対応ある2変量の観測値に基づいて2変量の分布が等しいかを考える際もz=xーyとして同じ方法を用いることができるが、その際はウィルコクソンの符号付き順位和検定を用いた方が良いです。
対立仮説において中央値が正だと言いたい場合は、極端な場合は負の数のデータがいくつあるかという考え方をします。
最後のP値はなるべく小さくしたい(棄却したい)気持ちが表れていますね。
P(X<a)のとき連続補正を行うと、少しだけ確率を大きくするイメージのためP(X<a+1)となります。通常は1ではなく0.5を足したり引いたり(不等号の向きが反対の場合)しますが、今回は1を用いるようです。
ウィルコクソン順位和検定(マン-ホイットニーU検定)
ウィルコクソンの順位和検定は2変量の対応がないときに用います。
しかし並べ替えの計算は大変であり、m+n個の中に同じ値があった場合の処理も大変です。そこでマン-ホイットニーU検定統計量を考えます。実際のP値は場合の数を数え上げることになります。
統計検定1級ではタイのある場合は出ないと思ってOKです。しかしタイがない場合とタイのある場合の2つ分布が従う正規分布を解説します。
タイがない場合でさえも難しいですね。離散一様分布と有限修正の考え(平均値の分散の計算を避けるため)を用いています。
最後にP値の計算を紹介します。タイがある場合もない場合も同じ考えで導出できます。
片側検定の方は、順位の大きいものがどれくらい占めるか?を考えるので上のような式になります。対立仮説が反対の場合は、そもそも出発地点からYの方が大きくなるように設定し直します。連続修正には0.5を用いています。
ウィルコクソンの符号付き順位和検定
タイがない場合を考えます。タイがない場合の統計量は正規分布に近似できますが、その期待値と分散はベルヌーイ分布が絡んでくるため、統計検定1級に未出なこともあり、証明問題で出題される可能性が高いです。
P値の計算は片側も両側もウィルコクソンの順位和検定のときと全く同じ式になります。
順位相関係数
相関係数の検定に関して、母集団分布が正規分布である仮定を用いずに、順位を用いることで検定が可能となります。スピアマンの順位相関係数は数値データと同じ方法で検定できる簡便さがありますが、nが大きくないと正規近似がケンドールの順位相関係数よりも悪いです。
スピアマンの順位相関係数について説明します。
ケンドールの順位相関係数についても定義します。
最後に母集団が正規分布である仮定を用いず相関係数の検定を行うためにケンドールの順位相関係数の分子Kを検定統計量とします。
統計検定1級ではタイがある場合は出ていません。そのため分散などの式は与えられると考えられます。
ここでは連続補正として1を引いています。「相関が負」が対立仮説の場合は標準正規分布において左側になるように有意確率を求めます。その際は連続補正として1を足すことになります。
不完全データ
欠測メカニズムは無視できない欠測メカニズム(偏りの問題を引き起こす仮定)、無視できる欠測メカニズム(偏りの問題を含まない仮定)があります。欠測メカニズムは1変量データの場合は欠測が値に依存しなければ欠測メカニズムは無視できます。問題は多変量(ここでは2変量とします)データの場合です。欠測がYのみに生じる場合、欠測がXとYのどちらにも依存しない場合がMCARで無視できます。欠測がYのみに生じる場合、欠測がXの値に依存するがYの値には依存しない場合がMARで無視できます。欠測がYのみに生じる場合、欠測がXとYの値に依存する場合がMNARで無視できません。
欠測Xへの依存はさらに、Xが欠測の条件に合ったために欠測した標本の数がわかる「打ち切り」と欠測した標本の数すらわからない「トランケーション」があります。欠測データへの対処法は次の4つがあります。
欠測があるデータを取り除き完全データとして分析
得られたデータを用いて分析(一部が欠測した標本も用います)
欠測に値を代入して完全データの手法を適用
→平均値代入、乱数代入、重回帰式による代入、EMアルゴリズムによる代入などの単一代入法と多重代入法があります。
欠測をそのままモデル化
シミュレーションは統計学においては乱数を用いたモンテカルロ・シミュレーションを行うことが多いです。乱数を発生させる母集団分布を、観測データにも基づいて定めるシミュレーションをブートストラップといいます。母集団分布として観測データの経験分布を用いることが多く、観測データの中から標本を復元抽出することに相当します。観測データにパラメトリックモデルを当てはめ、モデルのパラメータに観測データから推定した値を代入した経験分布から乱数を発生させる方法をパラメトリック・ブートストラップといいます。乱数の発生はコンピュータ演算による擬似乱数、物理現象の観測に基づく物理乱数が用いられます。現在は擬似乱数の中でもメルセンス・ツイスタ法が良いとされます。
欠測メカニズムについては前級である統計検定準1級で具体的に学習できます。『日本統計学会公式認定 統計検定準1級対応 統計学実践ワークブック』に詳しく計算方法が記されておりおすすめです!
数理統計のメイン部分(確率変数と確率分布、推定、検定)
統計検定1級の統計数理のメイン部分の学習を最後に行います。これまで何度も学習している部分のため『日本統計学会公式認定 統計検定1級対応 統計学』に色濃く書かれている部分を抽出して再学習をおこなっていきます。
『現代数理統計学の基礎』の第1章から第8章までを行うことが先決です。統計検定1級を本書だけで合格した方も結構いらっしゃり、統計検定1級のバイブルと言われている本です。別記事などにて全章分を解説しております。
確率と確率変数
事象の独立については『日本統計学会公式認定 統計検定1級対応 統計学』には記号が書かれていないので、本番では使用する際は断り書きをしたほうが良いと思います。また複数の事象に関しては、きつい条件を満たしたときに互いに独立という表現をします。
余事象の独立性は当たり前な感じがしますが、数式で証明できるようにしておきたいですね。
確率変数XとYが連続のときに次の公式が忘れがちですので注意しましょう!
確率変数の独立を考える場合、その確率関数やp.d.f.の結合分布が個々の分布の積で書ける時に独立と定義します。複数の確率変数がきつい条件を満たしたときに、例えばX、Y、Zが独立といいます。互いに独立の「互いに」は確率変数の独立ではつけないようです。事象の独立では「互いに」をつけるので紛らわしいですね。
二項分布について階乗モーメントの公式を覚えておきましょう。
また積率母関数(2変量)のときの一般公式もおさえておきましょう。意外と盲点になります。
正規分布の歪度は0で尖度は3ですので、尖度の定義式から3を引いておく流派もあります。
偏相関係数の記号も使えるようにしておきましょう。
チェビシェフの不等式の証明と大数の法則の証明もできるようにしておきましょう。
標本平均は母平均に確率収束することを主張する法則です。またここから中心極限定理(CLT)に応用ができます。各Xは独立同分布に従うとします。
おそらくこの証明が最短だと思いますがテイラー展開で手が止まると思いますので補足をします。
二項分布に正規近似を適用する場合は、連続修正を行います。これについては本記事でも何度か出てきましたが、感覚的ではなくきちんとした説明を与えます。
基本的に≦の向きでのやり方を覚えておけば逆向きの時は1から引けばよいので対応できます。≦の向きについては、x’がxの時もx+1の時も上図の2行目の式になることから、その真ん中の点を利用しましょうという自然な考えになります。また少しでもきつい評価にするために≦の時は(≧の向きでも結果的にはそうなりますが)xに+1をした幅1の区間で考えています。
種々の確率分布
一見正規分布に従うような場面でもはずれ値を多く含むような場合は正規分布ではなくコーシー分布を仮定したほうが良いです。
負の二項分布
負の二項分布では混合分布の考えを用いた問題が大事です。証明は複雑ですので丁寧に導出します。
この問題は、最初からパラメータを代入したまま処理すると大変な計算になります。中学生が学習する文字式の計算のように、具体的な数値は最後の最後に代入する方針を取りました。
多項分布
多項分布の条件付き分布が二項分布になることを示すために次のステップを踏みます。
この定理は公式としても覚えたい内容です。
このように公式本『日本統計学会公式認定 統計検定1級対応 統計学』に記載されている多項分布は大問としても統計検定1級に出題されてもおかしくない内容となっています。
一様分布
一様分布と分布関数の問題で変わったタイプがありますのでご紹介します。
ポイントは初めからFが分布関数になることの定義を示すことを目標にすることです。
指数分布
危険率は次の式で定義されます。
なぜこれが危険率と呼ばれるかの説明をします。
ハザード関数が一定値をとる確率分布を指数分布と定義できます。
ガンマ分布
ガンマ分布についてはポアソン分布との関連性が強調されています。
Wはk個の機械が故障するまでの時間を表しており、Xについては単位時間に故障する平均の数がλ個のとき時刻wまでに故障する平均の数がλwとなる個数をXとしています。つまり、証明したい等式は時刻wまでk個の機械が生存している(全滅していない)確率はK-1個の機械が時刻wまでにすべて壊れる確率と等しいことを言っています。
確率分布の中でここら辺は言語的な理解が難しい部分ですね。
ベータ分布
ガンマ分布がポアソン分布と関係があるなら、ベータ分布は二項分布と関係があります。
ベータ分布とは正解数がαで失敗数がβと分かっているときの成功率p(これをxや下記証明ではzと表しています)の分布を表します。これはベータ分布の期待値の結果からも理解できると思います。
また、ベータ分布はガンマ分布から導くことができます。
ディリクレ分布
この考えを用いてディリクレ分布を導くことができます。
なるほど!最後に周辺化をすると綺麗に導かれますね!
公式本『日本統計学会公式認定 統計検定1級対応 統計学』は初学習時点では難しいですが、数理統計に慣れてきた段階で取り組んでみると綺麗にまとまっていることに気付かされる名著です。
コーシー分布
コーシー分布は変数変換で定義されます。実際に2023年の統計検定1級で出題されています。コーシー分布はt分布の特殊なケースであり、正規分布と比べて中心付近から外れた値が発生する確率が高く、裾が重い分布と言われます。
またコーシー分布は位置パラメータ分布族や位置尺度パラメータ分布族の形で用います。
ワイブル分布
ワイブル分布は危険率がべき関数で表される分布です。
またワイブル分布は指数分布と変数変換の関係にあります。
ワイブル分布の期待値と分散を求めるために一工夫をします。
kに似た文字はギリシャ文字のκ(カッパ)です。
置換のヒントがないとかなりの難問ですね。ワイブル分布と指数分布との関係式が既知でなければかなり苦しいですね。
その通りですね。このワイブル分布のように公式本『日本統計学会公式認定 統計検定1級対応 統計学』に載っている箇所の学習が手薄にならないように気をつけましょう!
こちらはワイブル分布の期待値を出すときとほぼ同じ流れのため、サラッと記述できると思います。置換積分を伴う分散の計算は、期待値計算の流れを踏襲できるパターンがほとんどです。
ゴンペンツ分布
生命保険数理ではGompertz分布と呼ばれる分布が使われます。
危険率が絡む確率変数の定義域は正だと考えるのが自然です。
ロジスティック分布
ロジスティック分布について復習します。
モーメント母関数などに触れておきます。
置換積分はyを分布関数と大胆に行いますので初見では無理です。またガンマ関数の定義域を考えることによりtの範囲は−1<t<1となります。
モーメント母関数の結果よりロジスティック分布の期待値が0と求まります。
ここからはディガンマ関数の知識が必要となりますが、公式本『日本統計学会公式認定 統計検定1級対応 統計学』では公式が与えられていますので、統計検定1級で出題される際にもヒントが書かれていると思われます。
モデリングの際にはコーシー分布と同じく位置パラメータ分布族と位置尺度パラメータ分布族の形で用いられます。ともにコーシー分布のときと定義式は変わりません。
多変量正規分布
以下、一般にΣは非負定値行列とします。
多変量正規分布はモーメント母関数が下記になるときに定義されます。またtについてマクローリン展開(t=0についてテイラー展開)すると、μとΣの正体が判明します。通常の正規分布のような関係と同じであることが分かります。転置の順番については、結果がスカラーかベクトルか行列かなどによって見分けることがコツです。丸暗記の必要はありません。モーメント母関数の結果はスカラーになります。
多変量標準正規分布については次の結果を導けるようにしておきましょう。モーメント母関数→多変量標準正規分布→→変数変換→多変量正規分布の順番で確率密度関数を考えます。
次にAX+bの形の分布を考察します。
これは線形変換の一般形ですが、変換後の分散共分散行列の転置行列の順番が通常の公式とは逆になっていることにご注意ください。
わからなくなったら、このように自力で導いてしまえば問題ありませんね笑
ここでp変量正規分布の確率密度関数を求めるためにΣを正定値とします。またこれより先のΣにも適用します。このときΣは対称行列でもあるので、直交行列を用いて対角化でき、その固有値はすべて正となるため、Σの負の平方根が一意に定まります。この行列を用いて変数変換をすることにより、所望の確率密度関数を導出します。
ヤコビアンのところは少し考えると、Xの係数部分となることが分かりますね。
次の定理は統計検定1級に直に出題されわけではありませんが、今後も間接的に使用することが予想される定理です。合否に影響を与えるポイントです。Xのブロック行列をAXの形で表現するためにAをどのように設定するか?を考えるだけの問題ですが、初見ではきついと思われます。
確率ベクトルの独立性について考えます。正規分布の有名性質「正規分布では独立と無相関が同値」を一般の場合で証明します。一般にと書いた理由は、多くの参考書では2変量正規分布に限定した説明で始終しているためです。この内容もブロック行列で考えるので、公式本『日本統計学会公式認定 統計検定1級対応 統計学』で体系的に学び取ることができます。本書は多変量正規分布〜の多変量分布の体系化が素晴らしいです。
最後に多変量正規分布において条件付き確率もまた多変量正規分布になることを証明します。統計検定1級では具体的な期待値と分散の理解も問われます。
天下り的な証明なので分けて解説します。初見だと確実に導けないタイプの証明です。
行列Aの設定が天下り的です。
この証明を統計検定1級で行うよりも、結果をしっかりと実践で支えることが大切です。
t分布
t分布については正規分布のガンマ分布による混合としてもt分布が得られることを確認しましょう。またモーメント母関数は存在しません。再生性もありません。
またt分布はベータ分布とも関係があります。変数変換を行いますが2乗が出てきて、Xの正負が定まらないことから逆変換が存在したないため、分布関数を用いた証明を行います。
t分布の期待値が0より、上で考えた変数変換を継続して用いることによりt分布の分散を求めることができます。分散が存在するpの範囲はガンマ関数が計算できる条件から導かれます。
F分布
最後にF分布について解説します。
この置き換えをヒントに期待値と分散を考えます。
t分布とF分布の関係も復習しておきましょう。推定や検定で表にない値を考えるときの突破口となります。
f分布にはt分布と同じくモーメント母関数が存在せず、再生性はありません。
統計的推定
一般的に非復元抽出の方が復元抽出よりも計算は単純である前提をおさえましょう!また母集団のパラメータを真のパラメータということがあります。
十分統計量
例えばベルヌーイ試行においてpを推定したい場合、何回表が出たかが重要であり、何回目に表が出たかは気にしなくて良いと直感的にわかることを数式を用いて示すと次のようになります。この場合は表が出た回数が十分統計量になります。この例での確率関数は各サンプルが順番通りに見ていったときにn個が表か裏か?を考えることになります。
この例でわかるように結果はパラメータpに依存していませんね。十分統計量は尤度法による推定で発揮されます。反対に尤度法の枠組みを外れた予測理論では十分統計量以外の情報を用いると効率が上がる場合もありますが、十分統計量も十分に「十分な統計量」といえます。
しかしT(x)がθの十分統計量であるための必要十分条件は次のようにフィッシャー-ネイマンの分解定理が保証します。
分解定理の左辺は確率関数(確率密度関数)であることにご注意ください。
S(T(X))が十分統計量ならば、T(X)も十分統計量になります。これはT(X)に対して関数Sを介して情報を失ったS(T(X))でさえθの推定には十分な情報を持つのだから、元のT(X)はもちろん十分ということで、情報の十分性を表しています。
実際に証明をしておきます。
パラメータが複数ある場合は、ベクトル値をとる統計量を、パラメータ群の十分統計量と考えます。例えば正規分布などで考えられます。
分割表ではよく問題を読んで、どのようなモデルか?を考えながら分解定理を用いていきたいですね。
独立と言われたら周辺部がメインなので外側の方に意識を向けることが大切です。
ラオ-ブラックウェル推定量
十分統計量の有用性の例としてラオ-ブラックウェル推定量があります。この推定量は通常の推定量よりも平均二乗誤差が同じか小さくなる素晴らしい性質があるのです。
証明はとても難しいのですが、統計検定1級に出ないとは言い切れないので概要を抑えておきましょう。
期待値の繰り返しの公式の理解
両推定量の期待値の一致(当たり前ですが気付きにくいです)
イェンセンの不等式(の期待値版)の使用の流れです。
イェンセンの不等式とは、(あれこれというのは凸性作業という条件が付きますが)期待値をとってあれこれするよりも、あれこれした後で期待値をとった方が値が同じか大きいという不等式です。これは期待値をとる作業以外にも様々なバージョンがあります。
順序統計量
ある母集団から抽出された確率変数の平均や分散を推定するとき、n個の確率変数の値のみが必要なとき、順番は不必要な情報と考えられます。そこでn個の標本を昇順にしたもの、つまり順序統計量を組として考えて良いことは、順序統計量が十分統計量であることからその考えが保証されます。
この結果はフィッシャー-ネイマンの分解定理が保証しています。このように順序統計量を用いることは、特に中央値は平均値と比べて外れ値に関する頑健性を持つため応用上重要になります。
今までにデータの特徴を見る際に、ヒストグラムや散布図などのデータの順番を変えても同じ図が得られることから、データの順番の情報を落とす意味で順序統計量と同じ考え方に基づいていた訳ですね。
尤度と最尤推定
尤度は漸近有効性の意味で強力な性質を持つため、最も標準的な統計的推定法と考えても過言ではありません。
例えば歪んだコインがあり、10回中3回表が出たとします。このとき表が出る確率をpとして、10回中3回表が出る確率を最大化するpを求めると、pは0.3となります。このようにxが固定されたθ(パラメータ)の関数と考えたものを尤度関数といいます。これはθをパラメータに持つxの確率関数(確率密度関数)と同じ式ですが、目的が異なるのであらためて尤度関数という名前を用いています。
最尤推定量はパラメータ変換による不変性をもちます。これは分布をどのようなパラメータで表記しても、最尤推定の結果で得られる分布が同じになるという重要な性質です。
最尤推定量が存在しない場合があります。ここでは2つの状況を説明します。
まずは1つの標本(X1)から2パラメータ(例えば正規分布の期待値と分散)を推定したいとき、期待値をX1として、標準偏差を0に近づければ尤度はいくらでも大きくなりますが、標準偏差は正なので最尤推定量は存在しません。
次は混合正規分布の場合です。標本サイズが多数あっても、一般に最尤推定量は存在しません。このことは応用上で本質的な問題となることがあり、正規化やパラメータ空間の制限などの対策が必要になります。
有効スコア
対数尤度の利点はその期待値がシャノンエントロピーとなることや、スコア関数(対数尤度をパラメータで偏微分した関数)の期待値が0となる理由があります。スコア関数の分散がフィッシャー情報量と呼ばれて重要になります。
次にスコア関数の期待値が0を証明します。一般性を与えるためにg(X)の期待値がθに依存しない関数g(X)を用いて計算を行います。そのため期待値記号の添字にθとありますが、今回のこの記号はxとθの2変数関数をxで期待値演算するので、結果がθで表されますよという意味です。
どういう意味で記号が用いられているかを考える習慣が大切ですね。
モーメント法
大数の法則より標本平均や標本分散などの標本モーメントは、真のモーメントに確率収束することを用いて、連続確率分布において推定量の一致性が保証されます。モーメントは厳密には中心モーメントといいます。中心化(標本平均を引かずに計算すること)モーメントを用いた同様な手法をモーメント法とすることもあります。
モーメント法は最尤推定量の解析的な解が陽な形の式で表すことができない場合に有効です。
最小二乗法
xに誤差がなくyに誤差がある回帰モデルの推定の際に使用される最も基本的な最小二乗法と最良線形不偏推定量があります。最小二乗推定量は重み付け最小二乗法と区別するために、OLSと呼ぶことがあります。
二乗をとる理由は、正規分布の撹乱項が加わったモデルの最尤法と一致しているためです。
最良線形不偏推定量(BLUE)
切片を含まない線形回帰モデルを考えるとき、βの最小二乗推定量は線形不偏推定量となります。一般に線形不偏推定量の中で、平均二乗誤差を最小化する推定量を考えたとき、それを最良線形不偏推定量(BLUE)といいます。ガウス-マルコフの定理により、撹乱項の条件(正規性は不要の弱い仮定)を用いたとき、最小二乗推定量はBLUEと一致します。
このガウス・マルコフの定理までの流れは素晴らしく、そもそも平均二乗誤差は真のパラメータを含むため、そもそも計算ができませんが、それにも関わらず、標本XとYから計算できる最小二乗推定量が不偏推定量になり、さらにBLUEが得られてしまうと主張しています。
バイアス-バリアンス分解と不偏性
どの推定量を用いるか?の自然な基準の1つは推定量と真のパラメータが確率的に近くなることですので、最小二乗誤差を小さくすることを考えます。
この式を用いる方法は、まず第一項(バイアスの2乗)をゼロにする、つまり不偏性を持つクラスに限り議論することにより、第二項の推定量の分散を小さくするようにすると解析しやすくなるのです。
バイアスとは推定量の期待値と真のパラメータの値との差です。不偏推定量の中で平均二乗誤差を最小にする、つまり分散を最小にする不偏推定量を、θの値によらず(不偏推定量はθによって一意性がないことの対比)一様に分散を最小化する意味で一様最小分散不偏推定量(UMVUE)といいます。
線形モデルに対するBLUEは線形推定量のうちで分散を一様に最小にしていますね。
UMVUEかを判断するために有用な十分条件として有効性があります。すなわちクラメール・ラオの下限を達成している、つまり有効推定量ならばUMVUEとなります。
不偏性は非線形変形すると保持されないことに注意しましょう。また一般に、最尤推定量やモーメント推定量は不偏性を持ちません。
一致性
不偏性は有限な標本サイズnに対して成り立つ性質であり、任意の期待値0の確率変数を加えたときに不偏推定量となってしまう意味で弱い要請ですが、一致性は期待値でなく推定値自身が真の値に近づく意味で、より実用的な制約になっています。
標本平均や標本分散などのモーメント推定量は一致性を持つので、それらを連続変形したモーメント推定量も一致性を持ちます。また最尤推定量は適当な正則条件のもとで一致性を持ち、標本サイズが大きいときに、さらに良い性質(漸近正規性、漸近有効性)を持ちます。
有効性
クラメール-ラオの下限を達成している推定量を有効推定量といいます。有効推定量ならばUMVUEです。逆が成り立たない例はこちらになります。
推定量の相対効率について説明します。これは二つの分散の逆数の比を考えていることになります。
ただし不偏推定量に限らない一般の推定量に拡張した次の式を相対効率と呼ぶこともあります。
情報量規準(AIC)
2次元上のn個の点が与えられたとき、すべてを通るn-1次多項式が存在するのですが、常にその多項式がデータをよく説明しているとは考えづらいです。つまり、得られているデータへの当てはまりが良い多項式と、データを説明する多項式とはまったく別物です。パラメータの値のみでなくパラメータの次元も含めた統計的なモデルを選択する問題をモデル選択といいます。
パラメータの次元とはパラメータの自由度のことです。次元を増やすことで最大対数尤度は大きくなるので第一項は小さくなるが、第二項は大きくなってしまいます。そのため第二項を罰則項といいます。各項を2倍する理由は、モデルが正しいときに、第一項は漸近的にカイ二乗分布に従うからで、最小化により得られる結果に影響がないためです。
AICはパラメータ次元に対して、標本サイズが十分多いときに用いるべきです。
カルバック-ライブラー情報量とAICの導出
AICの罰則項が他ならぬdim(θ)であることを導くにはKL情報量(KLダイバージェンス)の知識が必要です。KL情報量とは2つの分布F、G間の近さの量です。他には全変動距離やリヘンジャー距離などがありますが、KL情報量がこれらと異なる点は、fとgの間に対称性がないことです。そのため数学的な距離ではないですが、情報理論からも自然と導出される規準です。
推定量をもとに生成した、Xとは別の標本Yの分布が、真の分布に近いほど良いと考えます。このようなYを未来の標本といいます。代入をプラグインということがあります。
ただし罰則項がdim(θ)となる理由は情報理論が必要になります。
AICは未来の標本Yの分布を最もよく近似するような最尤推定量を持つモデルを選びますので、予測精度を上げるためにモデルのパラメータの次元を実際より多く見積もる傾向があります。これをAICはモデル同定の一致性を持たないといいます。これに対して予測ではなくモデル同定が目的のときにBIC(ベイズ情報規準)などモデル同定の一致性を持つ規準を用います。
漸近的性質(統計的漸近理論、漸近論、有限標本の理論)
大数の法則やCLTなどのnが十分大きいときに推定量などの統計量の性質を調べる統計理論を漸近論(統計的漸近理論)と言うことに対し、標本サイズを固定した上での統計理論を有限標本の理論といいます。有限漸近性とは、有限標本の場合の有効性の漸近論版です。まずは有限標本の場合の有効性について復習します。
n個の標本を無作為抽出するとき、適当なスケーリングを行うとクラメール・ラオの下限が標本サイズnによらなくなります。
適当な正則条件のもと、最尤推定量はこの下限を漸近的に実現します。これを最尤推定量の漸近正規性といいます。
一般に極限分布の分散は、分散の極限に一致するとは限りませんが、この場合は一致します。これを最尤推定量の漸近有効性といいます。
有限な標本サイズでは有効性を持つ推定量が必ずしも存在しなかったことを考えれば、これは最尤推定量の非常に強い性質であるといえます。
これらの性質の証明はとても難易度が高いです。まず、これらの性質が成立するためには最尤推定量の一致性が必要です。そのためには通常の正則条件以外に更なる条件が必要です。分布の台(存在範囲)がパラメータによらない場合は基本的な確率分布において最尤推定量の一致性、漸近正規性、漸近有効性が成立します。
デルタ法
最尤推定量は漸近正規性を持っていましたが、他の推定量や統計量にも漸近正規性を持つとわかるものがあります。また次のデルタ法を用いて、これらの推定量の関数値の漸近正規性を示すことができます。
証明はg’が連続であると仮定した場合のみ行います。ここでは漸近正規性を用いているので正規分布を考えていますが、デルタ法の証明は正規分布でないときもできるように工夫して行います。
デルタ法を用いる例題を紹介します。
区間推定
『日本統計学会公式認定 統計検定1級対応 統計学』において、点推定に割かれた解説ページより、区間推定のそれは圧倒的に少ないです。そのため統計検定1級では点推定の方を重視していると考えています。
この式の確率変数はθではなく、LやUの方なので「θが(L、U)に入る確率」ではなく、「(L、U)がθを覆う確率」の方が適切で、その意味で被覆確率という言葉が使われることもあります。なおいつも区間が得られるとは限らないので、信頼領域という言葉を用いる本もあります。ただしベイズ統計学ではθを確率変数と考え、標本が得られたもとでのθの事後的な確率を計算し、それに基づく信頼区間を構成できます。
最尤推定量を用いた近似的な信頼区間の構成法(ワルド法)を考えます。