学習

データ解析のための数理統計入門の第12章『重回帰モデル』の例と演習問題の解説

統計検定1級の対策書として公式本以外で真っ先に買うべき本である『データ解析のための数理統計入門』の第11章の解説と演習問題を自力で解いた学習の軌跡の記事です。本章は重回帰分析に関する理論の展開となります。本記事の内容が本書において最も行間が広い分野だそうです。自分も解いていて苦戦した箇所がありましたが、多くの方が似たような状況のようです。

本記事がその方々の助けになれば幸いです。

\ポイント最大11倍!/
楽天市場
\ポイント5%還元!/
Yahooショッピング

本章で重回帰モデルからガウス・マルコフの定理までを前半としてスピーディーに解説します。後半はコクランの定理などテクニック面が強い印象があります。1度で吸収しようとせず、ゆっくりと何回も本記事をお読みになって共に頑張っていきましょう!

まずは単回帰モデルからの学習をお奨めします!

統計検定1級青本の第12章の説明と例題

\ポイント最大11倍!/
楽天市場
\ポイント5%還元!/
Yahooショッピング

本記事はガウス・マルコフの定理より先の内容が難易度が高くなっています。ガウス・マルコフの箇所を前半としたのはアクチュアリー数学での重回帰分析の区切りの部分であるためです。要するに後半は統計検定1級に相当するハイレベルの内容となっております。

重回帰モデルの行列表示からガウス・マルコフの定理まで

本書『データ解析のための数理統計入門』ではより実践的にそして理論的に重回帰分析を理解するために、射影行列Pの導入がなされています。本記事を通して要するに冪等行列とは何か?その使い方についても共に慣れていきましょう!

重回帰モデルの行列表示

偏回帰係数に切片(定数項)は含まれません。しかしβのことを慣例上、偏回帰係数ベクトルと呼びます。

本書ではβの最小2乗統計量に当たりをつけて、それが残差平方和を最小にすること、そしてその根拠に射影行列Pを導入することによって証明しています。証明の途中で冪等行列の考察が重要になってきます

残差平方和の行列表示

残差平方和が表す幾何的な意味を考えます。直交射影行列Pが大活躍します。Pの2乗がPと等しい行列は射影行列であることの必要十分条件です。一度射影したものをもう一度射影しても変わらないことから冪等性が成り立つわけです。

βの最小二乗推定量と射影行列Pの類似点がポイントです

僕は何冊か数理統計の本を読んできましたが、ここの部分の説明について本書『データ解析のための数理統計入門』が最もわかりやすくかったです。

期待値ベクトルと(分散)共分散行列を定義し性質を確認します。最後の性質は2次形式の期待値の重要な性質でトレースが出てくることが特徴です。また後ほど登場しますが2次形式とコクランの定理も相性最高です。

2次形式の期待値の性質など

2次形式の期待値の重要性質を用いて、βの最小2乗統計量の性質誤差分散の不偏推定量を結果を導きます。単回帰分析の記事で出てきた内容が重回帰分析の中で証明されたわけです。

分母がn-kとなる理由はトレースが絡むからでした

いよいよガウス・マルコフの定理です。ここでも上で用いた誤差の期待値が0ベクトルになるなどの性質は保存されたまま用います。

まだこの段階では正規性の仮定は加わっていないことに注意です。

ガウス・マルコフの定理

誤差項に正規性を仮定する場合

次は誤差項に正規性を仮定する場合になります。どんどん仮定がキツくなっていることに注目しましょう。ただしここの部分の証明の理解が難しくかなり苦戦しました。

結構反響があったようです

ここの部分、結構苦戦されている方が多いみたいでtweetした内容が反響あるみたいです。

ここが正念場!

コクランの定理

コクランの定理を用いると見通しが良くなります。

コクランの定理は多変量の正規分布と相性が良さそうです。またいろんなバージョンがあり、『データ解析のための数理統計入門』で解説している内容は最も一般的な場合のようです。準備段階として以下のTweetにて冪等行列においてトレースが出てくる根拠の周辺について解説しています。

冪等行列の性質
コクランの定理

重要な箇所は多変量正規分布に従っている確率変数の2乗(に相当する部分)が左辺にきて、右辺が2次形式(対照性の仮定)で表せたとして、その表現行列のランク(を出す際にトレースを用いるため冪等性の仮定が必要)の和が多変量正規分布の次元に等しいことが言えれば、独立性とカイ2乗分布の自由度が一気に確定してしまう強力な定理となります。

コクランの定理を用いると先ほどの内容がシンプルに表現されます。後に解説しますが、コクランの定理を使用するには2次形式の形に持っていくこと→注目する行列が対称であり、冪等であることが要求されます

コクランの定理を使う例

ランクといえばその際に成立する内容と、フルランクでない場合に生じる弊害も紹介しておきますね。

多重共線性とフルランクの関係

回帰係数の仮説検定

統計検定やQC検定にも登場する頻度の高い仮説検定との絡みに入ります。ここでは有意水準αの検定にピッタリはならないものの近似でも良いのでとにかく検定を求めたい!という時のための尤度比検定、そして有意水準αにピッタリとなる検定(今回はF検定とt検定)の2種類をこの順で導出します。尤度比検定では汎用性の高いバージョンで紹介します。

尤度比検定

しかしこの検定ではあくまでも近似で得られる検定なので、近似を用いない検定を導出します。

F検定

次に特定の回帰係数の成分に関する検定について考えます。こちらはt検定になります。こちらは回帰係数の推定量の周辺の対角成分がポイントになります。

t検定

重回帰分析では変数選択が大事になります。そのため決定係数関連の話題を整理します。決定係数は重相関係数の2乗になります。

自由度調整済み決定係数と決定係数との関係式は盲点です

最後の式はかなりの盲点です。気をつけましょう。

次に予測誤差を小さくするための方法を考えます。カルバック・ライブラー情報量で測ります。またそれを用いた際の期待予測誤差を考えます。統計モデルに依存する部分の漸近的な不偏推定量が赤池情報量規準(AIC)となります。結局対数尤度を中心に計算していることになります。

カルバック・ライブラー情報量からAICへ

またAICは変数選択における尤度比検定と類似点があります。どちらが評価が甘いかは右辺の値で判断できます。

AICと仮説検定の関係

AICは分布を仮定して議論を展開しました。分布が用意できない場合はクロスバリデーションを用いて直接予測誤差を推定します。

交差検証法

最後に重回帰分析モデルの応用として多項式モデル双曲線モデルを紹介します。それぞれを用いた場合の方がモデルのデータへの当てはまりの良さが向上する場合があります。

多項式回帰
双曲線モデル

またダミー変数を取り入れた解析ではAICが小さくなる場合があります。

統計検定1級青本の第12章の演習問題

\ポイント最大11倍!/
楽天市場
\ポイント5%還元!/
Yahooショッピング

問1:多項式回帰

F統計量

F統計量は残差平方和を意識すると覚えやすいです。

問2:t検定の問題

行列計算の表記法に工夫が必要です

問3:共分散行列の定義

スカラー量に注意

問4:コクランの定理

コクランの定理

コクランの定理を最後に使っていますが、左辺の2とは、2つの確率変数Z_1とZ_2が2変量標準正規分布に従っていることの2です。対称行列の確認が抜け落ちているように感じますが、それは2次形式で表現できていることから自明と見做します。

本記事で何度も登場するトレースの値は対角化前後で不変です。その理由はトレースの中身の行列には交換が許されるからです。

以上で重回帰モデルの内容を終了します。QC検定1級などまた別の角度から問われる内容もありますが、本記事で多くの典型的な問題パターンは網羅できているはずです。他にも下記に別の視点から考察した重回帰分析の記事を載せます。本記事は『データ解析のための数理統計入門』を軸に書きました。本記事ををお読みくださり、ありがとうございました。

\ポイント最大11倍!/
楽天市場
\ポイント5%還元!/
Yahooショッピング
  • この記事を書いた人
  • 最新記事

志田龍太郎

東京大学修士→30代セミFIRE元数学教諭(麻布高など指導)/アクチュアリー数学,統計検定1級(2025年に再挑戦)/数検1級→高3・漢検1級→教諭時代に合格/ブログ+SNS運営/AmazonAssociates連携

-学習
-, , ,