学習

データ解析のための数理統計入門の第5章『統計モデルとデータの縮約』の例と演習問題の解説

統計検定1級の対策書として公式本以外で真っ先に買うべき本である『データ解析のための数理統計入門』の第5章の解説と演習問題を自力で解いた学習の軌跡の記事です。条件付き分布の理解がメインになるので(自分含めて)苦手意識のある方は必見です!

本章は順序統計量→十分統計量→混合分布と進みます。それぞれの内容が程よくまとまっており、『データ解析のための数理統計入門』の質の高さを再確認した章になりました。

統計検定1級青本の第5章の説明と例題

順序統計量

n個の標本に対するnを標本のサイズといいます。無作為抽出はn個の確率変数が互いに独立と同値です。

ランダム標本の記号(independently and identically distributed)

非復元抽出の場合はiidではありません。また上の定義は次のように書かれることがあります。

母集団の確率分布の分布関数がわかっている場合

F(・)の関数系がわかっている場合はパラメトリック、そうでない場合はノンパラメトリックといいます。確率変数の組と確率分布との関係を記述したものを統計モデルといいます。統計モデルをどのように設定するか?を統計的モデリングといいます。想定した統計モデルは仮設検定や選択規準などを通して検討します。

標本関数が未知なものを含まないとき統計量といいます

統計量の分布を標本分布といいます。パラメータ(母数)は標本から推測します。この関数を次のように考えて、θの推定量といいます。

もしくはθ^と略します

この取り方の1つに不偏推定量があります。これはすべてのθに対してθ^の期待値がθになることです。標本平均、標本分散、不偏分散を考える際はiidで考えます。

カイ2乗分布を用いない導出(こちらが正攻法)

また統計量の1つとして順序統計量があります。これは事象と確率を対応させた多項分布の考えを用いた導出がわかりやすいです。

順序統計量の導き方を順を追って解説

事象と確率の置き方と、確率密度関数への持っていき方をマスターすればいつでも復元可能です。

あくまでも確率変数が主役です

次の作業に行く際に、添字kを(j)つまり順序を導入することにより。事象を満たす際の個数が得られるので多項分布の考え方を適用できるようになります。

この時点では左辺はP表記です

この次の極限の式でΔxで割っている意味はf(・)Δxは微小長方形の面積を表しているためです。

f(・)表記にするために極限を考えます

ただし公式を素早く導出したい場合は、Δ記号は省略して一気に求めておきたいですね。次の公式は同時分布になります。

連続型確率変数の場合、f(x)=0となってしまうため形式的な表現になります。

この特例が次の公式です。

上の方法と同じ考えですぐに導出可能です
表のセルの数が多くなりますが同じ考え方で導出できます

ここで有名な問題を紹介します。この問題の結果をアクチュアリー数学ではどんどん使っていくことになります。逆にこの結果を知らないと時間切れになります

標準一様分布の順序統計量とベータ分布の関係

十分統計量

十分統計量は統計検定1級で頻出です。因子分解定理と合わせて有名な確率分布の問題はスーッと書けるようにしておきたいですね。

十分統計量と因子分解定理
正規分布のパラメータの十分統計量

一様分布については統計検定1級でよく出題されます。

一様分布のパラメータの十分統計量

混合分布

次は抽象的になり難易度が上がる混合分布についてです。アクチュアリー数学では特に頻出です。

混合分布

混合分布では確率(密度)関数まで求めさせる問題と期待値や分散のみでOKな問題に分かれます。期待値や分散では、繰り返し期待値や全分散の公式が大事になってきます。

有限混合モデル

これは2つの正規分布を合わせたものとしてもよく出てくる形になります。次はt分布との関連です。実際は平行移動の概念を用いていますが、大きく考えてt分布というわけです。

正規尺度混合分布

この内容の途中での式変形を下記に載せます。

4行目がテクニカルです。

次にガンマ・ポアソン分布です。ポアソン分布が期待値と分散が等しくなりますが、実際は分散の方が期待値より大きい場合が出てきます。これを過分散の問題といいますが、これを解消する分布になります。また負の二項分布とも関連性があります。

ガンマ・ポアソン分布

次はベータ・二項分布です。基本的に分布関数(ベータ・二項分布など)を求める際に、積分を用いるのでこの問題ではYの方がベータ分布に相当することが理解できると思います。

ベータ・二項分布

ベータ分布は高次モーメントの計算がとてもしやすいことで有名です。しかし2次のモーメントを回避する計算テクニックもあります。

次にアクチュアリー数学で頻出の複合ポアソン分布です。

複合ポアソン分布

次は発展的な内容ですが、全分散公式の一般化を理解できばスッと内容が頭に入ってくるはずです。

条件付き独立

条件付き独立の具体例をあげます。

正の相関を生み出すモデル

ポアソン過程

最後に確率過程を学びます。ポアソン過程を例にとります。

確率過程の多くの例の前提とポアソン過程の定義

ポアソン過程はガンマ分布と密接な関係があります。確率間の言い換えもできるようになると素晴らしいですね。これが(4)の証明のポイントです。

ポアソン過程の基本性質の証明

統計検定1級青本の第5章の問題

順序統計量とベータ分布の関連については岩沢先生の『リスクを知るための確率・統計入門』がとてもわかりやいです。今まで参考にしてきた書籍の中でピカイチのわかりやすさでした。

問1:順序統計量と範囲の分布

メディアンの期待値は必見です

問2:ベータ分布に帰着

最後の積分変数の変換が本質的です

問3:順序統計量と指数分布

指数分布と最小統計量の関係

問4:一様分布と順序統計量

ガンマ分布とベータ分布の関係は次の画像へ
ベータ分布とガンマ分布の関係式
苦戦する様子です笑

問5:ガンマ・ポアソン分布の積率母関数

期待値と分散を求める問題です

問6:二項・二項モデル

終盤の計算が大変でした
またまた苦戦する様子です

問7:複合ポアソン分布の積率母関数

積率母関数経由で期待値と分散を求めます

問8:条件付き共分散の公式証明

条件付き期待値の箇所が難所でした

問9:条件付き分散

なんだか突然難易度が下がった感じで少しホッとしました。

問10:3変数の同時確率(密度)を経由する問題

2変数確率(密度)は3変数のそれを積分したものです

問11:条件付き独立の証明問題

鍵を握るのは一様分布でした

以上になります。前章と比べると問題数は少ないですが、その分だけ良問がギュッと詰まった内容でした。

結構な問題量です!

最後に本記事で参考にした書籍を紹介します。『リスクを知るための確率・統計入門』は順序統計量周辺で参考にしました。アクチュアリー数学と相性がとても良いので、受験を考えている方には特におすすめできます!

そしてメイン本である『データ解析のための数理統計入門』は統計検定1級の新たなバイブルと呼ばれつつある名著です。統計検定準1級レベルと公式には書かれていますが、統計検定1級対策の方がさらに相性が良い書籍だと感じています。

  • この記事を書いた人
  • 最新記事

志田龍太郎

東京大学修士→30代セミFIRE元数学教諭(麻布高など指導)/アクチュアリー数学,統計検定1級(2025年に再挑戦)/数検1級→高3・漢検1級→教諭時代に合格/ブログ+SNS運営/AmazonAssociates連携

-学習
-, ,