勉強

ベータ分布をメインに順序統計量を多項分布から導出しディリクレ分布へと応用(期待値と分散も導出)

志田龍太郎

東京大学修士→30代セミFIRE元数学教諭(麻布高など指導)/アクチュアリー数学と統計検定1級(2024年に再挑戦)/数検1級→高3・漢検1級→教諭時代に合格/ブログ+SNS運営/現在逆手懸垂の訓練中/AmazonAssociates連携

カイ2乗分布を終えたので次はt分布へと進むつもりでしたが、このtweetのように考えてt分布へと進む前にベータ分布を先に学ぶ方が良いと思いました!

カイ2乗分布の次にベータ分布を学ぶ理由

確かに!一般的な参考書ではカイ2乗分布の次はt分布へと進みますけど統計検定1級の受験者に1番人気の『現代数理統計学の基礎』などの参考書ではカイ2乗分布はt分布よりずっと前で解説されていますからね。何か意図があるのではないかと思いました。

カイ2乗分布で登場した標本分布の考えは、ベータ分布を1から解説するこの記事でも使用しますので、未読の方はご覧くだされば嬉しいです。

標本分布でもっとも基本的な分布はカイ2乗分布です!

本記事では次のことを一緒に学んでいきます!まずは目次をご覧ください。

多項分布は二項分布の一般形だけでなく順序統計量の理解の基盤です

多項分布の確率関数

多項定理を学ぶ前に、二項定理を復習した方が良いです!

二項定理はもっとも理解しやすい確率分布です!

ではこれからベータ分布の本質的な意味である順序統計量を分かりやすく扱うために多項分布を勉強します。

二項分布が二項定理から導かれたように多項分布は多項定理から導かれそうですね!

多項分布の確率関数の導出

多項分布を二項にすると二項分布になります。多項分布の表記の仕方などをまとめます。

多項分布の表し方

多項分布は多次元確率分布です。そのためベクトル表記を使用します。多次元確率分布は周辺分布を考えることがあります。多項分布は英語名『Multinomial distribution』の頭文字であるMを用いて表現します。

多項分布では順序統計量の簡易的な証明で用います。その際に表を持ち出すと大変便利です。多項定理の確率関数を例に表を紹介します。

多項分布は表をセットで考えると便利

事象の部分は本来は集合表記ですが、今回は理解を大事にしてほしいと思ったのでこのような表記にしました。きちんとした事象の表記は記事の後の方(順序統計量のところ)で登場します。

多項分布の導出のところで全確率1は証明されていますね!

多項分布の積率母関数から期待値と分散を導出し共分散を求める

多項分布は多次元確率分布なので周辺分布の期待値や分散を考えます。そのため積率母関数から順に説明します。ここでも多項分布は二項分布の一般形であるという考えを用います。

まずは多項分布の積率母関数から導いてみましょう。

多項分布の積率母関数

二項分布は多項分布の特殊な場合なので、ベクトルtの第i成分以外をすべて0にすることにより多項分布の周辺分布の期待値を求めることができます。その結果、多項分布の周辺分布が二項分布であることも確認できます。

多項分布の周辺分布は二項分布

この☆の結果から多項定理の周辺分布を導けるのが面白いです!

分散については二項分布で既に勉強しているので結果はわかりますね。同様に二項分布で学んだ再生性も役に立ちます。

二項分布の再生性

次に多項分布で注目すべき性質である共分散が負という性質を導きます。

積率母関数の第二次導関数から導かれる結果

それでは共分散を求めます。

多項分布の周辺分布の共分散

流れは分かりました。でもなぜ積率母関数を2回微分したら周辺分布の積の期待値が得られたのですか?

良い質問ですね。こちらは期待値の中身を微分してみれば理解できます

積率母関数の微分と期待値との関係

なるほど!もう1度微分すれば確かに周辺分布同士の積が登場しますね!

多項分布の周辺分布の共分散はアクチュアリー数学受験者は覚えておいた方が良いです。統計検定1級では結果だけを書くと減点される可能性が高いのでご注意ください。

ベータ分布の意味は順序統計量のあとで理解できる

ベータ分布の確率密度関数

いよいよ本記事の中核部分のベータ分布に入ります。

ガンマ分布がガンマ関数から作られたので、ベータ分布もベータ関数から作られそうですね!

この記事でガンマ分布とガンマ関数の知識を事前に入れておきましょう!

それではベータ分布の確率密度関数を導きます。B(p,q)はベータ関数を表す記号です。

ベータ関数の記号B(p,q)はベータ分布の記号とは異なるのでご注意ください。

ベータ分布の確率密度関数

下の図のようにベータ分布は定義されます。ベータ分布はBeta(p,q)という記号で表します。ベータ関数B(p,q)の独立変数xの定義域がそのままベータ分布の実現値xの範囲になります

ベータ関数はさまざまな性質があります。それらを駆使してベータ分布のいろいろな性質を導いていきます。

ベータ関数の性質とその証明

ベータ関数の持つ性質を調べていきます。まずはベータ関数単体の内容でガンマ関数との絡み、そして(『弱点克服 大学生の確率・統計』を参考にして)一見気づきにくい性質まで扱います。

ベータ関数のパラメータに関する交換法則

まずは最も簡単な性質から証明します。ベータ関数関連では置換積分が主な計算手法になります

ベータ関数の性質の証明で用いる置換積分は初見では気づきにくい置き換えが多いです。ペンを片手に一緒に計算してみましょう。

ベータ関数のパラメータの交換法則

ベータ関数と三角関数(正弦カーブ)との関連

ベータ関数はサインカーブと相性が良いです。受験数学ではウォリスの公式として登場した積分漸化式の一般形となっています。

三角関数の積分はベータ関数に置き換えると一瞬で答えを出せるときがある

受験数学とつながっているのは感動です!

ベータ関数とガンマ関数との関係

三角関数の積分をベータ関数に置き換えられても、ベータ関数は積分で定義されているから計算が面倒じゃないんですか?

実はガンマ関数とベータ関数には関係性があります。ガンマ関数は階乗計算に帰着できるので、ベータ関数もパラメータが整数の場合は階乗計算に帰着されるのです。いまから紹介する公式はベータ関数の重要公式です。

ベータ関数とガンマ関数を結ぶ関係式(この関係式の一般化の本質部分が記事最後にあるディリクレ積分になります)

置換積分とてもしていますね。

この性質の証明問題は数学検定1級の2次検定のレベルです。要するに大学数学の内容の中ではかなりの頻出問題です。しっかりと証明できるようにしておきましょう。数学検定1級の参考書は『合格ナビ!数学検定1級1次 解析・確率統計』『合格ナビ!数学検定1級1次 線形代数』が現時点でベストです。

数学検定1級の対策記事はこちらです!

ベータ関数と分数関数との関係(アクチュアリー数学)

ベータ関数のマイナー公式

アクチュアリー数学の参考書『アクチュアリー試験 合格へのストラテジー 数学』などで頻繁に登場する公式です。

これを初見で「ベータ関数だ!」と気付けたらかなり凄い人です!

置換の方法は分数関数だから分数関数で置換しようという単純な発想で覚えました。

ベータ関数の性質はここまで学習すれば十分です。いよいよベータ関数の性質を調べていきます。

ベータ分布の期待値と分散と高次モーメント

ベータ分布の期待値を求めましょう。

ベータ分布の期待値

ベータ関数の性質がさっそく使われていますね。ガンマ関数に落とし込むことが計算のコツなのですね!

ベータ分布の分散も計算してみましょう!

ベータ分布の分散

期待値のときとほぼ同じ流れですね。1番気をつけないといけないのは最後の通分の部分かも知れません笑

期待値の2乗もできたので一般化してみましょう。ベータ分布の高次モーメントも算出しておきます。

ベータ分布のk次モーメント

みんな一緒ですね!笑

ベータ分布は計算方法にさえ慣れてしまえば計算自体はこわくないですよ!難しいのはベータ関数の持つ意味の方です。

ベータ分布の持つ意味は順序統計量が絡んでいます。順序統計量はこの章のあとで解説します。

ベータ分布の性質(変数変換の利用)

ベータ関数の性質を終えてベータ分布の期待値と分散などを通してベータ分布にも慣れてきたと思いますので、いよいよベータ分布の持つ性質へと進みます。ここではガンマ分布との関連性を目標に進みます。

ここでは変数変換がかなり登場します。ゆっくりと進めていきましょう。ヤコビアンを用いない1次元以上の変換方法として『リスクを知るための確率・統計入門』を参考にテクニックを紹介しています。

ベータ分布のパラメータの入れ替えに関する確率変数の変換

まずはベータ分布の持つ最も基本的な性質からスタートします。

ベータ関数にパラメータの入れ替え法則があったように、ベータ分布のパラメータを入れ替えるにはどのような変数変換をしたら良いのでしょうか。

X~Beta(p,q)のとき1-XとすればOKです。証明はやってみると(分布関数を避けるならば)簡単です!

ベータ分布のパラメータの入れ替え公式

1-Xとするのはベータ関数の積分の形から納得ですね!

ベータ分布とガンマ分布との間の確率変数の変換式

この定理に登場する変数変換をヤコビアンを用いずに解いてみます。ヤコビアンを用いない1次元以上の変換方法として『リスクを知るための確率・統計入門』を参考にテクニックを紹介します。

ヤコビアンを用いずに変数変換を行う岩沢先生のテクニック

岩沢先生のテクニックを用いて2つの独立なガンマ分布をベータ分布に変換する方法を考えましょう。

ガンマ分布とベータ分布の関係

これでベータ分布の計算面は終了です。

残ったのはベータ分布がどのような意味を持つ分布なのか?ですね。

ガンマ分布(アーラン分布)は指数分布(イベント発生間隔が従う分布)の和の分布なので待ち時間に関係する分布でした。ではベータ分布は一体どのような意味を持っているのでしょうか。そのためには順序統計量という概念の理解が必要になります。

順序統計量:分布関数と確率密度関数について

ベータ分布の意味を理解するために順序統計量を定義して性質を調べます。

Pは確率分布で、そこからn個の標本(サンプル)をとります。Pは無限母集団を仮定しているので、n個の標本は独立です。

順序統計量

一番小さいものを最小統計量、一番大きなものを最大統計量といいます。(離散確率変数と比べてメインの)連続確率変数を考えるときに、それぞれの分布関数を求めてから確率密度関数を考えましょう。

順序統計量の分布関数と確率密度関数

突然に一般化すると難易度がとても上がり理解が難しいと思われます。そのため最大統計量→最小統計量→一般化と簡単な順に考えていきます。

最大統計量からお願いします!

最大統計量の分布関数と確率密度関数

こちらになります。離散型の場合はシグマを用いますが後ほど紹介します。

最小統計量もお願いします!

こちらは生存関数を用いて考えると混乱を防げます

最小統計量の分布関数と確率密度関数

それでは一般化します。一気に難易度が上がりますので落ち着いて落ちついて着いてきて下さい。ポイントは①式の理解です。

順序統計量の分布関数と確率密度関数

とても難しいです。

二項分布が出てくるところが難易度高いと思いますよね。これは何回か見直さないと頭に入らないと思います。反復が大事です。

ベータ分布を扱うときはベータ分布は連続確率分布なのでこの公式でOKですが、離散分布の場合も分布関数と確率関数を求めておきます。ポイントは受験数学で勉強した玉ねぎ型確率です。(玉ねぎ型確率は『合格! 数学I・A 新課程』に分かりやすく載っています。受験数学では頻出な問題でP(X=k)=P(X≦k)-P(X≦k-1)とするタイプです。)連続確率分布でこの作業に相当する作業が微分になります。

離散確率分布のときの順序統計量の分布関数と確率関数

分布関数を出すところは二項分布を使うので連続型のときとほぼ一緒の考え方です。分布関数から確率関数を出すところは玉ねぎ型確率の考えです。

多項分布を用いて順序統計量の確率密度関数を分布関数を経由せずに求める方法

この記事の序盤に出てきた多項分布はいつ役立つのですか?

良いタイミングです。今まさにそのときが来ました!

順序統計量の分布関数の導出に二項分布が出て来ました。しかし(連続型の場合は)分布関数を微分する必要がありました。多項分布を用いる方法では分布関数を経由せずに一気に確率密度関数を求めることができます

3項分布を用いて順序統計量の確率密度関数を求める

これはエレガントですね!多項分布は表を用いて考えると便利だとよく分かりました!

次に順序統計量の同時分布を求めます。先ほどより難しいですが同じような考え方で綺麗に導くことができます。

5項分布を用いて順序統計量の同時分布の確率密度関数を求める

この問題の一般化(次の問題)の証明が過去に2回ほどアクチュアリー数学に出題されました。

順序統計量の同時分布の一般化の公式

こちらはアクチュアリー数学では頻出なので受験者は覚えておいた方が良いです。

最後はn個すべて用いるタイプの同時分布を考えます。この問題の解き方は『現代数理統計学の基礎』系列の久保川先生の著作にのみ掲載されています。

n個すべて用いた場合の順序統計量の同時分布の確率密度関数

順序統計量の範囲の分布

ベータ分布が順序統計量とどのように関係しているのか?に答えるためには、あともう少しだけ順序統計量を深掘りする必要があります。

頑張りますので、よろしくお願いします。

今回は順序統計量の同時分布の公式は理解した上で、差の分布も同時に考えるので、順序統計量のラスボス的な存在感です。

順序統計量の範囲の分布は難しいので、こちらも具体例→一般化へと進んでいきます。まずはイメージしやすい最大統計量ー最小統計量(標本範囲)が従う分布を求めます

標本範囲の従う分布

では、一般化します。複雑になりますが、上の問題とほぼ同じように考えればきちんと答えにたどり着けます。

順序統計量の範囲の分布

ベータ分布の意味

ベータ分布はXが標準一様分布に従うときに小さい方から数えてp番目で大きい方から数えてq番目のものが従う分布のことです。

一様分布についてはこちらで詳しく解説しています。

なぜ標準一様分布が出てきたのでしょうか?下の解説をご覧ください。

数式で進めると納得できます。一様分布と順序統計量のコラボレーションで生み出された分布がベータ分布だったのですね。どうりで結論までが長かったわけです笑

そして標準一様分布ならではの超有名な公式があります。アクチュアリー数学の受験者は超頻出な公式なので覚えていくださいね!

標準一様分布ならば範囲の分布は単純化する

証明は円周の長さが1の円上にPを固定して残りn個の点を打って考えれば、自明な結論となります。

リスクを知るための確率・統計入門』によるエレガントな証明

順序統計量とベータ分布と一様分布が合体した例(アクチュアリー数学過去問より)

区間(0,1)の中で、3つの実数を無作為に選ぶ。このとき、最も小さい数の期待値を求めよ。

アクチュアリー数学(H15)
アクチュアリー数学(H15)

1/3じゃないのが不思議な問題です。

感覚的にはほぼ当たらない名問です。

2つの確率変数が独立にU(0,L)に従うとき、2つの確率変数の差の絶対値のn乗の期待値を求めよ。

アクチュアリー数学(H13)
アクチュアリー数学(H13)

アクチュアリー数学の難しさはこのような問題は1分程度で解かないといけないところです。

ベータ分布の期待値は知っていないとアウトなわけですね。

ようやくベータ分布も終わりに近づきました。ここで二項分布と負の二項分布と標準一様分布とベータ分布の間の関係式をまとめて終わります。

二項分布と負の二項分布と標準一様分布とベータ分布の間の関係式

標準一様分布のところのイメージ図はこちらです。

標準一様分布とベータ分布の関係

ディリクレ分布は多次元ベータ分布のこと

ベータ分布を多次元にしたものをディリクレ分布といいます。

まだあるのですね笑

ガンマ関数との絡みがより深められる良い機会ですので、最後まで一緒に頑張りましょう!

まずはディリクレ分布の確率密度関数をベータ関数(多次元バージョン)から導いてみます。

ディリクレ分布の確率密度関数の導出

ここの波線部分がディリクレ分布の確率密度関数になるのですね!

ディリクレ分布の全確率1は上の数式から導かれていますね。

ディリクレ分布の確率密度関数

ディリクレ分布の期待値を求めましょう。

ディリクレ分布の期待値

ベータ分布のときと似てますね。期待値の結果を見ても、ディリクレ分布はベータ分布の一般化だとよく分かります。

しかしこの解答はベータ分布とガンマ分布の関係(下から3行目)をしれっと用いているので、本当に多次元でも成立するのか?を証明しておく必要があります。

この問題はディリクレ積分をきちんと証明できればOKです。とても複雑なのでこの記事の最後に証明します。

次にディリクレ分布の分散を求めますので、まずは2次モーメントを求めます。

ディリクレ分布の2次モーメント
ディリクレ分布の分散

この結果はこれ以上きれいにならないので、これを最終結果とするのが一般的です。

アクチュアリー試験 合格へのストラテジー 数学』ではディリクレ分布(多次元ベータ分布)の性質が載っていますので掲載しておきます。

ディリクレ分布の性質

ディリクレ積分

本記事の最後にベータ関数とガンマ関数との間の関係式を多次元に拡張した定理を証明します。

左辺はベータ関数

いよいよラストスパートです。一緒に頑張りましょう!

ディリクレ積分

お疲れさまでした。最後に多項分布とベータ分布とディリクレ分布の内容で参考にした書籍を紹介します。

玉ねぎ型確率の紹介で参考にしました。本書は到達点が高いのでおすすめです。問題量は少ないですが、超進学校でもない限り、本書をこなせれば定期テストは100点取れます。到達点は1対1対応の演習の少し下程度です。欠点は問題量が少ない点です。本書は理解度を重視する参考書です。また中学生が高校数学を予習する用途でも良いと思います。

ベータ関数とガンマ関数の絡みに関しての問題が豊富です。弱点克服と書いてありますが、これをこなせればかなりの実力者です。

ベータ分布の意味のところで参考にしました。本記事のテーマとなった部分です。ヤコビアンを用いないで変数変換を行うテクニックが書かれているのは本書だけです。

著:久保川達也, 著:新井仁之, 著:小林俊行, 著:斎藤毅, 著:吉田朋広

名著です。本書にしか載っていない定理がありまして、本記事ではその定理を使用しました。統計検定1級対策で最も有名な参考書です。

ディリクレ分布(多次元ベータ分布)の図形問題への活用例が豊富です。

数学検定1級の箇所で紹介しました。解析学と統計学の問題が過去問をベースで掲載されています。現時点の数学検定1級の対策本として最もおすすめできる名著です。

数学検定1級の箇所で紹介しました。線型代数の問題が過去問をベースで掲載されています。現時点の数学検定1級の対策本として最もおすすめできる名著です。到達点は数学検定1級に合格できる程度の線型代数のレベル感です。東大院試などの院試には届かないので、院試を考えている方は院試対策用の線型代数『線形代数学[新装版]』などでしっかりと基礎固めをしましょう!

  • この記事を書いた人
  • 最新記事

志田龍太郎

東京大学修士→30代セミFIRE元数学教諭(麻布高など指導)/アクチュアリー数学と統計検定1級(2024年に再挑戦)/数検1級→高3・漢検1級→教諭時代に合格/ブログ+SNS運営/現在逆手懸垂の訓練中/AmazonAssociates連携

-勉強
-, , , , , , , , , ,