Statistics of the kth-top value

とある確率分布関数 \(P(x)\) に従うデータを \(n\) 個サンプリングしたとき, その最大値･最小値や \(k\) 番目に大きな値がしたがう確率分布関数 (確率密度関数) を考えます.

kth-top PDF

ある確率分布 \(P\) に従うデータ \(n\) 個からなる系列 \(\{ x_i \}\) を考えます. 測定値は順序がつけられる連続量とします. このとき \(k\) 番目に大きな値を \(x^{(k)}\) と表し, \(x^{(k)} = z\) となるような確率密度関数を \(\mathrm{pdf}_k(z)\) と定義します. 例えば \(k=1\) のときは最大値の確率密度関数となり, \(k=n\) のときは最小値の確率密度関数となります. このとき, データ系列には \(z\) よりも大きな値が \(k-1\) 個, \(z\) よりも小さな値が \(n-k\) 個存在します. したがって, \(\mathrm{pdf}_k(z)\) は以下のように表されます.

\[ \mathrm{pdf}_k(z) = \frac{n!}{(k-1)!(n-k)!}~ P(z)^{n-k} ~ p(z) ~ \left(1 - P(z) \right)^{k-1}, \]

ここで \(P(z)\) は確率分布関数 (累積確率分布) であり, \(p(z)\) は確率密度関数を表します. サンプルしたデータは見分けがつかないので場合の数に応じた係数がかけられます.

以下の図は平均が 0, 標準偏差が 1 の正規分布から 10 個のデータをサンプリングしたときの例を示しています. 10,000 回のシミュレーションから最大値, 最小値, \(k=3\) のヒストグラムを作成しました. また, 上記の式で定義される解析的な分布を実線で示しています.

同様のシミュレーションを \(\beta = 5\) の指数分布で作成した例を以下の図に示します. 最大値と \(k=3\) のヒストグラムと解析的な分布を示しています.

どちらの例でもシミュレーションと解析的な分布がよく一致していることがわかります.

peak-to-peak PDF

同様にある確率分布 \(P\) からデータを \(n\) 個サンプリングした系列 \(\{ x_i \}\) を考えます. ここでは最大値と最小値の差 \(\Delta = x_\mathrm{max} - x_\mathrm{min}\) を考えます. ここで \(\Delta\) の確率密度関数を \(\mathrm{pdf}_\mathrm{ptp}(\Delta)\) と定義します. 仮に \(x_\mathrm{max} = \xi\) とすると \(x_\mathrm{min} = \xi - \Delta\) となり, \(\xi\) と \(\xi - \Delta\) の間に \(n - 2\) 個の値が存在することになります. こうした確率をあらゆる \(\xi\) について足し合わせることで, \(\mathrm{pdf}_\mathrm{ptp}(\Delta)\) は以下のように定義されます.

\[ \mathrm{pdf}_\mathrm{ptp}(\Delta) = \int \mathrm{d}\xi~ \frac{n!}{(n - 2)!}~ p(\xi - \Delta) \bigl( P(\xi) - P(\xi - \Delta) \bigr)^{n - 2} p(\xi) \]

先ほどと同様にサンプルしたデータは見分けがつかないので場合の数に応じた係数がかけられます. 以下では平均が 0, 標準偏差が 1 の正規分布から 10 個, および 50 個サンプリングしたときの, \(\Delta\) のヒストグラムを 100,000 回のシミュレーションから作成しました. また, 上記の式で定義される解析的な分布を実線で示しています. いずれの分布もシミュレーションと解析的な分布がよく一致していることがわかります.