切り捨て分布

Conditional distribution in statistics
切り捨て分布
確率密度関数
異なるパラメータセットにおける切断正規分布の確率密度関数。すべてのケースにおいて、a = −10、b = 10です。黒:μ = −8、σ = 2、青:μ = 0、σ = 2、赤:μ = 9、σ = 10、オレンジ:μ = 0、σ = 10。
サポート x ( a , b ] {\displaystyle x\in (a,b]}
PDF g ( x ) F ( b ) F ( a ) {\displaystyle {\frac {g(x)}{F(b)-F(a)}}}
CDF a x d F ( t ) F ( b ) F ( a ) = F ( x ) F ( a ) F ( b ) F ( a ) {\displaystyle {\frac {\int _{a}^{x}dF(t)}{F(b)-F(a)}}={\frac {F(x)-F(a)}{F(b)-F(a)}}}
平均 a b x d F ( x ) F ( b ) F ( a ) {\displaystyle {\frac {\int _{a}^{b}xdF(x)}{F(b)-F(a)}}}
中央値 F 1 ( F ( a ) + F ( b ) 2 ) {\displaystyle F^{-1}\left({\frac {F(a)+F(b)}{2}}\right)}

統計学において切り捨て分布は、他の確率分布の定義域を制限することで得られる条件付き分布です。実際の統計学において、出来事を記録する能力、あるいは出来事を知る能力が、特定の閾値以上または以下、あるいは指定された範囲内にある値に制限される場合に、切り捨て分布が生じます。たとえば、ある学校の児童の生年月日を調べる場合、その学校が特定の日に特定の年齢範囲の児童のみを受け入れることを考えると、生年月日は一般に、その地域のすべての児童の生年月日に比べて切り捨てられます。情報を得るために学校に直接問い合わせるだけでは、その地域で何人の子供の生年月日が学校の締め切り日の前または後であるかに関する情報は得られません。

実際の値を記録せずに、必要な範囲外にある項目についての知識を保持するようなサンプリングは、ここでの切り捨てとは対照的に、打ち切りとして知られています。[1]

意味

以下の議論[2]は連続分布を 持つ確率変数に関するものであるが、離散分布にも同じ考え方が当てはまる。同様に、この議論では切り捨ては半開区間y∈ ( a,b ]で行われるものと仮定しているが、他の可能性も簡単に扱うことができる。

ある確率密度関数と累積分布関数に従って分布する確率変数があるとします。これらの関数はどちらも無限のサポートを持ちます。サポートを2つの定数 の間に制限し、サポート が となるようにした上で、この確率変数の確率密度を知りたいとします 。つまり、が与えられたときに がどのように分布するかを知りたいとします X {\displaystyle X} f ( x ) {\displaystyle f(x)} F ( x ) {\displaystyle F(x)} y = ( a , b ] {\displaystyle y=(a,b]} X {\displaystyle X} a < X b {\displaystyle a<X\leq b}

f ( x | a < X b ) = g ( x ) F ( b ) F ( a ) = f ( x ) I ( { a < x b } ) F ( b ) F ( a ) x f ( x ) I ( { a < x b } ) {\displaystyle f(x|a<X\leq b)={\frac {g(x)}{F(b)-F(a)}}={\frac {f(x)\cdot I(\{a<x\leq b\})}{F(b)-F(a)}}\propto _{x}f(x)\cdot I(\{a<x\leq b\})}

ここで、すべての場合、そしてそれ以外の場合、である。つまり、指示関数である。切断分布の分母は に関して一定である点に注意されたい g ( x ) = f ( x ) {\displaystyle g(x)=f(x)} a < x b {\displaystyle a<x\leq b} g ( x ) = 0 {\displaystyle g(x)=0} g ( x ) = f ( x ) I ( { a < x b } ) {\displaystyle g(x)=f(x)\cdot I(\{a<x\leq b\})} I {\displaystyle I} x {\displaystyle x}

実際には密度であることに注意してください。 f ( x | a < X b ) {\displaystyle f(x|a<X\leq b)}

a b f ( x | a < X b ) d x = 1 F ( b ) F ( a ) a b g ( x ) d x = 1 {\displaystyle \int _{a}^{b}f(x|a<X\leq b)dx={\frac {1}{F(b)-F(a)}}\int _{a}^{b}g(x)dx=1}

切り捨て分布では、分布の上下の一部を切り捨てる必要はありません。分布の上下部分のみを切り捨てた切り捨て分布は以下のようになります。

f ( x | X > y ) = g ( x ) 1 F ( y ) {\displaystyle f(x|X>y)={\frac {g(x)}{1-F(y)}}}

ここで、すべておよびその他すべての場合において、累積分布関数です g ( x ) = f ( x ) {\displaystyle g(x)=f(x)} y < x {\displaystyle y<x} g ( x ) = 0 {\displaystyle g(x)=0} F ( x ) {\displaystyle F(x)}

分布の上部が削除された切り捨て分布は次のようになります。

f ( x | X y ) = g ( x ) F ( y ) {\displaystyle f(x|X\leq y)={\frac {g(x)}{F(y)}}}

ここで、すべておよびその他すべての場合において、累積分布関数です g ( x ) = f ( x ) {\displaystyle g(x)=f(x)} x y {\displaystyle x\leq y} g ( x ) = 0 {\displaystyle g(x)=0} F ( x ) {\displaystyle F(x)}

切り捨て確率変数の期待値

確率変数が既知の値 より大きいと仮定し、確率変数 の密度分布と累積分布に従って分布する確率変数の期待値を求めたいとします。切り捨て確率変数の期待値は以下のようになります。 f ( x ) {\displaystyle f(x)} F ( x ) {\displaystyle F(x)} X {\displaystyle X} y {\displaystyle y}

E ( X | X > y ) = y x g ( x ) d x 1 F ( y ) {\displaystyle E(X|X>y)={\frac {\int _{y}^{\infty }xg(x)dx}{1-F(y)}}}

ここでもまた、それはすべての人々 、そして他のあらゆる場所のためのものです g ( x ) {\displaystyle g(x)} g ( x ) = f ( x ) {\displaystyle g(x)=f(x)} x > y {\displaystyle x>y} g ( x ) = 0 {\displaystyle g(x)=0}

をそれぞれ元の密度関数(連続であると仮定)のサポートの下限と上限とすると、 (連続導関数を持つ連続関数)の特性には以下が含ま ます a {\displaystyle a} b {\displaystyle b} f {\displaystyle f} E ( u ( X ) | X > y ) {\displaystyle E(u(X)|X>y)} u {\displaystyle u}

  1. lim y a E ( u ( X ) | X > y ) = E ( u ( X ) ) {\displaystyle \lim _{y\to a}E(u(X)|X>y)=E(u(X))}
  2. lim y b E ( u ( X ) | X > y ) = u ( b ) {\displaystyle \lim _{y\to b}E(u(X)|X>y)=u(b)}
  3. y [ E ( u ( X ) | X > y ) ] = f ( y ) 1 F ( y ) [ E ( u ( X ) | X > y ) u ( y ) ] {\displaystyle {\frac {\partial }{\partial y}}[E(u(X)|X>y)]={\frac {f(y)}{1-F(y)}}[E(u(X)|X>y)-u(y)]}
そして y [ E ( u ( X ) | X < y ) ] = f ( y ) F ( y ) [ E ( u ( X ) | X < y ) + u ( y ) ] {\displaystyle {\frac {\partial }{\partial y}}[E(u(X)|X<y)]={\frac {f(y)}{F(y)}}[-E(u(X)|X<y)+u(y)]}
  1. lim y a y [ E ( u ( X ) | X > y ) ] = f ( a ) [ E ( u ( X ) ) u ( a ) ] {\displaystyle \lim _{y\to a}{\frac {\partial }{\partial y}}[E(u(X)|X>y)]=f(a)[E(u(X))-u(a)]}
  2. lim y b y [ E ( u ( X ) | X > y ) ] = 1 2 u ( b ) {\displaystyle \lim _{y\to b}{\frac {\partial }{\partial y}}[E(u(X)|X>y)]={\frac {1}{2}}u'(b)}

限界が存在すると仮定します。つまり、でありまたはを表します lim y c u ( y ) = u ( c ) {\displaystyle \lim _{y\to c}u'(y)=u'(c)} lim y c u ( y ) = u ( c ) {\displaystyle \lim _{y\to c}u(y)=u(c)} lim y c f ( y ) = f ( c ) {\displaystyle \lim _{y\to c}f(y)=f(c)} c {\displaystyle c} a {\displaystyle a} b {\displaystyle b}

切断正規分布は重要な例である。[3]文献では、左切断正規分布[4]左切断ワイブル分布[5] [6] 、左切断対数ロジスティック分布[7]が検討されている。

トービットモデルは切断分布を採用しています。他の例としては、x=0における切断二項分布やx=0における切断ポアソン分布などがあります。

ランダム切り捨て

次のような状況を想定します。密度 から切り捨て値 がランダムに選択されますが、この値は観測されません。次に、切り捨てられた分布 から値 がランダムに選択されます。 が観測され、その観測値に基づいて の密度に関する確信を更新したいとします t {\displaystyle t} g ( t ) {\displaystyle g(t)} x {\displaystyle x} f ( x | t ) = T r ( x ) {\displaystyle f(x|t)=Tr(x)} x {\displaystyle x} t {\displaystyle t}

まず、定義によれば:

f ( x ) = f ( x | t ) g ( t ) d t = x f ( x | t ) g ( t ) d t {\displaystyle f(x)=\int _{-\infty }^{\infty }f(x|t)g(t)dt=\int _{x}^{\infty }f(x|t)g(t)dt} 、 そして
F ( a ) = a [ x f ( x | t ) g ( t ) d t ] d x . {\displaystyle F(a)=\int _{-\infty }^{a}\left[\int _{x}^{\infty }f(x|t)g(t)dt\right]dx.}

はより大きくなければならないことに注意してください。したがって、 について積分する場合、 の下限を設定します。関数およびは、それぞれ無条件密度関数と無条件累積分布関数です。 t {\displaystyle t} x {\displaystyle x} t {\displaystyle t} x {\displaystyle x} f ( x ) {\displaystyle f(x)} F ( x ) {\displaystyle F(x)}

ベイズの定理によれば

g ( t | x ) = f ( x | t ) g ( t ) f ( x ) , {\displaystyle g(t|x)={\frac {f(x|t)g(t)}{f(x)}},}

これは次のように展開される

g ( t | x ) = f ( x | t ) g ( t ) x f ( x | t ) g ( t ) d t . {\displaystyle g(t|x)={\frac {f(x|t)g(t)}{\int _{x}^{\infty }f(x|t)g(t)dt}}.}

2つの均一分布(例)

tが [0, T ]から一様分布し、 x | tが [0, t ]上で一様分布すると仮定します。g ( t ) とf ( x | t ) をそれぞれtxを記述する密度とします。xの値を観測し、そのxの値が与えられた場合のtの分布を知りたいとします

g ( t | x ) = f ( x | t ) g ( t ) f ( x ) = 1 t ( ln ( T ) ln ( x ) ) for all  t > x . {\displaystyle g(t|x)={\frac {f(x|t)g(t)}{f(x)}}={\frac {1}{t(\ln(T)-\ln(x))}}\quad {\text{for all }}t>x.}

参照

参考文献

  1. ^ Dodge, Y. (2003)オックスフォード統計用語辞典. OUP. ISBN 0-19-920613-9
  2. ^ ケンドール、モーリス・G.、スチュアート、アラン (1967). 『統計学の高度理論 第2巻:推論と関係性』(第2版)ロンドン:チャールズ・グリフィン・アンド・カンパニー社、セクション(32.17)
  3. ^ Johnson, NL, Kotz, S., Balakrishnan, N. (1994)連続一変量分布、第1巻、Wiley. ISBN 0-471-58495-9(セクション10.1)
  4. ^ デル・カスティージョ、ジョアン (1994年3月). 「単一切断正規分布:非急峻な指数分布族」(PDF) .統計数学研究所紀要. 46 (1): 57– 66. doi :10.1007/BF00773592.
  5. ^ Wingo, Dallas R. (1989年12月). 「左切断ワイブル分布:理論と計算」 .統計論文. 30 : 39–48 . doi :10.1007/BF02924307.
  6. ^ Kizilersu, Ayse; Kreer, Markus; Thomas, Anthony W. (2016年6月). 「既知の切断点を持つ左切断2パラメータワイブル分布の適合度検定」. Austrian Journal of Statistics . 45 (3): 15– 42. doi :10.17713/ajs.v45i3.106. hdl : 2440/113666 .
  7. ^ Kreer, Markus; Kizilersu, Ayse; Guscott, Jake; Schmitz, Lukas Christopher; Thomas, Anthony W. (2024年9月). 「与えられた切断点を持つ左切断対数ロジスティック分布の最大尤度推定」.統計論文. 65 : 5409–5445 . arXiv : 2210.15155 . doi : 10.1007/s00362-024-01603-8 .
Retrieved from "https://en.wikipedia.org/w/index.php?title=Truncated_distribution&oldid=1320781720"