予測区間 | This Unruly

パラメータが未知の正規分布からの標本が与えられたとき、頻度論的な意味での予測区間を与えることが可能である。 7690>

頻度論的予測区間の一般的な手法は、観測値X1, …の極めて重要な量を見つけ計算することであり、そのような量を「予測的信頼区間」と呼ぶこともできる。…、Xn、Xn+1、つまり確率分布がパラメータに依存しない観測量とパラメータの関数で、これを反転させると、将来の観測値Xn+1がこれまでの観測値X 1 、…、X nから計算されるある区間に入る確率を与えることができる、というものである。 {displaystyle X_{1},\dots ,X_{n}.}} は、将来の観測値Xn+1がある区間に入る確率を与えることができます。

このような観測値のみに依存する枢要量を補助統計量という。最も身近な枢要量はスチューデントのt統計量であり、この方法で導出されるので、以後、これを用いる。

既知の平均、既知の分散編集

正規分布N(μ.)における将来の観測値Xの予測区間。σ2)の平均と分散が既知の場合、 γ = P ( ℓ μ4> X < u ) = P ( ℓ – μσ – μσ < u – μσ ) = P ( ℓ – μσ < Z < u – μσ ) から算出できるかもしれません。 {Filter=P(\ell <X<u)=Pentaleft({}frac {ell -arette }{sigma }}<{frac {X-arette }{sigma }}<{frac {u-arette }})\mu }{sigma }}right)=Pentaleft({frac {}ell -mu }{sigma }}<Z<{frac {u-mu }{sigma }}right),}

ここで、Z = X – μ σ {displaystyle Z={Аfrac {X-Θmu }{sigma }}}である。

Xの標準スコアは、標準正規分布する。

Hence

ℓ – μ σ = – z , u – μ σ = z , {displaystyle {frac {ell -\mu }{sigma }}=-z,\quad {frac {u-\mu }{sigma }}=z,}

ℓ = μ – z σ , u = μ + z σ , {displaystyle \ = mu -zsigma ,\quad u=mu +zsigma ,}

with z the quantile in standard normal distribution for which:

γ = P ( – z < Z < z ) . {displaystyle \gamma =P(-z<Z<z).} .

あるいは等価的に;

1 2 ( 1 – γ ) = P ( Z > z ) . {displaystyle {tfrac {1}{2}}(1-entagamma )=P(Z>z).} .

予測間隔	z
75%	1.15
90%	1.64
95%	1.96
99%	2.58

z（x軸の標準スコアの分位）から与えられた予測間隔（y軸の上）です。 y軸は対数圧縮される(ただし、y軸の値は変更されない)。

予測区間は従来、次のように記述されていた。

例えば、平均(μ)が5、標準偏差(σ)が1の正規分布の95%予測区間を計算すると、zはおよそ2です。したがって、予測区間の下限は約5 – (2-1) = 3、上限は約5 + (2-1) = 7となり、予測区間は約3～7となります。

平均 (μ) 0、分散 (σ2) 1の正規分布に対する累積分布関数を示した図です。分位点関数に加えて、任意の標準得点の予測区間は、（1-（1-Φμ，σ2（標準得点））-2）により計算することができる。例えば、x=1.96の標準スコアは、Φµ,σ2(1.96) = 0.9750 となり、(1 – (1 – 0.9750)-2) = 0.9500 = 95% の予測区間と一致します。

Estimation of parametersEdit

未知のパラメータを持つ分布に対して、予測への直接的アプローチは、パラメータを推定して、関連する分位関数を使用することです – たとえば、サンプル平均X ¯ {displaystyle {overline {X}}} を使用することができます。

をμの推定値として、標本分散s2をσ2の推定値とする。ここでs2には2つの自然な選択肢があることに注意してください – ( n – 1 ) {displaystyle (n-1)} で割ることです。

は不偏推定値となり、nで割ると最尤推定値となり、どちらを使ってもよいでしょう。そして、これらの推定パラメータΦ X ¯ , s 2 – 1 {{displaystyle \Phi _{overline {X}},s^{2}}^{-1}} を用いて分位関数を使用することになる。

で、予測区間を与える。

このアプローチは使用可能ですが、結果として得られる区間は反復サンプリングの解釈を持ちません – それは予測信頼区間ではありません。

続編では標本平均を使用します：

X ¯ = X ¯ n = ( X 1 + ⋯ + X n ) / n {displaystyle {{overline {X}={overline {X}_{n}=(X_{1}+}cdots +X_{n})/n}

そして（不偏）標本分散：

s 2 = s n 2 = 1 n – 1 ∑ i = 1 n ( X i – X ¯ n ) 2 . {displaystyle s^{2}=s_{n}^{2}={1 \over n-1}sum _{i=1}^{n}(X_{i}-{{overline {X}}_{n})^{2}.} ｝のように計算します。

Unknown mean, known varianceEdit

平均が未知で分散が1の正規分布が与えられたとき、標本平均X¯ {displaystyle {}overline {X}} は、次のようになります。

オブザベーションX 1 , … , X n {displaystyle X_{1},\dots ,X_{n}}} の

は分布N ( μ , 1 / n ) , {Displaystyle N(\mu ,1/n),}

があり、将来の観測値X n + 1 {displaystyle X_{n+1}} は分布N ( μ , 1 / n ) , {Displaystyle N(\mu ,1/n),} があることを意味している。

は分布 N ( μ , 1 ) を持つ。 {displaystyle N(\mu ,1).}となります。

これらの差をとるとμがキャンセルされ、分散1 + ( 1 / n ) の正規分布{displaystyle 1+(1/n),}

となるので X n + 1 – X ¯ 1 + ( 1 / n ) ∼ N ( 0 , 1 ) . {表示スタイル {frac {X_{n+1}-{overline {X}}}{pqrt {1+(1/n)}}} sync N(0,1).} } .

X n + 1を解く{displaystyle X_{n+1}}。

により、予測分布 N ( X ¯ , 1 + ( 1 / n ) ) が得られます。このことから、以前と同様に区間を計算することができます。これは、100p%の分位範囲を使用する場合、この計算を繰り返し適用すると、将来の観測値X n + 1 {displaystyle X_{n+1}} という意味で予測信頼区間となる。

は100p%の確率で予測された区間に入ることになる。

この予測分布は、推定された平均X ¯ {displaystyle {}overline {X}} を使用するより保守的であることに注意してください。

と既知の分散1、これは分散1 + ( 1 / n ) {displaystyle 1+(1/n)} を使用するからである。

となり、より広い区間を得ることができる。これは所望の信頼区間特性を保持するために必要である。

既知の平均、未知の分散編集

逆に、既知の平均0、未知の分散σ2 {displaystyle \sigma ^{2}} の正規分布が与えられた場合、信頼区間はより広くなります。

, 標本分散 s 2 {displaystyle s^{2}}.

of observations X 1 , … , X n {displaystyle X_{1},\dots ,X_{n}}}.

has, up to scale, a χ n – 1 2 {displaystyle \chi _{n-1}^{2}}}.

分布で、より正確には。 ( n – 1 ) s n 2 σ 2 ∼ χ n – 1 2 . (n-1)s_{n}^{2}}{sigma ^{2}} {displaystyle {frac}{{sigma ^{2}}}sim \chi _{n-1}^{2}.} .

一方、将来の観測値X n + 1 {displaystyle X_{n+1}} は、次のようになる。

は分布 N ( 0 , σ 2 ) を持つ。 {displaystyle N(0,\sigma ^{2}).}.

将来の観測値と標本標準偏差の比をとると、σがキャンセルされ、自由度n – 1のスチューデントのt分布が得られます。 X n + 1 s ∼ T n – 1 . {displaystyle {frac {X_{n+1}}{s}sim T^{n-1}.}} が得られます。

Xを解く n + 1 {displaystyle X_{n+1}} 。

により予測分布 s T n – 1 , {displaystyle sT^{n-1},}

から先ほどと同様に区間を計算することができます。

この予測分布は、推定標準偏差sを持つ正規分布{displaystyle s}を使うよりも保守的であることに注意してください。

と既知の平均0は、正規分布の代わりにt分布を使っているので、より広い区間が得られます。これは望ましい信頼区間の特性を保持するために必要なことです。

平均未知、分散未知編集

正規分布 N ( μ , σ 2 ) {displaystyle N(\mu ,\sigma ^{2})}} に対して上記を組み合わせた場合。

μとσ2の両方が未知であると、次の補助統計量が得られる： X n + 1 – X ¯ n s n 1 + 1 / n ∼ T n – 1 . {displaystyle {frac {X_{n+1}-{overline {X}}_{n}}{s_{n}{sqrt {1+1/n}}}}sim T^{n-1}.} } が得られます。

この単純な組み合わせは、正規分布の標本平均と標本分散が独立統計量であるために可能です。これは正規分布に対してのみ当てはまり、実際、正規分布を特徴付けます。

X n + 1 について解く {displaystyle X_{n+1}} 。

により、予測分布 X ¯ n + s n 1 + 1 / n ⋅ T n – 1 が得られます。このとき、予測分布X¯n + s_{n} ↵↵ T^{n-1}.} は、予測分布X¯n + s_{n} ↵ {So_21B5↩ {X}{1+1/n}} ⒸT^{n-1}.{displaystyle

The probability of X n + 1 {displaystyle X_{n+1}} {displaystyle X_{n+1}}.

が与えられた区間に入るのは、次に示すとおりである。 Pr ( X ¯ n – T a s n 1 + ( 1 / n ) ≦ X n + 1 ≦ X¯ n + T a s n 1 + ( 1 / n ) ) = p {displaystyle \Pr({overline {X}_{n}-}, {displaystyle {X}_{n}-})T_{a}s_{n}{sqrt {1+(1/n)}}leq X_{n+1}leq {overline {X}}_{n}+T_{a}s_{n}{sqrt {1+(1/n)}} {},\ЪЪЪ｝

既知の平均、既知の分散編集

Estimation of parametersEdit

Unknown mean, known varianceEdit

既知の平均、未知の分散編集

平均未知、分散未知編集

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル