Dając próbkę z rozkładu normalnego, której parametry są nieznane, można podać przedziały predykcyjne w sensie częstościowym, tzn, przedział oparty na statystyce próbki taki, że przy powtarzających się eksperymentach, Xn+1 mieści się w przedziale pożądany procent czasu; można je nazwać „predykcyjnymi przedziałami ufności”.

Ogólna technika częstościowych przedziałów predykcji polega na znalezieniu i obliczeniu kluczowej wielkości obserwowalnych X1, …., Xn, Xn+1 – co oznacza funkcję obserwabli i parametrów, której rozkład prawdopodobieństwa nie zależy od parametrów – która może być odwrócona, aby dać prawdopodobieństwo przyszłej obserwacji Xn+1 mieszczącej się w pewnym przedziale obliczonym na podstawie dotychczasowych wartości obserwowanych, X 1 , … , X n . {{displaystyle X_{1},∑ X_{n}.}

Taka wielkość przestawna, zależna tylko od obserwabli, nazywana jest statystyką pomocniczą. Zwykłą metodą konstruowania wielkości przestawnych jest wzięcie różnicy dwóch zmiennych zależnych od położenia, tak aby położenie się zniwelowało, a następnie wzięcie stosunku dwóch zmiennych zależnych od skali, tak aby skala się zniwelowała.Najbardziej znaną wielkością przestawną jest statystyka t-Studenta, która może być wyprowadzona tą metodą i jest używana w dalszej części.

Znana średnia, znana wariancjaEdit

Przedział predykcji dla przyszłej obserwacji X w rozkładzie normalnym N(µ,σ2) o znanej średniej i wariancji można obliczyć z

γ = P ( ℓ < X < u ) = P ( ℓ – μ σ < X – μ σ < u – μ σ ) = P ( ℓ – μ σ < Z < u – μ σ ) , {{displaystyle \gamma =P(\ell <X<u)=Pleft({\frac {\i0}<{\frac {\i0}}<{\i0}{\i0}\u}prawda)=Pleft({ {{frac {{ell -}mu }}<Z<{{{frac {u-}mu }}prawda),}

gdzie Z = X – μ σ {{displaystyle Z={{frac {X-\u}{sigma }}

, wynik standardowy X, ma rozkład standardowy normalny.

Więc

ℓ – μ σ = – z , u – μ σ = z , {{displaystyle {{frac {{ell -mu }}}=-z,}

lub

ℓ = μ – z σ , u = μ + z σ , {

z z kwantylem w standardowym rozkładzie normalnym, dla którego:

γ = P ( – z < Z < z ) . {{displaystyle}} gamma =P(-z<Z<z).}

lub równoważnie;

1 2 ( 1 – γ ) = P ( Z > z ) . {tfrac {1}{2}}(1 – gamma )=P(Z>z).}

Predykcja
interwał
z
75% 1.15
90% 1.64
95% 1.96
99% 2.58
Przedział predykcji (na osi y) dany z (kwantyl wyniku standardowego, na osi x). Oś y jest skompresowana logarytmicznie (ale wartości na niej nie są modyfikowane).

Okres predykcji jest konwencjonalnie zapisywany jako:

.

Na przykład, aby obliczyć 95% przedział predykcji dla rozkładu normalnego o średniej (µ) równej 5 i odchyleniu standardowym (σ) równym 1, to z wynosi w przybliżeniu 2. Zatem dolna granica przedziału predykcji wynosi około 5 – (2-1) = 3, a górna granica wynosi około 5 + (2-1) = 7, co daje przedział predykcji od około 3 do 7.

Wykres przedstawiający funkcję rozkładu skumulowanego dla rozkładu normalnego ze średnią (µ) 0 i wariancją (σ2) 1. Oprócz funkcji kwantyla, przedział predykcji dla dowolnego wyniku standardowego może być obliczony przez (1 – (1 – Φµ,σ2(wynik standardowy))-2). Na przykład, standardowy wynik x = 1,96 daje Φµ,σ2(1,96) = 0,9750 odpowiadający przedziałowi predykcji (1 – (1 – 0,9750)-2) = 0,9500 = 95%.

Estymacja parametrówEdit

W przypadku rozkładu o nieznanych parametrach, bezpośrednim podejściem do predykcji jest estymacja parametrów, a następnie użycie powiązanej z nimi funkcji kwantyla – na przykład można użyć średniej z próby X¯ {{displaystyle {{overline {X}}}

jako oszacowania dla μ i wariancji próbki s2 jako oszacowania dla σ2. Zauważmy, że istnieją tutaj dwa naturalne wybory dla s2 – dzielenie przez ( n – 1 ) {przez (n-1)}

daje nieobiektywne oszacowanie, podczas gdy dzielenie przez n daje estymator maksymalnego prawdopodobieństwa, i można użyć obu. Następnie używamy funkcji kwantyla z tymi oszacowanymi parametrami Φ X ¯ , s 2 – 1 {{displaystyle \Phi _{overline {X}},s^{2}}}^{-1}}

, aby otrzymać przedział predykcji.

To podejście jest możliwe do zastosowania, ale wynikowy przedział nie będzie miał interpretacji wielokrotnego próbkowania – nie jest to predykcyjny przedział ufności.

Dla następstwa użyj średniej z próby:

X ¯ = X ¯ n = ( X 1 + ⋯ + X n ) / n {{overline {X}}}={overline {X}}_{n}=(X_{1}+{cdots +X_{n})/n}

oraz (nieobiektywną) wariancję próby:

s 2 = s n 2 = 1 n – 1 ∑ i = 1 n ( X i – X ż n ) 2 . {s^{2}=s_{n}^{2}={1 ∑ suma _{i=1}^{n}(X_{i}-{overline {X}}_{n})^{2}}.}

Nieznana średnia, znana wariancjaEdit

Dając rozkład normalny z nieznaną średnią μ, ale znaną wariancją 1, średnia z próby X ¯ {{overline {X}}}

obserwacji X 1 , … , X n { {displaystyle X_{1},\i0} X_{n}}

ma rozkład N ( μ , 1 / n ) , {displaystyle N(μ ,1/n),}

natomiast przyszła obserwacja X n + 1 {displaystyle X_{n+1}}

ma rozkład N ( μ , 1 ) . {displaystyle N(μ ,1).}

Biorąc ich różnicę anulujemy μ i otrzymamy rozkład normalny o wariancji 1 + ( 1 / n ) , {displaystyle 1+(1/n),}

zatem X n + 1 – X Ż 1 + ( 1 / n ) ∼ N ( 0 , 1 ) . {{displaystyle { {frac {X_{n+1}}-{overline {X}}}{sqrt {1+(1/n)}} ∼ N(0,1).}

Rozwiązanie dla X n + 1 {przykład X_{n+1}}

daje rozkład predykcji N ( X Ż , 1 + ( 1 / n ) ) , { {displaystyle N({X}},1+(1/n)),}

z którego można obliczyć przedziały jak poprzednio. Jest to predykcyjny przedział ufności w tym sensie, że jeśli użyjemy przedziału kwantylowego 100p%, to przy wielokrotnym zastosowaniu tego obliczenia, przyszła obserwacja X n + 1 {przykład X_{n+1}}

przypadnie w przewidywanym przedziale 100p% czasu.

Zauważ, że ten rozkład predykcji jest bardziej konserwatywny niż użycie szacowanej średniej X Ż {{displaystyle X_{n+1}}

i znanej wariancji 1, ponieważ używa to wariancji 1 + ( 1 / n ) {displaystyle 1+(1/n)}

, stąd uzyskujemy szersze przedziały. Jest to konieczne, aby pożądana własność przedziału ufności była zachowana.

Znana średnia, nieznana wariancjaEdit

Odwrotnie, biorąc pod uwagę rozkład normalny ze znaną średnią 0, ale nieznaną wariancją σ 2 {displaystyle ^{2}}

, wariancja próby s 2 {displaystyle s^{2}}

obserwacji X 1 , … , X n {displaystyle X_{1},^{n}}

ma, aż do skali, a χ n – 1 2 {displaystyle \i _{n-1}^{2}}

rozkład; dokładniej: ( n – 1 ) s n 2 σ 2 ∼ χ n – 1 2 . {{displaystyle {{frac {(n-1)s_{n}^{2}}}{sigma ^{2}}}.

podczas gdy przyszła obserwacja X n + 1 {{displaystyle X_{n+1}}

ma rozkład N ( 0 , σ 2 ) . {displaystyle N(0 , ^{2}).}

Biorąc stosunek przyszłej obserwacji i odchylenia standardowego z próby znosi σ, dając rozkład t-Studenta z n – 1 stopniami swobody: X n + 1 s ∼ T n – 1 . {{displaystyle {{frac {X_{n+1}}{s}}}sim T^{n-1}}.}

Rozwiązanie dla X n + 1 {displaystyle X_{n+1}}

daje rozkład predykcji s T n – 1 , {displaystyle sT^{n-1},}

z którego można obliczyć przedziały jak poprzednio.

Zauważ, że ten rozkład predykcji jest bardziej konserwatywny niż użycie rozkładu normalnego z szacowanym odchyleniem standardowym s {{displaystyle s}

i znanej średniej 0, ponieważ używa rozkładu t zamiast rozkładu normalnego, a więc daje szersze przedziały. Jest to konieczne, aby pożądana własność przedziału ufności była zachowana.

Nieznana średnia, nieznana wariancjaEdit

Połączenie powyższego dla rozkładu normalnego N ( μ , σ 2 ) { {displaystyle N(™mu ,™sigma ^{2})}

z nieznanymi μ i σ2 daje następującą statystykę pomocniczą: X n + 1 – X ¯ n s n 1 + 1 / n ∼ T n – 1 . {displaystyle { {frac {X_{n+1}-{overline {X}}}}{s_{n}{sqrt {1+1/n}}}}}{sim T^{n-1}}.}

Ta prosta kombinacja jest możliwa, ponieważ średnia z próby i wariancja z próby rozkładu normalnego są niezależnymi statystykami; jest to prawdziwe tylko dla rozkładu normalnego, i w rzeczywistości charakteryzuje rozkład normalny.

Rozwiązanie dla X n + 1 {przykład X_{n+1}}.

daje rozkład predykcji X Ż n + s n 1 + 1 / n ⋅ T n – 1 . {{displaystyle {{overline {X}}_{n}+s_{n}{sqrt {1+1/n}}} T^{n-1}}.}

Prawdopodobieństwo, że X n + 1 {{displaystyle X_{n+1}}

przypadającego w danym przedziale wynosi wówczas: Pr ( X ż n – T a s n 1 + ( 1 / n ) ≤ X n + 1 ≤ X ż n + T a s n 1 + ( 1 / n ) ) = p {displaystyle X_{n+1}}T_{a}s_{n}}{sqrt {1+(1/n)}}leq X_{n+1} {overline {X}}_{n}+T_{a}s_{n}}{sqrt {1+(1/n)}},\right)=p}

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.