Megadva egy normális eloszlásból vett mintát, amelynek paraméterei ismeretlenek, meg lehet adni a frequentista értelemben vett előrejelzési intervallumokat, azaz, olyan intervallumot, amely a minta statisztikáján alapul, úgy, hogy ismételt kísérletek esetén Xn+1 az idő kívánt százalékában az intervallumba esik; ezeket nevezhetjük “prediktív konfidenciaintervallumoknak”.
A frequentista prediktív intervallumok általános technikája, hogy megtaláljuk és kiszámítjuk az X1, …., Xn, Xn+1 – vagyis a megfigyelhető értékek és a paraméterek olyan függvénye, amelynek valószínűségi eloszlása nem függ a paraméterektől -, amelyet megfordítva meg lehet adni annak valószínűségét, hogy a jövőbeli megfigyelés Xn+1 valamilyen, az eddigi megfigyelt értékek, X 1 , … , X n alapján kiszámított intervallumba esik. {\displaystyle X_{1},\dots ,X_{n}.}
Az ilyen, csak a megfigyelt adatoktól függő sarkalatos mennyiséget segédstatisztikának nevezzük. A sarkalatos mennyiségek konstruálásának szokásos módszere az, hogy két helytől függő változó különbségét vesszük úgy, hogy a hely eltörlődik, majd két skálától függő változó arányát vesszük úgy, hogy a skála eltörlődik. a legismertebb sarkalatos mennyiség a Student-féle t-statisztika, amely ezzel a módszerrel levezethető, és amelyet a továbbiakban használunk.
Ismert átlag, ismert szórásSzerkesztés
Normális eloszlás N(µ,σ2) ismert átlaggal és varianciával kiszámítható
γ = P ( ℓ < X < u ) = P ( ℓ – μ σ < X – μ σ < u – μ σ ) = P ( ℓ – μ σ < Z < u – μ σ ) , {\displaystyle \gamma =P(\ell <X<u)=P\left({\frac {\ell -\mu }{\sigma }}<{\frac {X-\mu }{\sigma }}<{\frac {u-\mu }{\sigma }}}\right)=P\left({\frac {\frac {\ell -\mu }{\sigma }}<Z<{\frac {u-\mu }{\sigma }}}\right),}
hol Z = X – μ σ {\displaystyle Z={\frac {X-\mu }{\sigma }}}
, X standard pontszáma standard normális eloszlású.
Ez
ℓ – μ σ = – z , u – μ σ = z , {\displaystyle {\frac {\frac {\ell -\mu }{\sigma }}=-z,\quad {\frac {\frac {u-\mu }{\sigma }}=z,}
vagy
ℓ = μ – z σ , u = μ + z σ , {\displaystyle \ell =\mu -z\sigma ,\quad u=\mu +z\sigma ,}
mivel z a kvantilis a standard normális eloszlásban, amelyre:
γ = P ( – z < Z < z ) . {\displaystyle \gamma =P(-z<Z<z).}
vagy egyenértékűen;
1 2 ( 1 – γ ) = P ( Z > z ) . {\displaystyle {\tfrac {1}{2}}(1-\gamma )=P(Z>z).}
Prediction intervallum |
z |
---|---|
75% | 1.15 |
90% | 1.64 |
95% | 1.96 |
99% | 2.58 |
A predikciós intervallumot konvencionálisan így írjuk:
.
Ha például egy 5 átlagú (µ) és 1 szórású (σ) normális eloszlás 95%-os előrejelzési intervallumát akarjuk kiszámítani, akkor z körülbelül 2 lesz. Ezért az előrejelzési intervallum alsó határa körülbelül 5 – (2-1) = 3, a felső határa pedig körülbelül 5 + (2-1) = 7, így az előrejelzési intervallum körülbelül 3 és 7 között van.
Paraméterek becsléseSzerkesztés
Ismeretlen paraméterekkel rendelkező eloszlás esetén az előrejelzés közvetlen megközelítése a paraméterek becslése, majd a kapcsolódó kvantilisfüggvény használata – például használhatjuk a minta átlagát X ¯ {\displaystyle {\overline {X}}}
mint μ becslését, és a minta szórását s2 mint σ2 becslését. Megjegyezzük, hogy itt két természetes választási lehetőség van s2-re – osztva ( n – 1 ) {\displaystyle (n-1)}
egy torzítatlan becslést ad, míg az n-nel való osztás a maximális valószínűségű becslőt adja, és bármelyik használható. Ezután ezekkel a becsült paraméterekkel Φ X ¯ , s 2 – 1 {\displaystyle \Phi _{{\overline {X}},s^{2}}}^{-1}} a kvantilisfüggvényt használjuk.
, hogy előrejelzési intervallumot kapjunk.
Ez a megközelítés használható, de az így kapott intervallum nem rendelkezik az ismételt mintavételezés értelmezésével – ez nem egy prediktív konfidenciaintervallum.
A folytatáshoz használjuk a mintaátlagot:
X ¯ = X ¯ n = ( X 1 + ⋯ + X n ) / n {\displaystyle {\overline {X}}={\overline {X}}}_{n}=(X_{1}+\cdots +X_{n})/n}}
és a (torzítatlan) minta szórása:
s 2 = s n 2 = 1 n – 1 ∑ i = 1 n ( X i – X ¯ n ) 2 . {\displaystyle s^{2}=s_{n}^{2}={1 \over n-1}\sum _{i=1}^{n}(X_{i}-{\overline {X}}}_{n})^{2}.}
Ismeretlen átlag, ismert szórásSzerkesztés
Ez ismeretlen μ átlagú, de ismert 1 szórású normális eloszlás esetén a minta átlaga X ¯ {\displaystyle {\overline {X}}}
az X 1 , … , X n {\displaystyle X_{1},\displaystyle X_{1},\dots ,X_{n}}
eloszlása N ( μ , 1 / n ) , {\displaystyle N(\mu ,1/n),}
míg a jövőbeli megfigyelés X n + 1 {\displaystyle X_{n+1}}
eloszlása N ( μ , 1 ) . {\displaystyle N(\mu ,1).}
Ezek különbségét véve eltörli a μ-et, és 1 + ( 1 / n ) szórású normáleloszlást kapunk, {\displaystyle 1+(1/n),}
tehát X n + 1 – X ¯ 1 + ( 1 / n ) ∼ N ( 0 , 1 ) . {\displaystyle {\frac {X_{n+1}-{\overline {X}}}{\sqrt {1+(1/n)}}}\sim N(0,1).}
Az X n + 1 {\displaystyle X_{n+1}} megoldása {\displaystyle X_{n+1}}
megadja az N ( X ¯ , 1 + ( 1 / n ) ) előrejelzési eloszlást. , {\displaystyle N({\overline {X}},1+(1/n)),}
amelyből a korábbiaknak megfelelően intervallumokat számíthatunk. Ez egy prediktív konfidenciaintervallum abban az értelemben, hogy ha 100p%-os kvantilis tartományt használunk, akkor e számítás ismételt alkalmazásakor a jövőbeli megfigyelés X n + 1 {\displaystyle X_{n+1}}
az esetek 100p%-ában az előre jelzett intervallumba esik.
Megjegyezzük, hogy ez az előrejelzési eloszlás konzervatívabb, mint az X ¯ {\displaystyle {\overline {X}}} becsült átlagának használata.
és az ismert 1 variancia, mivel ez 1 + ( 1 / n ) {\displaystyle 1+(1/n)} varianciát használ.
, tehát szélesebb intervallumokat eredményez. Ez szükséges ahhoz, hogy a kívánt konfidenciaintervallum-tulajdonság érvényesüljön.
Ismert átlag, ismeretlen szórásSzerkesztés
Megfordítva, ismert 0 átlagú, de ismeretlen σ 2 szórású normáleloszlás esetén {\displaystyle \sigma ^{2}}
, a minta szórása s 2 {\displaystyle s^{2}}
a megfigyelések X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}}
skáláig a χ n – 1 2 {\displaystyle \scriptstyle \chi _{n-1}^{2}}
eloszlása; pontosabban: ( n – 1 ) s n 2 σ 2 ∼ χ n – 1 2 . {\displaystyle {\frac {(n-1)s_{n}^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.}
míg a jövőbeli megfigyelés X n + 1 {\displaystyle X_{n+1}}
eloszlása N ( 0 , σ 2 ) . {\displaystyle N(0,\sigma ^{2}).}
A jövőbeli megfigyelés és a minta szórásának hányadosát véve a σ-t eltöröljük, így egy Student-féle t-eloszlást kapunk n – 1 szabadsági fokkal: X n + 1 s ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}}{s}}\sim T^{n-1}.}
Megoldva X n + 1 {\displaystyle X_{n+1}}
megadja az s T n – 1 , {\displaystyle sT^{n-1},}
előrejelzési eloszlást, amelyből a korábbiak szerint intervallumokat lehet kiszámítani.
Megjegyezzük, hogy ez az előrejelzési eloszlás konzervatívabb, mint az s {\displaystyle s} becsült szórású normáleloszlás használata.
és ismert 0 átlaggal, mivel a normális eloszlás helyett a t-eloszlást használja, ezért szélesebb intervallumokat eredményez. Ez szükséges ahhoz, hogy a kívánt konfidenciaintervallum-tulajdonság érvényesüljön.
Ismeretlen átlag, ismeretlen szórásSzerkesztés
A fentiek kombinálása N ( μ , σ 2 ) {\displaystyle N(\mu ,\sigma ^{2})} normáleloszlásra.
ismeretlen μ és σ2 mellett a következő mellékstatisztikát kapjuk: X n + 1 – X ¯ n s n 1 + 1 / n ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}-{\overline {X}}_{n}}{s_{n}{\sqrt {1+1/n}}}}\sim T^{n-1}.}
Ez az egyszerű kombináció azért lehetséges, mert a normális eloszlás mintaátlaga és minta szórása független statisztika; ez csak a normális eloszlásra igaz, és tulajdonképpen a normális eloszlást jellemzi.
Az X n + 1 {\displaystyle X_{n+1}}feloldása
az X ¯ n + s n 1 + 1 / n ⋅ T n – 1 előrejelzési eloszlást kapjuk. {\displaystyle {\overline {X}}_{n}+s_{n}{\sqrt {1+1/n}}\cdot T^{n-1}.}
Az X n + 1 {\displaystyle X_{n+1}} valószínűsége {\displaystyle X_{n+1}}
egy adott intervallumba esik, akkor: Pr ( X ¯ n – T a s n 1 + ( 1 / n ) ≤ X n + 1 ≤ X ¯ n + T a s n 1 + ( 1 / n ) ) = p {\displaystyle \Pr \left({\overline {X}}}_{n}-T_{a}s_{n}{\sqrt {1+(1/n)}}\leq X_{n+1}\leq {\overline {X}}_{n}+T_{a}s_{n}{\sqrt {1+(1/n)}}\,\right)=p}