Megadva egy normális eloszlásból vett mintát, amelynek paraméterei ismeretlenek, meg lehet adni a frequentista értelemben vett előrejelzési intervallumokat, azaz, olyan intervallumot, amely a minta statisztikáján alapul, úgy, hogy ismételt kísérletek esetén Xn+1 az idő kívánt százalékában az intervallumba esik; ezeket nevezhetjük “prediktív konfidenciaintervallumoknak”.

A frequentista prediktív intervallumok általános technikája, hogy megtaláljuk és kiszámítjuk az X1, …., Xn, Xn+1 – vagyis a megfigyelhető értékek és a paraméterek olyan függvénye, amelynek valószínűségi eloszlása nem függ a paraméterektől -, amelyet megfordítva meg lehet adni annak valószínűségét, hogy a jövőbeli megfigyelés Xn+1 valamilyen, az eddigi megfigyelt értékek, X 1 , … , X n alapján kiszámított intervallumba esik. {\displaystyle X_{1},\dots ,X_{n}.}

Az ilyen, csak a megfigyelt adatoktól függő sarkalatos mennyiséget segédstatisztikának nevezzük. A sarkalatos mennyiségek konstruálásának szokásos módszere az, hogy két helytől függő változó különbségét vesszük úgy, hogy a hely eltörlődik, majd két skálától függő változó arányát vesszük úgy, hogy a skála eltörlődik. a legismertebb sarkalatos mennyiség a Student-féle t-statisztika, amely ezzel a módszerrel levezethető, és amelyet a továbbiakban használunk.

Ismert átlag, ismert szórásSzerkesztés

Normális eloszlás N(µ,σ2) ismert átlaggal és varianciával kiszámítható

γ = P ( ℓ < X < u ) = P ( ℓ – μ σ < X – μ σ < u – μ σ ) = P ( ℓ – μ σ < Z < u – μ σ ) , {\displaystyle \gamma =P(\ell <X<u)=P\left({\frac {\ell -\mu }{\sigma }}<{\frac {X-\mu }{\sigma }}<{\frac {u-\mu }{\sigma }}}\right)=P\left({\frac {\frac {\ell -\mu }{\sigma }}<Z<{\frac {u-\mu }{\sigma }}}\right),}

hol Z = X – μ σ {\displaystyle Z={\frac {X-\mu }{\sigma }}}

, X standard pontszáma standard normális eloszlású.

Ez

ℓ – μ σ = – z , u – μ σ = z , {\displaystyle {\frac {\frac {\ell -\mu }{\sigma }}=-z,\quad {\frac {\frac {u-\mu }{\sigma }}=z,}

vagy

ℓ = μ – z σ , u = μ + z σ , {\displaystyle \ell =\mu -z\sigma ,\quad u=\mu +z\sigma ,}

mivel z a kvantilis a standard normális eloszlásban, amelyre:

γ = P ( – z < Z < z ) . {\displaystyle \gamma =P(-z<Z<z).}

vagy egyenértékűen;

1 2 ( 1 – γ ) = P ( Z > z ) . {\displaystyle {\tfrac {1}{2}}(1-\gamma )=P(Z>z).}

Prediction
intervallum
z
75% 1.15
90% 1.64
95% 1.96
99% 2.58
A z-ból (a standard pontszám kvantiliséből, az x tengelyen) adott előrejelzési intervallum (az y tengelyen). Az y-tengelyt logaritmikusan tömörítjük (de a rajta lévő értékek nem módosulnak).

A predikciós intervallumot konvencionálisan így írjuk:

.

Ha például egy 5 átlagú (µ) és 1 szórású (σ) normális eloszlás 95%-os előrejelzési intervallumát akarjuk kiszámítani, akkor z körülbelül 2 lesz. Ezért az előrejelzési intervallum alsó határa körülbelül 5 – (2-1) = 3, a felső határa pedig körülbelül 5 + (2-1) = 7, így az előrejelzési intervallum körülbelül 3 és 7 között van.

Az ábra a normáleloszlás kumulatív eloszlásfüggvényét mutatja, amelynek átlaga (µ) 0 és szórása (σ2) 1. A kvantilisfüggvény mellett bármely standard pontszámra vonatkozó előrejelzési intervallum kiszámítható (1 – (1 – (1 – Φµ,σ2(standard pontszám))-2). Például egy x = 1,96 standard pontszám esetén Φµ,σ2(1,96) = 0,9750, ami (1 – (1 – (1 – 0,9750)-2) = 0,9500 = 95%-os előrejelzési intervallumnak felel meg.

Paraméterek becsléseSzerkesztés

Ismeretlen paraméterekkel rendelkező eloszlás esetén az előrejelzés közvetlen megközelítése a paraméterek becslése, majd a kapcsolódó kvantilisfüggvény használata – például használhatjuk a minta átlagát X ¯ {\displaystyle {\overline {X}}}

mint μ becslését, és a minta szórását s2 mint σ2 becslését. Megjegyezzük, hogy itt két természetes választási lehetőség van s2-re – osztva ( n – 1 ) {\displaystyle (n-1)}

egy torzítatlan becslést ad, míg az n-nel való osztás a maximális valószínűségű becslőt adja, és bármelyik használható. Ezután ezekkel a becsült paraméterekkel Φ X ¯ , s 2 – 1 {\displaystyle \Phi _{{\overline {X}},s^{2}}}^{-1}} a kvantilisfüggvényt használjuk.

, hogy előrejelzési intervallumot kapjunk.

Ez a megközelítés használható, de az így kapott intervallum nem rendelkezik az ismételt mintavételezés értelmezésével – ez nem egy prediktív konfidenciaintervallum.

A folytatáshoz használjuk a mintaátlagot:

X ¯ = X ¯ n = ( X 1 + ⋯ + X n ) / n {\displaystyle {\overline {X}}={\overline {X}}}_{n}=(X_{1}+\cdots +X_{n})/n}}

és a (torzítatlan) minta szórása:

s 2 = s n 2 = 1 n – 1 ∑ i = 1 n ( X i – X ¯ n ) 2 . {\displaystyle s^{2}=s_{n}^{2}={1 \over n-1}\sum _{i=1}^{n}(X_{i}-{\overline {X}}}_{n})^{2}.}

Ismeretlen átlag, ismert szórásSzerkesztés

Ez ismeretlen μ átlagú, de ismert 1 szórású normális eloszlás esetén a minta átlaga X ¯ {\displaystyle {\overline {X}}}

az X 1 , … , X n {\displaystyle X_{1},\displaystyle X_{1},\dots ,X_{n}}

eloszlása N ( μ , 1 / n ) , {\displaystyle N(\mu ,1/n),}

míg a jövőbeli megfigyelés X n + 1 {\displaystyle X_{n+1}}

eloszlása N ( μ , 1 ) . {\displaystyle N(\mu ,1).}

Ezek különbségét véve eltörli a μ-et, és 1 + ( 1 / n ) szórású normáleloszlást kapunk, {\displaystyle 1+(1/n),}

tehát X n + 1 – X ¯ 1 + ( 1 / n ) ∼ N ( 0 , 1 ) . {\displaystyle {\frac {X_{n+1}-{\overline {X}}}{\sqrt {1+(1/n)}}}\sim N(0,1).}

Az X n + 1 {\displaystyle X_{n+1}} megoldása {\displaystyle X_{n+1}}

megadja az N ( X ¯ , 1 + ( 1 / n ) ) előrejelzési eloszlást. , {\displaystyle N({\overline {X}},1+(1/n)),}

amelyből a korábbiaknak megfelelően intervallumokat számíthatunk. Ez egy prediktív konfidenciaintervallum abban az értelemben, hogy ha 100p%-os kvantilis tartományt használunk, akkor e számítás ismételt alkalmazásakor a jövőbeli megfigyelés X n + 1 {\displaystyle X_{n+1}}

az esetek 100p%-ában az előre jelzett intervallumba esik.

Megjegyezzük, hogy ez az előrejelzési eloszlás konzervatívabb, mint az X ¯ {\displaystyle {\overline {X}}} becsült átlagának használata.

és az ismert 1 variancia, mivel ez 1 + ( 1 / n ) {\displaystyle 1+(1/n)} varianciát használ.

, tehát szélesebb intervallumokat eredményez. Ez szükséges ahhoz, hogy a kívánt konfidenciaintervallum-tulajdonság érvényesüljön.

Ismert átlag, ismeretlen szórásSzerkesztés

Megfordítva, ismert 0 átlagú, de ismeretlen σ 2 szórású normáleloszlás esetén {\displaystyle \sigma ^{2}}

, a minta szórása s 2 {\displaystyle s^{2}}

a megfigyelések X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}}

skáláig a χ n – 1 2 {\displaystyle \scriptstyle \chi _{n-1}^{2}}

eloszlása; pontosabban: ( n – 1 ) s n 2 σ 2 ∼ χ n – 1 2 . {\displaystyle {\frac {(n-1)s_{n}^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.}

míg a jövőbeli megfigyelés X n + 1 {\displaystyle X_{n+1}}

eloszlása N ( 0 , σ 2 ) . {\displaystyle N(0,\sigma ^{2}).}

A jövőbeli megfigyelés és a minta szórásának hányadosát véve a σ-t eltöröljük, így egy Student-féle t-eloszlást kapunk n – 1 szabadsági fokkal: X n + 1 s ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}}{s}}\sim T^{n-1}.}

Megoldva X n + 1 {\displaystyle X_{n+1}}

megadja az s T n – 1 , {\displaystyle sT^{n-1},}

előrejelzési eloszlást, amelyből a korábbiak szerint intervallumokat lehet kiszámítani.

Megjegyezzük, hogy ez az előrejelzési eloszlás konzervatívabb, mint az s {\displaystyle s} becsült szórású normáleloszlás használata.

és ismert 0 átlaggal, mivel a normális eloszlás helyett a t-eloszlást használja, ezért szélesebb intervallumokat eredményez. Ez szükséges ahhoz, hogy a kívánt konfidenciaintervallum-tulajdonság érvényesüljön.

Ismeretlen átlag, ismeretlen szórásSzerkesztés

A fentiek kombinálása N ( μ , σ 2 ) {\displaystyle N(\mu ,\sigma ^{2})} normáleloszlásra.

ismeretlen μ és σ2 mellett a következő mellékstatisztikát kapjuk: X n + 1 – X ¯ n s n 1 + 1 / n ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}-{\overline {X}}_{n}}{s_{n}{\sqrt {1+1/n}}}}\sim T^{n-1}.}

Ez az egyszerű kombináció azért lehetséges, mert a normális eloszlás mintaátlaga és minta szórása független statisztika; ez csak a normális eloszlásra igaz, és tulajdonképpen a normális eloszlást jellemzi.

Az X n + 1 {\displaystyle X_{n+1}}feloldása

az X ¯ n + s n 1 + 1 / n ⋅ T n – 1 előrejelzési eloszlást kapjuk. {\displaystyle {\overline {X}}_{n}+s_{n}{\sqrt {1+1/n}}\cdot T^{n-1}.}

Az X n + 1 {\displaystyle X_{n+1}} valószínűsége {\displaystyle X_{n+1}}

egy adott intervallumba esik, akkor: Pr ( X ¯ n – T a s n 1 + ( 1 / n ) ≤ X n + 1 ≤ X ¯ n + T a s n 1 + ( 1 / n ) ) = p {\displaystyle \Pr \left({\overline {X}}}_{n}-T_{a}s_{n}{\sqrt {1+(1/n)}}\leq X_{n+1}\leq {\overline {X}}_{n}+T_{a}s_{n}{\sqrt {1+(1/n)}}\,\right)=p}

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.