Jos kyseessä on otos normaalijakaumasta, jonka parametrit ovat tuntemattomia, voidaan frequentistisessa mielessä antaa ennustusväli, ts, intervalli, joka perustuu otoksen tilastoihin siten, että toistetuilla kokeilla Xn+1 osuu intervalliin halutun prosenttiosuuden ajasta; näitä voidaan kutsua ”ennustaviksi luottamusväleiksi”.
Yleinen frequentististen ennustusvälien tekniikka on löytää ja laskea keskeinen suure havaintomuuttujista X1, …., Xn, Xn+1 – mikä tarkoittaa havaintomuuttujien ja parametrien funktiota, jonka todennäköisyysjakauma ei riipu parametreista – joka voidaan kääntää niin, että saadaan todennäköisyys sille, että tuleva havainto Xn+1 sijoittuu johonkin väliin, joka on laskettu tähän mennessä havaittujen arvojen X 1 , … , X n suhteen. {\displaystyle X_{1},\dots ,X_{n}.}
Tällaista vain havaintomääristä riippuvaa keskeistä suuretta kutsutaan aputilastoksi. Tavallinen tapa konstruoida pivotaalisia suureita on ottaa kahden sijainnista riippuvan muuttujan erotus niin, että sijainti kumoutuu, ja sitten ottaa kahden mittakaavasta riippuvan muuttujan suhde niin, että mittakaava kumoutuu. tutuin pivotaalinen suure on Studentin t-tilasto, joka voidaan johtaa tällä menetelmällä ja jota käytetään jatkossa.
Tunnettu keskiarvo, tunnettu varianssiEdit
Normaalijakauman N(µ,σ2), jonka keskiarvo ja varianssi tunnetaan, voidaan laskea kaavasta
γ = P ( ℓ < X < u ) = P ( ℓ – μ σ < X – μ σ < u – μ σ ) = P ( ℓ – μ σ < Z < u – μ σ ) , {\displaystyle \gamma =P(\ell <X<u)=P\left({\frac {\ell -\mu }{\sigma }}<{\frac {X-\mu }{\sigma }}<{\frac {-u-\mu }{\sigma }}}\right)=P\left({\frac {\ell -\mu }{\sigma }}<Z<{\frac {u-\mu }{\sigma }}\right),}
jossa Z = X – μ σ {\displaystyle Z={\frac {X-\mu }{\sigma }}}
, X:n standardipistemäärä, jakaantuu standardinormaalisti.
Siten
ℓ – μ σ = – z , u – μ σ = z , {\displaystyle {\frac {\ell -\mu }{\sigma }}=-z,\quad {\frac {u-\mu }{\sigma }}=z,}
tai
ℓ = μ – z σ , u = μ + z σ , {\displaystyle \ell =\mu -z\sigma ,\quad u=\mu +z\sigma ,}
kuten z on kvanttiili standardissa normaalijakaumassa, jolle:
γ = P ( – z < Z < z ) . {\displaystyle \gamma =P(-z<Z<z).}
tai vastaavasti;
1 2 ( 1 – γ ) = P ( Z > z ) . {\displaystyle {\tfrac {1}{2}}(1-\gamma )=P(Z>z).}
Prediction interval |
z |
---|---|
75% | 1.15 |
90% | 1.64 |
95% | 1.96 |
99% | 2.58 |
Ennustusväli kirjoitetaan tavanomaisesti seuraavasti:
. \displaystyle \left.}
Lasketaan esimerkiksi 95 %:n ennustusväli normaalijakaumalle, jonka keskiarvo (µ) on 5 ja keskihajonta (σ) 1, jolloin z on noin 2. Näin ollen ennustusvälin alaraja on noin 5 – (2-1) = 3 ja yläraja noin 5 + (2-1) = 7, jolloin ennustusväli on noin 3-7.
Parametrien estimointiEdit
Jakaumalle, jonka parametrit ovat tuntemattomat, suora lähestymistapa ennustamiseen on estimoida parametrit ja käyttää sitten niihin liittyvää kvantiilifunktiota – esimerkiksi voitaisiin käyttää otoskeskiarvoa X ¯ {\displaystyle {\overline {X}}}
μ:n estimaattina ja otoksen varianssia s2 σ2:n estimaattina. Huomaa, että tässä on kaksi luonnollista vaihtoehtoa s2:lle – jakaminen ( n – 1 ) {\displaystyle (n-1)}:llä {\displaystyle (n-1)}
antaa puolueettoman estimaatin, kun taas jakaminen n:llä antaa suurimman todennäköisyyden estimaattorin, ja kumpaakin voidaan käyttää. Tämän jälkeen käytetään kvantiilifunktiota näillä estimoiduilla parametreilla Φ X ¯ , s 2 – 1 {\displaystyle \Phi _{{\overline {X}},s^{2}}^{-1}}}
ennustusvälin saamiseksi.
Tämä lähestymistapa on käyttökelpoinen, mutta tuloksena saatua intervallia ei tulkita toistuvalla otannalla – se ei ole ennusteellinen luottamusväli.
Jatkossa käytetään otoskeskiarvoa:
X ¯ = X ¯ n = ( X 1 + ⋯ + X n ) / n {\displaystyle {\overline {X}}={\overline {X}}_{n}=(X_{1}+\cdots +X_{n})/n}}
ja (puolueeton) otoksen varianssi:
s 2 = s n 2 = 1 n – 1 ∑ i = 1 n ( X i – X ¯ n ) 2 . {\displaystyle s^{2}=s_{n}^{2}={1 \over n-1}\sum _{i=1}^{n}(X_{i}-{\overline {X}}_{n})^{2}.}
Tuntematon keskiarvo, tunnettu varianssiEdit
Jos normaalijakauma, jolla on tuntematon keskiarvo μ mutta tunnettu varianssi 1, otoskeskiarvo X ¯ {\displaystyle {\overline {X}}}
havaintojen X 1 , … , X n {\displaystyle X_{1},\displaystyle ,X_{n}}
on jakauma N ( μ , 1 / n ) , {\displaystyle N(\mu ,1/n),}
kun taas tulevan havainnon X n + 1 {\displaystyle X_{n+1}}
on jakauma N ( μ , 1 ) . {\displaystyle N(\mu ,1)}.
Näiden erotuksen ottaminen kumoaa μ:n ja antaa normaalijakauman, jonka varianssi on 1 + ( 1 / n ) , {\displaystyle 1+(1/n),}
joten X n + 1 – X ¯ 1 + ( 1 / n ) ∼ N ( 0 , 1 ) . {\displaystyle {\frac {X_{n+1}-{\overline {X}}}{\sqrt {1+(1/n)}}}\sim N(0,1).}
Ratkaisu X n + 1 {\displaystyle X_{n+1}}
saadaan ennustejakauma N ( X ¯ , 1 + ( 1 / n ) ) , {\displaystyle N({\overline {X}},1+(1/n)),}
josta voidaan laskea intervalleja kuten aiemmin. Tämä on ennustava luottamusväli siinä mielessä, että jos käytetään 100p%:n kvantiiliväliä, niin tämän laskennan toistuvilla sovelluksilla tuleva havainto X n + 1 {\displaystyle X_{n+1}}
osuu ennustusväliin 100p% ajasta.
Huomaa, että tämä ennustejakauma on konservatiivisempi kuin jos käytettäisiin estimoitua keskiarvoa X ¯ {\displaystyle {\displaystyle {\overline {X}}}
ja tunnettua varianssia 1, koska tämä käyttää varianssia 1 + ( 1/n ) {\displaystyle 1+(1/n)}
, jolloin saadaan laajempia välejä. Tämä on välttämätöntä, jotta haluttu luottamusvälin ominaisuus pitää paikkansa.
Tunnettu keskiarvo, tuntematon varianssiEdit
Kääntäen, jos normaalijakauma, jolla on tunnettu keskiarvo 0, mutta tuntematon varianssi σ 2 {\displaystyle \sigma ^{2} }
, otoksen varianssi s 2 {\displaystyle s^{2}}
havaintojen X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}}
on mittakaavassa a χ n – 1 2 {\displaystyle \scriptstyle \chi _{n-1}^{2}}
jakauma; tarkemmin sanottuna: ( n – 1 ) s n 2 σ 2 ∼ χ n – 1 2 . {\displaystyle {\frac {(n-1)s_{n}^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.}
kun taas tuleva havainto X n + 1 {\displaystyle X_{n+1}}
on jakauma N ( 0 , σ 2 ) . {\displaystyle N(0,\sigma ^{2}).}
Tulevan havainnon ja otoksen keskihajonnan suhteen ottaminen kumoaa σ:n, jolloin saadaan Studentin t-jakauma n – 1 vapausasteella: X n + 1 s ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}}{s}}\sim T^{n-1}.}
Ratkaisu X n + 1 {\displaystyle X_{n+1}} {\displaystyle X_{n+1}}
saadaan ennustejakauma s T n – 1 , {\displaystyle sT^{n-1},}
josta voidaan laskea välejä kuten aiemmin.
Huomaa, että tämä ennustejakauma on konservatiivisempi kuin normaalijakauman käyttö estimoidulla keskihajonnalla s {\displaystyle s}
ja tunnettua keskiarvoa 0, koska se käyttää t-jakaumaa normaalijakauman sijasta, jolloin saadaan laajempia välejä. Tämä on välttämätöntä, jotta haluttu luottamusvälin ominaisuus pitää paikkansa.
Tuntematon keskiarvo, tuntematon varianssiEdit
Yllä olevan yhdistäminen normaalijakaumalle N ( μ , σ 2 ) {\displaystyle N(\mu ,\sigma ^{2})}
kun sekä μ että σ2 ovat tuntemattomia, saadaan seuraava aputilasto: X n + 1 – X ¯ n s n 1 + 1 / n ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}-{\overline {X}}_{n}}{s_{n}{\sqrt {1+1/n}}}}\sim T^{n-1}.}
Tämä yksinkertainen yhdistelmä on mahdollinen, koska normaalijakauman otoskeskiarvo ja otosvarianssi ovat toisistaan riippumattomia tilastoja; tämä pätee vain normaalijakaumalle ja itse asiassa luonnehtii normaalijakaumaa.
Ratkaisu X n + 1 {\displaystyle X_{n+1}}
saadaan ennustejakauma X ¯ n + s n 1 + 1 / n ⋅ T n – 1 . {\displaystyle {\overline {X}}_{n}+s_{n}{\sqrt {1+1/n}}\cdot T^{n-1}.}
Todennäköisyys X n + 1 {\displaystyle X_{n+1}}
osua tietylle aikavälille on tällöin: Pr ( X ¯ n – T a s n 1 + ( 1 / n ) ≤ X n + 1 ≤ X ¯ n + T a s n 1 + ( 1 / n ) ) = p {\displaystyle \Pr \left({\overline {X}}_{n}-T_{a}s_{n}{\sqrt {1+(1/n)}}\leq X_{n+1}\leq {\overline {X}}_{n}+T_{a}s_{n}{\sqrt {1+(1/n)}}\,\right)=p}