Gegeven een steekproef uit een normale verdeling, waarvan de parameters onbekend zijn, is het mogelijk voorspellingsintervallen te geven in de frequentistische zin, d.w.z, een interval gebaseerd op statistieken van de steekproef zodanig dat bij herhaalde experimenten Xn+1 het gewenste percentage van de tijd in het interval valt; men kan dit “voorspellende betrouwbaarheidsintervallen” noemen.
Een algemene techniek van frequentistische voorspellingsintervallen is het vinden en berekenen van een spilgrootheid van de waarneembare grootheden X1, …., Xn, Xn+1 – d.w.z. een functie van waarneembaarheden en parameters waarvan de waarschijnlijkheidsverdeling niet van de parameters afhangt – die kan worden geïnverteerd om een waarschijnlijkheid te geven dat de toekomstige waarneming Xn+1 in een of ander interval valt dat wordt berekend in termen van de tot dusver waargenomen waarden, X 1 , … , X n . {Displaystyle X_{1},\dots,X_{n}.}
Een dergelijke spilgrootheid, die alleen afhankelijk is van waarneemgegevens, wordt een nevengrootheid genoemd. De gebruikelijke methode om pivotale grootheden te construeren is het verschil te nemen van twee variabelen die van de plaats afhangen, zodat de plaats opheft, en vervolgens de verhouding te nemen van twee variabelen die van de schaal afhangen, zodat de schaal opheft.De bekendste pivotale grootheid is de Student’s t-statistiek, die volgens deze methode kan worden afgeleid en die in het vervolg wordt gebruikt.
Bekend gemiddelde, bekende variantieEdit
Een voorspellingsinterval voor een toekomstige waarneming X in een normale verdeling N(µ,σ2) met bekend gemiddelde en bekende variantie kan worden berekend uit
γ = P ( ℓ < X < u ) = P ( ℓ – μ σ < X – μ σ < u – μ σ ) = P ( ℓ – μ σ < Z < u – μ σ ) , {gamma =P(ell <X<u)=P-links({\frac {ell -\mu }{\sigma }}<{\frac {X-\mu }{\sigma }}<{\frac {u-\mu }{\sigma }}<Z<{\frac {u-\mu }{\sigma }}<,}
waarbij Z = X – μ σ {\displaystyle Z={\frac {X-\mu }{sigma }}
, de standaardscore van X, is standaard normaal verdeeld.
Hieruit volgt
ℓ – μ σ = – z , u – μ σ = z , {\displaystyle {\frac {\ell -mu }{\sigma }}=-z,\quad {\frac {u-\mu }{\sigma }}=z,}
of
ℓ = μ – z σ , u = μ + z σ , {\ell =mu -z sigma , \quad u=mu +z sigma , }
met z het kwantiel in de standaard normale verdeling waarvoor:
γ = P ( – z < Z < z ) . {\displaystyle γ =P(-z<Z<z).}
of equivalent;
1 2 ( 1 – γ ) = P ( Z > z ) . {\displaystyle {\tfrac {1}{2}}(1-\gamma )=P(Z>z).}
Voorspelling interval |
z |
---|---|
75% | 1.15 |
90% | 1.64 |
95% | 1.96 |
99% | 2.58 |
Het voorspellingsinterval wordt conventioneel geschreven als:
{{\displaystyle \left.}
Bij voorbeeld, om het 95% voorspellingsinterval te berekenen voor een normale verdeling met een gemiddelde (µ) van 5 en een standaardafwijking (σ) van 1, dan is z ongeveer 2. De ondergrens van het voorspellingsinterval is dus ongeveer 5 – (2-1) = 3, en de bovengrens is ongeveer 5 + (2-1) = 7, zodat het voorspellingsinterval ongeveer 3 tot 7 bedraagt.
Schatting van parametersEdit
Voor een verdeling met onbekende parameters bestaat een directe benadering van de voorspelling erin de parameters te schatten en vervolgens de bijbehorende kwantielfunctie te gebruiken – men zou bijvoorbeeld het steekproefgemiddelde X ¯ {{Displaystyle {X}}} kunnen gebruiken.
als schatting voor μ en de steekproefvariantie s2 als schatting voor σ2. Merk op dat er hier twee natuurlijke keuzes voor s2 zijn – delen door ( n – 1 ) {Displaystyle (n-1)}
levert een onvertekende schatting op, terwijl delen door n de schatter met maximale waarschijnlijkheid oplevert, en beide kunnen worden gebruikt. Vervolgens wordt de kwantielfunctie met deze geschatte parameters Φ X ¯ , s 2 – 1 {{\displaystyle \Phi _{{overline {X}},s^{2}}^{-1}}
om een voorspellingsinterval te verkrijgen.
Deze aanpak is bruikbaar, maar het resulterende interval zal niet de herhaalde bemonsteringsinterpretatie hebben – het is geen voorspellend betrouwbaarheidsinterval.
Gebruik voor het vervolg het steekproefgemiddelde:
X ¯ = X ¯ n = ( X 1 + ⋯ + X n ) / n {{\displaystyle {X}}={\overline {X}}_{n}=(X_{1}+\cdots +X_{n})/n}
en de (onvertekende) steekproefvariantie:
s 2 = s n 2 = 1 n – 1 ∑ i = 1 n ( X i – X ¯ n ) 2 . {\displaystyle s^{2}=s_{n}^{2}={1 \over n-1}\sum _{i=1}^{n}(X_{i}-{\overline {X}}_{n})^{2}.}
Onbekend gemiddelde, bekende variantieEdit
Gegeven aan een normale verdeling met onbekend gemiddelde μ maar bekende variantie 1, is het steekproefgemiddelde X ¯ {\displaystyle {{overline {X}}}
van de waarnemingen X 1 , … , X n {{1},\displaystyle,X_{n}}
heeft verdeling N ( μ , 1 / n ) , {Displaystyle N(\mu ,1/n),}
terwijl de toekomstige waarneming X n + 1 {Displaystyle X_{n+1}}
een verdeling N ( μ , 1 ) heeft. {Displaystyle N(\mu ,1).}
Als we het verschil hiervan nemen, wordt de μ opgeheven en krijgen we een normale verdeling met variantie 1 + ( 1 / n ) , {\displaystyle 1+(1/n),}
dus X n + 1 – X ¯ 1 + ( 1 / n ) ∼ N ( 0 , 1 ) . {\displaystyle {\frac {X_{n+1}-{\overline {X}}}{\sqrt {1+(1/n)}}}}} N(0,1).}
Oplossen voor X n + 1 {\displaystyle X_{n+1}}
geeft de voorspellingsverdeling N ( X ¯ , 1 + ( 1 / n ) ) , {{n}},1+(1/n)},}
waaruit men intervallen kan berekenen zoals voorheen. Dit is een voorspellend betrouwbaarheidsinterval in de zin dat als men een kwantielbereik van 100p% gebruikt, bij herhaalde toepassing van deze berekening de toekomstige waarneming X n + 1 {{n+1}}
100p% van de tijd in het voorspelde interval vallen.
Merk op dat deze voorspellingsverdeling conservatiever is dan het gebruik van het geschatte gemiddelde X ¯ {\displaystyle {X}}
en de bekende variantie 1, omdat deze variantie 1 + ( 1 / n ) gebruikt {\displaystyle 1+(1/n)}
, dus bredere intervallen oplevert. Dit is nodig om de gewenste eigenschap van het betrouwbaarheidsinterval te behouden.
Bekend gemiddelde, onbekende variantieEdit
Omgekeerd, gegeven een normale verdeling met bekend gemiddelde 0 maar onbekende variantie σ 2 {\displaystyle \sigma ^{2}}
, de steekproefvariantie s 2 {\displaystyle s^{2}}
van de waarnemingen X 1 , … , X n {\displaystyle X_{1},\dots,X_{n}}
heeft, tot op schaal, a χ n – 1 2 {\displaystyle \scriptstyle \chi _{n-1}^{2}}
verdeling; meer precies: ( n – 1 ) s n 2 σ 2 ∼ χ n – 1 2 . {\displaystyle {\frac {(n-1)s_{n}^{2}}{sigma ^{2}}}sim \chi _{n-1}^{2}.}
terwijl de toekomstige waarneming X n + 1 {\displaystyle X_{n+1}}
heeft de verdeling N ( 0 , σ 2 ) . {Displaystyle N(0,^{2}).}
Door de verhouding van de toekomstige waarneming en de standaardafwijking van de steekproef te nemen, wordt de σ geannuleerd, wat een Student’s t-verdeling oplevert met n – 1 vrijheidsgraden: X n + 1 s ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}}{s}}} T^{n-1}.}
Oplossen voor X n + 1 {\displaystyle X_{n+1}}
geeft de voorspellingsverdeling s T n – 1 , {\displaystyle sT^{n-1},}
waaruit men intervallen kan berekenen zoals voorheen.
Merk op dat deze voorspellingsverdeling conservatiever is dan het gebruik van een normale verdeling met de geschatte standaardafwijking s {\displaystyle s}
en het bekende gemiddelde 0, omdat de t-verdeling wordt gebruikt in plaats van de normale verdeling, die dus bredere intervallen oplevert. Dit is nodig om de gewenste eigenschap van het betrouwbaarheidsinterval te behouden.
Onbekend gemiddelde, onbekende variantieEdit
Het bovenstaande combineren voor een normale verdeling N ( μ , σ 2 ) {Displaystyle N(\mu ,\sigma ^{2})}
met zowel μ als σ2 onbekend levert de volgende aanvullende statistiek op: X n + 1 – X ¯ n s n 1 + 1 / n ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}-{\overline {X}}_{n}}{s_{n}{sqrt {1+1/n}}}}}sim T^{n-1}.}
Deze eenvoudige combinatie is mogelijk omdat het steekproefgemiddelde en de steekproefvariantie van de normale verdeling onafhankelijke statistieken zijn; dit geldt alleen voor de normale verdeling, en is in feite kenmerkend voor de normale verdeling.
Oplossen voor X n + 1 {Displaystyle X_{n+1}}
levert de voorspellingsverdeling X ¯ n + s n 1 + 1 / n ⋅ T n – 1 . {\displaystyle {X}_{n}+s_{n}{\sqrt {1+1/n}}}^{n-1}.}
De waarschijnlijkheid van X n + 1 {\displaystyle X_{n+1}}
die in een gegeven interval valt is dan: Pr ( X ¯ n – T a s n 1 + ( 1 / n ) ≤ X n + 1 ≤ X ¯ n + T a s n 1 + ( 1 / n ) ) = p {\displaystyle \Pr \links({{a}s_{n}-T_{a}s_{n}{\sqrt {1+(1/n)}}X_{n+1}{{overline {X}}_{n}+T_{a}s_{n}{\sqrt {1+(1/n)}}},\rechts)=p}