Při zadání vzorku z normálního rozdělení, jehož parametry nejsou známy, je možné zadat předpovědní intervaly ve frekvenčním smyslu, tj, interval založený na statistice vzorku tak, že při opakovaných pokusech Xn+1 spadá do intervalu v požadovaném procentu případů; lze je nazvat „predikční intervaly spolehlivosti“.

Obecnou technikou frequentistických predikčních intervalů je nalezení a výpočet klíčové veličiny pozorovaných veličin X1, …., Xn, Xn+1 – což znamená funkci pozorovaných veličin a parametrů, jejíž pravděpodobnostní rozdělení nezávisí na parametrech – kterou lze invertovat a získat tak pravděpodobnost, že budoucí pozorování Xn+1 spadá do určitého intervalu vypočteného z hlediska dosud pozorovaných hodnot X 1 , … , X n . {\displaystyle X_{1},\dots ,X_{n}.}

Taková stěžejní veličina závislá pouze na pozorovaných veličinách se nazývá pomocná statistika. Obvyklá metoda konstrukce pivotních veličin spočívá v tom, že se vezme rozdíl dvou proměnných závislých na poloze tak, aby se poloha anulovala, a pak se vezme poměr dvou proměnných závislých na měřítku tak, aby se měřítko anulovalo. nejznámější pivotní veličinou je Studentova t-statistika, kterou lze odvodit touto metodou a která se používá v dalším textu.

Známý průměr, známý rozptylUpravit

Předpovědní interval pro budoucí pozorování X v normálním rozdělení N(µ,σ2) se známou střední hodnotou a rozptylem lze vypočítat ze vztahu

γ = P ( ℓ < X < u ) = P ( ℓ – μ σ < X – μ σ < u – μ σ ) = P ( ℓ – μ σ < Z < u – μ σ ) , {\displaystyle \gamma =P(\ell <X<u)=P\left({\frac {\ell -\mu }{\sigma }}<{\frac {X-\mu }{\sigma }}<{\frac {u-\mu }{\sigma }}\pravá)=P\levá({\frac {\ell -\mu }{\sigma }}<Z<{\frac {u-\mu }{\sigma }}\pravá),}

kde Z = X – μ σ {\displaystyle Z={\frac {X-\mu }{\sigma }}}

, standardní skóre X, je rozděleno jako standardní normální.

Tudíž

ℓ – μ σ = – z , u – μ σ = z , {\displaystyle {\frac {\ell -\mu }{\sigma }}=-z,\quad {\frac {u-\mu }{\sigma }}=z,}

nebo

ℓ = μ – z σ , u = μ + z σ , {\displaystyle \ell =\mu -z\sigma ,\quad u=\mu +z\sigma ,}

s z kvantilem ve standardním normálním rozdělení, pro které:

γ = P ( – z < Z < z ) . {\displaystyle \gamma =P(-z<Z<z).}

nebo ekvivalentně;

1 2 ( 1 – γ ) = P ( Z > z ) . {\displaystyle {\tfrac {1}{2}}(1-\gamma )=P(Z>z).}

Předpověď
interval
z
75% 1.15
90% 1.64
95% 1.96
99% 2,58
Predikční interval (na ose y) daný z (kvantil standardního skóre, na ose x). Osa y je logaritmicky komprimována (ale hodnoty na ní se nemění).

Předpovědní interval se konvenčně zapisuje jako:

. {\displaystyle \left.}.

Příklad pro výpočet 95% predikčního intervalu pro normální rozdělení se střední hodnotou (µ) 5 a směrodatnou odchylkou (σ) 1, pak z je přibližně 2. Dolní mez předpovědního intervalu je tedy přibližně 5 – (2-1) = 3 a horní mez je přibližně 5 + (2-1) = 7, čímž získáme předpovědní interval přibližně 3 až 7.

Diagram znázorňující kumulativní distribuční funkci pro normální rozdělení se střední hodnotou (µ) 0 a rozptylem (σ2) 1. Kromě kvantilové funkce lze interval předpovědi pro libovolné standardní skóre vypočítat pomocí (1 – (1 – Φµ,σ2(standardní skóre))-2). Například standardní skóre x = 1,96 dává Φµ,σ2(1,96) = 0,9750, což odpovídá předpovědnímu intervalu (1 – (1 – 0,9750)-2) = 0,9500 = 95 %.

Odhad parametrůEdit

Pro rozdělení s neznámými parametry je přímým přístupem k předpovědi odhadnout parametry a pak použít související kvantilovou funkci – například lze použít výběrový průměr X¯ {\displaystyle {\overline {X}}}.

jako odhad pro μ a výběrový rozptyl s2 jako odhad pro σ2. Všimněte si, že zde existují dvě přirozené možnosti pro s2 – dělení ( n – 1 ) {\displaystyle (n-1)}.

dává nestranný odhad, zatímco dělení n dává odhad maximální věrohodnosti a lze použít obě varianty. Pak se použije kvantilová funkce s těmito odhadnutými parametry Φ X¯ , s 2 – 1 {\displaystyle \Phi _{{\overline {X}},s^{2}}^{-1}}.

k získání předpovědního intervalu.

Tento přístup je použitelný, ale výsledný interval nebude mít interpretaci opakovaného výběru – není to predikční interval spolehlivosti.

Pro další postup použijte výběrový průměr:

X¯ = X¯ n = ( X 1 + ⋯ + X n ) / n {\displaystyle {\overline {X}}={\overline {X}}_{n}=(X_{1}+\cdots +X_{n})/n}

a (nestranný) výběrový rozptyl:

s 2 = s n 2 = 1 n – 1 ∑ i = 1 n ( X i – X ž n ) 2 . {\displaystyle s^{2}=s_{n}^{2}={1 \over n-1}\sum _{i=1}^{n}(X_{i}-{\overline {X}}_{n})^{2}.}

Neznámý průměr, známý rozptylEdit

Při normálním rozdělení s neznámým průměrem μ, ale známým rozptylem 1, je výběrový průměr X¯ {\displaystyle {\overline {X}}}

pozorování X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}}

má rozdělení N ( μ , 1 / n ) , {\displaystyle N(\mu ,1/n),}

zatímco budoucí pozorování X n + 1 {\displaystyle X_{n+1}}.

má rozdělení N ( μ , 1 ) . {\displaystyle N(\mu ,1)}.

Vezmeme-li jejich rozdíl, zrušíme μ a získáme normální rozdělení s rozptylem 1 + ( 1 / n ) , {\displaystyle 1+(1/n),}

tedy X n + 1 – X ž 1 + ( 1 / n ) ∼ N ( 0 , 1 ) . {\displaystyle {\frac {X_{n+1}-{\overline {X}}}{\sqrt {1+(1/n)}}}\sim N(0,1).}

Řešení pro X n + 1 {\displaystyle X_{n+1}}.

dává předpovědní rozdělení N ( X ¯ , 1 + ( 1 / n ) ) , {\displaystyle N({\overline {X}},1+(1 / n)),}

ze kterého lze vypočítat intervaly jako dříve. Jedná se o prediktivní interval spolehlivosti v tom smyslu, že pokud použijeme kvantilový rozsah 100p%, pak při opakovaných aplikacích tohoto výpočtu bude budoucí pozorování X n + 1 {\displaystyle X_{n+1}}.

bude spadat do předpovídaného intervalu ve 100p% případů.

Všimněte si, že toto předpovědní rozdělení je konzervativnější než použití odhadnutého průměru X¯ {\displaystyle {\overline {X}}.

a známého rozptylu 1, protože to používá rozptyl 1 + ( 1 / n ) {\displaystyle 1+(1/n)}.

, a proto poskytuje širší intervaly. To je nezbytné, aby platila požadovaná vlastnost intervalu spolehlivosti.

Známý průměr, neznámý rozptylUpravit

Proti tomu při normálním rozdělení se známým průměrem 0, ale neznámým rozptylem σ 2 {\displaystyle \sigma ^{2}}.

, výběrový rozptyl s 2 {\displaystyle s^{2}}.

pozorování X 1 , … , X n {\displaystyle X_{1},\dots ,X_{n}}

má až na stupnici a χ n – 1 2 {\displaystyle \scriptstyle \chi _{n-1}^{2}}.

rozdělení; přesněji: ( n – 1 ) s n 2 σ 2 ∼ χ n – 1 2 . {\displaystyle {\frac {(n-1)s_{n}^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.}

zatímco budoucí pozorování X n + 1 {\displaystyle X_{n+1}}

má rozdělení N ( 0 , σ 2 ) . {\displaystyle N(0,\sigma ^{2})}.

Vztáhneme-li poměr budoucího pozorování a výběrové směrodatné odchylky na σ, získáme Studentovo t-rozdělení s n – 1 stupněm volnosti: X n + 1 s ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}}{s}}\sim T^{n-1}.}

Řešení pro X n + 1 {\displaystyle X_{n+1}}.

získáme predikční rozdělení s T n – 1 , {\displaystyle sT^{n-1},}

ze kterého lze vypočítat intervaly jako dříve.

Všimněte si, že toto predikční rozdělení je konzervativnější než použití normálního rozdělení s odhadovanou směrodatnou odchylkou s {\displaystyle s}

a známým průměrem 0, protože používá t-rozdělení místo normálního rozdělení, a tudíž poskytuje širší intervaly. To je nezbytné, aby platila požadovaná vlastnost intervalu spolehlivosti.

Neznámá střední hodnota, neznámý rozptylUpravit

Kombinace výše uvedeného pro normální rozdělení N ( μ , σ 2 ) {\displaystyle N(\mu ,\sigma ^{2})} }

s neznámými μ i σ2 dává následující pomocnou statistiku: X n + 1 – X ¯ n s n 1 + 1 / n ∼ T n – 1 . {\displaystyle {\frac {X_{n+1}-{\overline {X}}_{n}}{s_{n}{\sqrt {1+1/n}}}}\sim T^{n-1}.}

Tato jednoduchá kombinace je možná, protože výběrový průměr a výběrový rozptyl normálního rozdělení jsou nezávislé statistiky; to platí pouze pro normální rozdělení a ve skutečnosti charakterizuje normální rozdělení.

Řešení pro X n + 1 {\displaystyle X_{n+1}}.

dává predikční rozdělení X ¯ n + s n 1 + 1 / n ⋅ T n – 1 . {\displaystyle {\overline {X}}_{n}+s_{n}{\sqrt {1+1/n}}\cdot T^{n-1}.}

Pravděpodobnost X n + 1 {\displaystyle X_{n+1}}.

spadající do daného intervalu je pak: Pr ( X ž n – T a s n 1 + ( 1 / n ) ≤ X n + 1 ≤ X ž n + T a s n 1 + ( 1 / n ) ) = p {\displaystyle \Pr \left({\overline {X}}_{n}-T_{a}s_{n}{\sqrt {1+(1/n)}}\leq X_{n+1}\leq {\overline {X}}_{n}+T_{a}s_{n}{\sqrt {1+(1/n)}}\,\pravo)=p}

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.