Afsnit 4.6: Konfidensinterval for varians og spredning

I normalfordelingsmodellen, XiN(μ,σ2),X_i\sim N(\mu,\sigma^2), i=1,,n,i=1,\ldots,n, lavede vi ovenfor inferens om middelværdien, og spredningen σ\sigma var blot en nødvendig del af metoden. Spredningen kan imidlertid også være af interesse i sig selv. I mit eget dataeksempel, hvor jeg ønskede at kontrollere om mueslipakkerne levede op til en specifikation på 600 gram, er det ikke nok kun at se på middelværdien. Selvom middelværdien er 600 gram, er det ikke tilfredstillende, hvis jeg for eksempel kan få pakker med 500 gram eller 700 gram. I en medicinsk sammenhæng, hvor et nyt præparat testes, er spredningen i respons også vigtig. Mere generelt vil man ved undersøgelse af en population ofte også være interesseret i spredningen. Jeg vil her give et konfidensinterval for variansen σ2\sigma^2 og for spredningen σ.\sigma.
Konfidensintervallerne baserer sig på Resultat 4.3.2, hvoraf det fremgår, at (n1)s2/σ2χ2(n1).(n-1)s^2/\sigma^2\sim\chi^2(n-1). Jeg betragter her en lidt mere generel situation for at kunne bruge resultatet i andre modeller. Jeg minder om, at fraktiler i en χ2(df)\chi^2(\mathit{df})-fordeling betegnes med χinv2(p,df).\chi^2_{\text{inv}}(p,\mathit{df}).
Resultat 4.6.1. (Konfidensinterval for varians)
Lad s2s^2 være en stokastisk variabel med tilknyttet antal frihedsgrader df,\mathit{df}, og hvor dfs2/σ2χ2(df).\mathit{df}\cdot s^2/\sigma^2\sim\chi^2(\mathit{df}). Så er et 95%-konfidensinterval for variansen σ2\sigma^2 givet ved
[dfs2χinv2(0.975,df),dfs2χinv2(0.025,df)], \Big[ \frac{\mathit{df}\cdot s^2}{\chi^2_{\text{inv}}(0.975,\mathit{df})},\, \frac{\mathit{df}\cdot s^2}{\chi^2_{\text{inv}}(0.025,\mathit{df})} \Big],
og et 95%-konfidensinterval for spredningen σ\sigma er givet ved
[dfs2χinv2(0.975,df),dfs2χinv2(0.025,df)]. \Bigg[ \sqrt{ \frac{\mathit{df}\cdot s^2}{\chi^2_{\text{inv}}(0.975,\mathit{df})} },\, \sqrt{ \frac{\mathit{df}\cdot s^2}{\chi^2_{\text{inv}}(0.025,\mathit{df})} } \Bigg].
Det første resultat følger af, at
Pσ(dfs2χinv2(0.975,df)σ2dfs2χinv2(0.025,df))=Pσ(χinv2(0.025,df)dfs2σ2χinv2(0.975,df))=0.9750.025=0.95.\begin{aligned} & P_\sigma\Big( \frac{\mathit{df}\cdot s^2}{\chi^2_{\text{inv}}(0.975,\mathit{df})} \leq \sigma^2\leq \frac{\mathit{df}\cdot s^2}{\chi^2_{\text{inv}}(0.025,\mathit{df})} \Big) \\ & = P_\sigma\Big( \chi^2_{\text{inv}}(0.025,\mathit{df}) \leq \frac{\mathit{df}\cdot s^2}{\sigma^2} \leq \chi^2_{\text{inv}}(0.975,\mathit{df}) \Big) = 0.975-0.025=0.95. \end{aligned}
Det andet resultat følger ud fra en generel observation af, at hvis [θ^,θ^+][\hat\theta_-,\hat\theta_+] er et 95%-konfidensinterval for en parameter θ,\theta, så er [h(θ^),h(θ^+)][h(\hat\theta_-),h(\hat\theta_+)] et 95%-konfidensinterval for den transformerede parameter h(θ),h(\theta), hvor hh er en voksende funktion. Dette ses af P(h(θ^)h(θ)h(θ^+))=P(θ^θθ^+).P(h(\hat\theta_-)\leq h(\theta)\leq h(\hat\theta_+))= P(\hat\theta_-\leq \theta\leq \hat\theta_+).
Eksempel 4.6.2. (Kontrol af køkkenvægt)
Dette er en fortsættelse af Eksempel 4.2.1 og afsnit 4.5 med 10 uafhængige målinger af vægten af cirka 600 ml vand. Den empiriske spredning af de 10 målinger er s=15.022.s=15.022. Ved opslag i tabel ses, at 0.025-fraktilen i en χ2(9)\chi^2(9)-fordeling er 2.700, og 0.975-fraktilen er 19.023. Et 95%-konfidensinterval for spredningen bliver derfor
[915.022219.023,9s22.700]=[10.3,27.4]. \Bigg[ \sqrt{ \frac{9\cdot 15.022^2}{19.023} },\, \sqrt{ \frac{9\cdot s^2}{2.700} } \Bigg]= [10.3,\,27.4].
Beregningerne i python ser ud som følger.
ForegåendeNæste