Afsnit 5.3: Tests og konfidensintervaller

Test og konfidensintervaller for skæring og hældning i den lineære regressionsmodel kan laves ud fra de samme principper som i afsnittene 4.4 og 4.10. Konfidensinterval for variansen følger princippet i afsnit 4.6.
Resultat 5.3.1. (Test af hypotese om regressionsparametre)
I den lineære regressionsmodel, XiN(α+βti,σ2),X_i\sim N(\alpha+\beta t_i,\sigma^2), i=1,,n,i=1,\ldots,n, fra Statistisk Model 5.1.2, kan vi teste hypotesen, at hældningen har en kendt værdi, β=β0\beta=\beta_0 mod alternativet ββ0,\beta\neq\beta_0, ved tt-teststørrelsen
T=β^β0sr/SSDt=β^β0sds(β^)t(n2),sds(β^)=srSSDt, T=\frac{\hat\beta-\beta_0}{s_r/\sqrt{\mathit{SSD}_t}}= \frac{\hat\beta-\beta_0}{\text{sd}_s(\hat\beta)} \sim t(n-2),\quad \text{sd}_s(\hat\beta)=\frac{s_r}{\sqrt{\mathit{SSD}_t}},
og vi kan teste hypotesen, at skæringen har en kendt værdi, α=α0\alpha=\alpha_0 mod alternativet αα0,\alpha\neq\alpha_0, ved tt-teststørrelsen
T=α^α0sr1n+tˉ2SSDt=α^α0sds(α^)t(n2),sds(α^)=sr1n+tˉ2SSDt. T=\frac{\hat\alpha-\alpha_0}{s_r\sqrt{\frac{1}{n}+ \frac{\bar t^2}{\mathit{SSD}_t}}}= \frac{\hat\alpha-\alpha_0}{\text{sd}_s(\hat\alpha)} \sim t(n-2),\quad \text{sd}_s(\hat\alpha)= s_r\sqrt{\frac{1}{n}+ \frac{\bar t^2}{\mathit{SSD}_t}}.
I begge tilfælde beregnes pp-værdien som 2tcdf(tobs,n2),2\cdot t_{\text{cdf}}(-|t_{\text{obs}}|,n-2), hvor tobst_{\text{obs}} er den observerede værdi af T.T.
Et 95%-konfidensinterval for hældningen β\beta og for skæringen α\alpha beregnes som
β^±t0sds(β^),ogα^±t0sds(α^), \hat\beta\pm t_0\cdot \text{sd}_s(\hat\beta),\quad\quad\text{og}\quad\quad \hat\alpha\pm t_0\cdot \text{sd}_s(\hat\alpha),
hvor t0t_0 er 97.5%-fraktilen i en t(n2)t(n-2)-fordeling, t0=tinv(0.975,n2).t_0=t_{\text{inv}}(0.975,n-2).
Et 95%-konfidensinterval for variansen σ2\sigma^2 eller for spredningen σ\sigma beregnes som i Resultat 4.6.1, med s2s^2 i resultatet erstattet af sr2s_r^2 og df i resultatet lig med n2.n-2.
Resultaterne her følger direkte fra Resultat 5.2.1 på samme måde som at Resultat 4.4.2 følger fra Resultat 4.3.2.
Eksempel 5.3.2. (Forurening i vandprøver)
I Eksempel 5.2.2 omkring GLUase aktivitetens afhængighed af mængden af E.coli bakterier er det naturligt at overveje proportionalitet mellem aktivitet og bakteriemængde. For logaritmen til værdierne betyder dette en lineær sammenhæng, hvor hældningen er lig med 1. I modellen LogGluiN(α+βlogColii,σ2),\text{LogGlu}_i\sim N(\alpha+\beta\cdot\text{logColi}_i,\sigma^2), i=1,,98,i=1,\ldots,98, tester vi derfor hypotesen β=1.\beta=1. T-T\text{-}teststørrelsen bliver, idet SSDlogColi=117.0331,\mathit{SSD}_{\text{logColi}}=117.0331,
tcdf=0.849410.3094/117.0331=5.2657, t_{\text{cdf}}=\frac{0.8494-1}{0.3094/\sqrt{117.0331}}=-5.2657,
og den tilhørende pp-værdi er 2(1tcdf(5.2657,982))=8.5107.2(1-t_{\text{cdf}}(5.2657,98-2))= 8.5\cdot 10^{-7}. Da pp-værdien er meget lille, bliver konklusionen, at data strider mod hypotesen om proportionalitet. Forfatterne i artiklen, hvor data stammer fra, diskuterer selv mulige grunde til afvigelsen fra en hældning på 1.
Lad os dernæst se på, hvor meget viden vi har om skæringen α\alpha ud fra de 98 målinger. Et 95%-konfidensinterval for α\alpha bliver på formen
3.8872±1.98500.3094198+4.53372117.0331=[4.15,3.62], -3.8872\pm 1.9850\cdot 0.3094\cdot\sqrt{\frac{1}{98}+\frac{4.5337^2}{117.0331}} = \big[-4.15,\, -3.62\big],
idet t0=tinv(0.975,96)=1.9850t_0=t_{\text{inv}}(0.975,96)=1.9850 og logColi=4.5337.\overline{logColi}=4.5337. Bredden på intervallet afspejler, at dataværdierne for logColi ligger fra 2.8 til 86.9, som er lidt væk fra nul (α\alpha er linjens værdi i nul). I en situation som her vil skæringen α\alpha sjældent være af interesse i sig selv. Det vil være mere relevant at se på linjens værdi α+βt\alpha+\beta t_* i et punkt tt_* inden for dataområdet for den forklarende variabel. Dette gør vi i afsnit 5.5 nedenfor.
Lad os slutte eksemplet af med at se på, hvor meget vi ved om spredningen σ\sigma i den lineære sammenhæng. Skønnet over σ\sigma er sr=0.3094,s_r=0.3094, og et 95%-konfidensinterval for σ\sigma er givet ved
[0.309496125.0001,0.30949670.7828]=[0.271,0.360]. \Big[0.3094\cdot\sqrt{\frac{96}{125.0001}},\, 0.3094\cdot\sqrt{\frac{96}{70.7828}}\Big]= \big[0.271,\,0.360\big].
Spredningen ligger altså med 95% sikkerhed i intervallet fra 0.27 til 0.36. Denne ret store værdi af spredningen kan skyldes stor måleusikkerhed i målingen af GLUase aktivitet og i målingen af mængden af E.coli bakterier, såvel som en biologisk variation i GLUase aktivitet for en given mængde af E.coli bakterier. En afvigelse på 0.31 på en log\log skala betyder en faktor 1.4 på GLUase aktiviteten. I afsnit 5.5 beskriver jeg, hvor velbestemt mængden af E.coli bakterier er ud fra en måling af GLUase aktiviteten.
ForegåendeNæste