Test og konfidensintervaller for skæring og hældning i den lineære
regressionsmodel kan laves ud fra de samme principper som i afsnittene
4.4 og 4.10. Konfidensinterval
for variansen følger princippet i afsnit 4.6.
Resultat 5.3.1.
(Test af hypotese om regressionsparametre)
I den lineære regressionsmodel,
Xi∼N(α+βti,σ2),i=1,…,n,
fra Statistisk Model 5.1.2, kan vi teste hypotesen, at
hældningen har en kendt værdi, β=β0 mod alternativet
β=β0, ved t-teststørrelsen
I begge tilfælde beregnes p-værdien som
2⋅tcdf(−∣tobs∣,n−2), hvor tobs
er den observerede værdi af T. Et 95%-konfidensinterval for hældningen β og for
skæringen α beregnes som
β^±t0⋅sds(β^),ogα^±t0⋅sds(α^),
hvor t0 er 97.5%-fraktilen i en t(n−2)-fordeling,
t0=tinv(0.975,n−2).Et 95%-konfidensinterval for variansen σ2 eller for
spredningen σ beregnes som i Resultat 4.6.1,
med s2 i resultatet erstattet af sr2 og df i
resultatet lig med n−2.
Resultaterne her følger direkte fra Resultat 5.2.1
på samme måde som at Resultat 4.4.2
følger fra Resultat 4.3.2.
Eksempel 5.3.2.
(Forurening i vandprøver)
I Eksempel 5.2.2 omkring GLUase aktivitetens afhængighed af
mængden af E.coli bakterier er det naturligt at overveje
proportionalitet mellem aktivitet og bakteriemængde. For
logaritmen til værdierne betyder dette en lineær sammenhæng, hvor
hældningen er lig med 1. I modellen
LogGlui∼N(α+β⋅logColii,σ2),i=1,…,98, tester vi derfor hypotesen β=1.T-teststørrelsen
bliver, idet SSDlogColi=117.0331,
tcdf=0.3094/117.03310.8494−1=−5.2657,
og den tilhørende p-værdi er 2(1−tcdf(5.2657,98−2))=8.5⋅10−7.
Da p-værdien er meget lille, bliver konklusionen, at data strider mod
hypotesen om proportionalitet. Forfatterne i artiklen,
hvor data stammer fra, diskuterer selv mulige grunde til afvigelsen fra en
hældning på 1. Lad os dernæst se på, hvor meget viden vi har om skæringen α ud
fra de 98 målinger. Et 95%-konfidensinterval
for α bliver på formen
idet t0=tinv(0.975,96)=1.9850 og logColi=4.5337.
Bredden på intervallet afspejler, at dataværdierne for logColi
ligger fra 2.8 til 86.9, som er lidt væk fra nul
(α er linjens værdi i nul).
I en situation som her vil skæringen α sjældent være af
interesse i sig selv. Det vil være mere relevant at se på linjens værdi
α+βt∗ i et punkt t∗ inden for dataområdet for den
forklarende variabel. Dette gør vi i afsnit 5.5 nedenfor. Lad os slutte eksemplet af med at se på, hvor meget vi ved om
spredningen σ i den lineære sammenhæng. Skønnet over
σ er sr=0.3094, og et 95%-konfidensinterval for
σ er givet ved
Spredningen ligger altså med 95% sikkerhed i intervallet fra
0.27 til 0.36. Denne ret store værdi af spredningen
kan skyldes stor måleusikkerhed i målingen af GLUase aktivitet og
i målingen af mængden af E.coli bakterier,
såvel som en biologisk variation i GLUase aktivitet for en given
mængde af E.coli bakterier. En afvigelse på 0.31 på en
log skala betyder en faktor 1.4 på GLUase aktiviteten.
I afsnit 5.5
beskriver jeg, hvor velbestemt mængden af E.coli bakterier er ud
fra en måling af GLUase aktiviteten.