Afsnit 5.3: Tests og konfidensintervaller

Test og konfidensintervaller for skæring og hældning i den lineære regressionsmodel kan laves ud fra de samme principper som i afsnittene 4.4 og 4.10. Konfidensinterval for variansen følger princippet i afsnit 4.6.
Resultat 5.3.1. (Test af hypotese om regressionsparametre)
I den lineære regressionsmodel, fra Statistisk Model 5.1.2, kan vi teste hypotesen, at hældningen har en kendt værdi, mod alternativet ved -teststørrelsen
og vi kan teste hypotesen, at skæringen har en kendt værdi, mod alternativet ved -teststørrelsen
I begge tilfælde beregnes -værdien som hvor er den observerede værdi af
Et 95%-konfidensinterval for hældningen og for skæringen beregnes som
hvor er 97.5%-fraktilen i en -fordeling,
Et 95%-konfidensinterval for variansen eller for spredningen beregnes som i Resultat 4.6.1, med i resultatet erstattet af og df i resultatet lig med
Resultaterne her følger direkte fra Resultat 5.2.1 på samme måde som at Resultat 4.4.2 følger fra Resultat 4.3.2.
Eksempel 5.3.2. (Forurening i vandprøver)
I Eksempel 5.2.2 omkring GLUase aktivitetens afhængighed af mængden af E.coli bakterier er det naturligt at overveje proportionalitet mellem aktivitet og bakteriemængde. For logaritmen til værdierne betyder dette en lineær sammenhæng, hvor hældningen er lig med 1. I modellen tester vi derfor hypotesen teststørrelsen bliver, idet
og den tilhørende -værdi er Da -værdien er meget lille, bliver konklusionen, at data strider mod hypotesen om proportionalitet. Forfatterne i artiklen, hvor data stammer fra, diskuterer selv mulige grunde til afvigelsen fra en hældning på 1.
Lad os dernæst se på, hvor meget viden vi har om skæringen ud fra de 98 målinger. Et 95%-konfidensinterval for bliver på formen
idet og Bredden på intervallet afspejler, at dataværdierne for logColi ligger fra 2.8 til 86.9, som er lidt væk fra nul ( er linjens værdi i nul). I en situation som her vil skæringen sjældent være af interesse i sig selv. Det vil være mere relevant at se på linjens værdi i et punkt inden for dataområdet for den forklarende variabel. Dette gør vi i afsnit 5.5 nedenfor.
Lad os slutte eksemplet af med at se på, hvor meget vi ved om spredningen i den lineære sammenhæng. Skønnet over er og et 95%-konfidensinterval for er givet ved
Spredningen ligger altså med 95% sikkerhed i intervallet fra 0.27 til 0.36. Denne ret store værdi af spredningen kan skyldes stor måleusikkerhed i målingen af GLUase aktivitet og i målingen af mængden af E.coli bakterier, såvel som en biologisk variation i GLUase aktivitet for en given mængde af E.coli bakterier. En afvigelse på 0.31 på en skala betyder en faktor 1.4 på GLUase aktiviteten. I afsnit 5.5 beskriver jeg, hvor velbestemt mængden af E.coli bakterier er ud fra en måling af GLUase aktiviteten.
ForegåendeNæste