I R analyseres en regressionsmodel
ved hjælp af funktionen
lm, som står
for lineær model med normalfordelte data.
Funktionen bruges både til regressionsmodellen i dette kapitel og til
de generelle lineære modeller i de to følgende kapitler.
Funktionen lm laver beregningsarbejdet, men skriver selv kun
ganske få ting ud. Man anvender derfor normalt funktionen
summary
på output fra lm for at få en mere fyldig udskrift.
Input til lm er en modelformel, der beskriver,
hvordan respons skal forbindes med den forklarende variabel
I regressionsmodellen her, hvor vektoren med responsværdierne hedder og
vektoren med værdierne af den forklarende variabel hedder
er modelformlen blot
"xt". På venstre side af tildesymbolet skal der stå navnet på
responsvariablen og på højre side skal strukturen af middelværdien angives.
For den lineære regressionsmodel angives middelværdien
ved blot at skrive navnet på regressionsvariablen.
Analysen af regressionmodellen kan nu laves i R med
kommandoen
summary(lm(xt))
I nogle situationer vil det være relevant at "gemme" output for at kunne
regne videre på elementer af output. Hvis jeg kalder output fra lm
for lmUD og output fra summary for sumUD, bliver
kaldene
lmUD=lm(xt)
sumUD=summary(lmUD)
Output fra summary består af en
parametertabel med overskrift
Coefficients, hvor der er fire søjler:
parameterskøn, standard error, teststørrelse og en
-værdi, og tabellen indeholder
en række for hver parameter i middelværdimodellen:
Den simple
lineære regressionsmodel
har to parametre: skæring
(intercept) og
regressionskoefficienten
som navngives efter navnet på den forklarende variabel.
Søjlen med Standard error angiver et skøn over
spredningen på parameterskønnet
jævnfør formlerne for i Resultat 5.3.1.
For at teste
hypotesen, at den sande parameterværdi er nul,
laves en -teststørrelse,
som netop er parameterskøn divideret med standard error.
Endelig
er søjlen med -værdier fremkommet ved at slå op
i en -fordeling
med det relevante antal frihedsgrader. Antallet af frihedsgrader kan
aflæses i teksten under parametertabellen, hvor skønnet
over spredningen
af punkterne omkring linjen er angivet
(Residual standard error)
sammen med frihedsgradsantallet.
Man kan adressere de forskellige elementer i output, samt
finde konfidensintervaller for parametrene, ved
følgende kommandoer:
Benyt nu estimationsfunktionen lm til at
få lavet en parametertabel (og et residualplot)
i regressionsmodellen for data omkring
forurening af vandprøver fra Eksempel 5.1.1.
Find skønnene over hældning, skæring og spredning, og sammenlign med
værdierne beregnet i Eksempel 5.2.2.
Find dernæst et 95%-konfidensinterval for hældning og skæring og
sammenlign med beregningerne i Eksempel 5.3.2.