Afsnit 5.4: Beregning i R via lm

I R analyseres en regressionsmodel ved hjælp af funktionen lm, som står for lineær model med normalfordelte data. Funktionen bruges både til regressionsmodellen i dette kapitel og til de generelle lineære modeller i de to følgende kapitler. Funktionen lm laver beregningsarbejdet, men skriver selv kun ganske få ting ud. Man anvender derfor normalt funktionen summary på output fra lm for at få en mere fyldig udskrift. Input til lm er en modelformel, der beskriver, hvordan respons skal forbindes med den forklarende variabel I regressionsmodellen her, hvor vektoren med responsværdierne hedder og vektoren med værdierne af den forklarende variabel hedder er modelformlen blot "xt". På venstre side af tildesymbolet skal der stå navnet på responsvariablen og på højre side skal strukturen af middelværdien angives. For den lineære regressionsmodel angives middelværdien ved blot at skrive navnet på regressionsvariablen. Analysen af regressionmodellen kan nu laves i R med kommandoen
summary(lm(xt))
I nogle situationer vil det være relevant at "gemme" output for at kunne regne videre på elementer af output. Hvis jeg kalder output fra lm for lmUD og output fra summary for sumUD, bliver kaldene
lmUD=lm(xt)
sumUD=summary(lmUD)
Output fra summary består af en parametertabel med overskrift Coefficients, hvor der er fire søjler: parameterskøn, standard error, teststørrelse og en -værdi, og tabellen indeholder en række for hver parameter i middelværdimodellen:
Den simple lineære regressionsmodel har to parametre: skæring (intercept) og regressionskoefficienten som navngives efter navnet på den forklarende variabel. Søjlen med Standard error angiver et skøn over spredningen på parameterskønnet jævnfør formlerne for i Resultat 5.3.1. For at teste hypotesen, at den sande parameterværdi er nul, laves en -teststørrelse, som netop er parameterskøn divideret med standard error. Endelig er søjlen med -værdier fremkommet ved at slå op i en -fordeling med det relevante antal frihedsgrader. Antallet af frihedsgrader kan aflæses i teksten under parametertabellen, hvor skønnet over spredningen af punkterne omkring linjen er angivet (Residual standard error) sammen med frihedsgradsantallet. Man kan adressere de forskellige elementer i output, samt finde konfidensintervaller for parametrene, ved følgende kommandoer:

5.4.1 Bruge lm til regressionsanalyse

Benyt nu estimationsfunktionen lm til at få lavet en parametertabel (og et residualplot) i regressionsmodellen for data omkring forurening af vandprøver fra Eksempel 5.1.1. Find skønnene over hældning, skæring og spredning, og sammenlign med værdierne beregnet i Eksempel 5.2.2. Find dernæst et 95%-konfidensinterval for hældning og skæring og sammenlign med beregningerne i Eksempel 5.3.2.

Se opstartskoden (til/fra)

  1. Hvorfor står logG på venstre side i modelformlen?
  2. Hvor aflæses skønnet over spredningen omkring linjen?
  3. Hvor aflæses konfidensintervallet for hældningen i den lineære sammenhæng?

Svar: Bruge lm

  1. På venstre side i modelformlen står responsvektoren, som I vores tilfælde er logGlu.
  2. Skøn over spredningen aflæses til 0.3094 under Residual standard error.
  3. Konfidensintervallet aflæses til i linjen hørende til logColi.

ForegåendeNæste