Afsnit 5.4: Beregning i R via lm

I R analyseres en regressionsmodel $X_i\sim N(\alpha+\beta t_i,\sigma^2),$ $i=1,\ldots,n,$ ved hjælp af funktionen lm, som står for lineær model med normalfordelte data. Funktionen bruges både til regressionsmodellen i dette kapitel og til de generelle lineære modeller i de to følgende kapitler. Funktionen lm laver beregningsarbejdet, men skriver selv kun ganske få ting ud. Man anvender derfor normalt funktionen summary på output fra lm for at få en mere fyldig udskrift. Input til lm er en modelformel, der beskriver, hvordan respons $x$ skal forbindes med den forklarende variabel $t.$ I regressionsmodellen her, hvor vektoren med responsværdierne hedder $x$ og vektoren med værdierne af den forklarende variabel hedder $t,$ er modelformlen blot "x $\sim$ t". På venstre side af tildesymbolet skal der stå navnet på responsvariablen og på højre side skal strukturen af middelværdien angives. For den lineære regressionsmodel angives middelværdien $E(X)=\alpha+\beta t$ ved blot at skrive navnet på regressionsvariablen. Analysen af regressionmodellen kan nu laves i R med kommandoen

summary(lm(x $\sim$ t))

I nogle situationer vil det være relevant at "gemme" output for at kunne regne videre på elementer af output. Hvis jeg kalder output fra lm for lmUD og output fra summary for sumUD, bliver kaldene

lmUD=lm(x $\sim$ t)

sumUD=summary(lmUD)

Output fra summary består af en parametertabel med overskrift Coefficients, hvor der er fire søjler: parameterskøn, standard error, $t\text{-}$ teststørrelse og en $p$ -værdi, og tabellen indeholder en række for hver parameter i middelværdimodellen:

$\begin{aligned} &\text{Coefficients:} \\ & \begin{array}{lrrrr} & \text{Estimate} & \text{Std. Error} & \text{t value} & \text{Pr(>|t|)} \\ \text{(Intercept)} & - & - & - & - \\ \text{t} & - & - & - & - \end{array} \end{aligned}$ Den simple lineære regressionsmodel $E(X_i)=\alpha+\beta t_i$ har to parametre: skæring $\alpha$ (intercept) og regressionskoefficienten $\beta,$ som navngives efter navnet på den forklarende variabel. Søjlen med Standard error angiver et skøn over spredningen på parameterskønnet jævnfør formlerne for $\text{sd}_s$ i Resultat 5.3.1. For at teste hypotesen, at den sande parameterværdi er nul, laves en $t$ -teststørrelse, som netop er parameterskøn divideret med standard error. Endelig er søjlen med $p$ -værdier fremkommet ved at slå op i en $t$ -fordeling med det relevante antal frihedsgrader. Antallet af frihedsgrader kan aflæses i teksten under parametertabellen, hvor skønnet $s_r$ over spredningen af punkterne omkring linjen er angivet (Residual standard error) sammen med frihedsgradsantallet. Man kan adressere de forskellige elementer i output, samt finde konfidensintervaller for parametrene, ved følgende kommandoer:

$\begin{array}{ll}\hline \text{sumUD{\textdollar}sigma} & \text{skøn }s_r\text{ over spredning} \\ \text{sumUD{\textdollar}df[2]} & \text{frihedsgrader knyttet til }s_r^2 \\ \text{sumUD{\textdollar}coefficients} & \text{parametertabel} \\ \text{lmUD{\textdollar}fitted.values} & \hat\xi_i=\hat\alpha+\hat\beta t_i\text{ (forventede værdier)}\\ \text{lmUD{\textdollar}residuals} & \text{residualer }r_i=x_i-\hat\xi_i \\ \text{confint(lmUD)} & \text{95\%-konfidensintervaller for parametre}\\ \hline \end{array}$

5.4.1 Bruge lm til regressionsanalyse

Benyt nu estimationsfunktionen lm til at få lavet en parametertabel (og et residualplot) i regressionsmodellen for data omkring forurening af vandprøver fra Eksempel 5.1.1. Find skønnene over hældning, skæring og spredning, og sammenlign med værdierne beregnet i Eksempel 5.2.2. Find dernæst et 95%-konfidensinterval for hældning og skæring og sammenlign med beregningerne i Eksempel 5.3.2.

Se opstartskoden (til/fra)

Hvorfor står logG på venstre side i modelformlen ?
Hvor aflæses skønnet over spredningen omkring linjen ?
Hvor aflæses konfidensintervallet for hældningen i den lineære sammenhæng ?

Svar: Bruge lm

På venstre side i modelformlen står responsvektoren, som I vores tilfælde er logGlu.
Skøn over spredningen aflæses til 0.3094 under Residual standard error.
Konfidensintervallet aflæses til $[0.7926,0.9061]$ i linjen hørende til logColi.

Kalde lm med datatabel

Ovenfor har jeg beskrevet, hvordan lm kaldes med en modelformel, hvori indgår navne på allerede eksisterende vektorer. Typisk vil data blive indlæst som en datatabel fra en csv-fil, og de relevante vektorer dannes som søjler fra datatabellen eller som transformerede værdier af værdierne i en søjle. Hvis de vektorer der indgår i modelformlen allerede findes i en datatabel, lad os sige i tabellen Mintabel, behøves man ikke at danne vektorerne inden kaldet til lm, idet man kan bruge kommandoen

lm(modelformel,data=Mintabel)

Eksempel på dette er vist i afsnit 6.4.3.

Foregående Næste