Afsnit 5.3: Den multiple regressionsmodel

Indbygget i R er et datasæt trees, der indeholder data for 31 black cherry trees fra Allegheny National Forest. Data stammer oprindeligt fra The Minitab Student Handbook.

For hvert træ har man målt diameter (inches, målt 54 inches over jorden), højden (feet) og volumen af tømmer efter fældning (cubic feet). Figuren nedenfor viser logaritmen til volumen afsat mod henholdsvis logaritmen til diameter og logaritmen til højden. Den sidste delfigur viser logaritmen til højden afsat mod logaritmen til diameteren.

Det er tydeligt, at diameteren og højden hver især giver information om volumen, og diameteren er den, der bedst kan bruges til at forudsige volumen. Hældningen i en regression af log-volumen på log-diameter er 2.2, svarende til at volumen er proportional med diameter opløftet i 2.2. Dette kan umiddelbart være svært at fortolke, men hvis vi ser på regressionen af log-højde på log-diameter, er hældningen her 0.2. Vi kan derfor sige, at diameter ${\,}^{2.2}$ efterligner diameter ${\,}^{2}\cdot$ højde, hvilket intuitivt giver god mening. Spørgsmålet er, om man kan lave en model, hvor log-diameter og log-højde begge indgår, og dermed kan forbedre beskrivelsen af log-volumen ? Den relevante modelklasse er multipel regression, som jeg vil beskrive i det følgende.

5.3.1 Den multiple regressionsmodel

Vi betragter målinger af $n$ uafhængige stokastiske variable $X_i,$ $i=1,\ldots,n.$ Til hvert observationsnummer $i$ er der tilknyttet værdierne af $d$ forklarende variable. I den simple lineære regressionsmodel i afsnit 3.1 blev værdien af den forklarende variabel betegnet med $t_i.$ Når der er flere forklarende variable, lad os sige $d$ af disse, betegnes værdierne med $t_{ij},$ $i=1,\ldots,n$ og $j=1,\ldots,d.$ På denne måde passer index med en dataframestruktur, hvor $i$ er rækkenummer og $j$ er søjlenummer. Den $j$ 'te forklarende variabel er vektoren $t_j=(t_{1j},t_{2j},\ldots,t_{nj}).$ I den multiple regressionsmodel er middelværdien af respons $X_i$ en linearkombination af de $d$ forklarende værdier. Vi skriver modellen på formen

$\begin{aligned} \text{Model:}\enspace & X_i\sim N\big( \alpha+\beta_1t_{i1}+\beta_2t_{i2}+\cdots+\beta_dt_{id},\sigma^2\big), \enspace i=1,\ldots,n, \\ & (\alpha,\beta_1,\ldots,\beta_d,\sigma^2)\in \mathbf{R}^{d+1}\times \mathbf{R}_+. \end{aligned}\tag{5.3.1}$ De forklarende variable kaldes også regressionsvariable, og $\beta_1,\ldots,\beta_d$ kaldes regressionskoefficienter.

Modellen analyseres i R med kommandoen

lm(x $\sim$ t1+t2+ $\cdots$ +td)

hvor, i den konkrete situation, $x$ skal erstattes af navnet på responsvariablen, og t1,t2, $\ldots,$ td skal erstattes med navnene på de forklarende variable, og summen af de $d$ led skal skrives fuldstændigt ud. I parametertabellen fra summary er Intercept skønnet over $\alpha,$ og skønnet $\hat\beta_j$ over den $j$ 'te regressionskoefficient står ud for navnet på den $j$ 'te forklarende variabel (her tj). Den $i$ 'te forventede værdi er $\hat\xi_i=\hat\alpha+\hat\beta_1t_{i1}+\cdots+\hat\beta_kt_{id},$ og skønnet over variansen i modellen er $s^2=\sum_i\big(x_i-\hat\xi_i\big)^2/(n-d-1),$ idet middelværdimodellen har $d+1$ parametre.

Ligesom for den simple regressionsmodel i afsnit 5.5 kan vi være interesseret i middelværdien $\xi^P=\alpha+\beta_1t_{*1}+\cdots+\beta_dt_{*d}$ for givne værdier $t_{*1},\ldots,t_{*d}$ af de forklarende variable. Skønnet over denne,

$\hat\xi^P=\hat\alpha+\hat\beta_1t_{*1}+\cdots+\hat\beta_dt_{*d}, \tag{5.3.2}$ kaldes den prædikterede værdi. Et konfidensinterval for $\xi^P$ beregnes i R med predict (med indstillingen interval="confidence") som i afsnit 3.5, hvor der så skal bruges en dataframe

nyData=data.frame(t1= $t_{*1},\ldots,$ td= $t_{*d}$ )

Som i afsnit 3.5 kan man få et prædiktionsinterval i stedet, det vil sige et interval for en kommende observation, ved at lave indstillingen interval="prediction" i kaldet til predict.

Eksempel 5.3.1. (Cherry trees)

I det følgende kodevindue analyseres Black Cherry Trees datasættet omtalt ovenfor. Lad logVol være logaritmen til volumen, logDiam logaritmen til diameteren, og lad logHoej være logaritmen til højden. Modellen, der analyseres, er

$\text{LogVol}_i\sim N\big(\alpha+\beta_D\cdot\text{logDiam}_i+ \beta_H\cdot\text{logHoej}_i,\sigma^2),\enspace i=1,\ldots,31,$ hvor $(\alpha,\beta_D,\beta_H,\sigma)$ kan variere frit. Kør koden.

5.3.2 Multipel regression i R

De estimerede regressionskoefficienter er henholdsvis 1.98 og 1.12, hvilket næsten svarer til modellen, hvor volumen beskrives som $\text{diameter}^{2}\cdot\text{højde}.$

Skønnet over spredningen er 0.081. Da dette er for logaritmetransformerede data, svarer dette cirka til en spredning på 8 procent på den oprindelige skala.

Hvis vi kun laver regression på logaritmen til diameteren, bliver spredningsskønnet 0.115. Dette kan formulers på den måde, at inddragelsen af logaritmen til højden reducerer spredningen med knap 30 procent.

Det næste kodevindue laver plots af residualer mod henholdsvis logaritmen til diameteren og logaritmen til højden, og et normalt qqplot.

5.3.3 Modelkontrol

Alle tre figurer understøtter den multiple regressionsmodel for disse data.

Lad os afslutte dette eksempel med at lave prædiktion af logaritmen til volumen for to nye træer med værdierne

$\begin{array}{lcc} \\ \hline & \text{Log Diameter} & \text{Log Højde} \\ \hline \text{Træ 1} & 2.5 & 4.3 \\ \text{Træ 2} & 2.2 & 4.1 \\ \hline \end{array}$ Det følgende kodevindue lave konfidensintervaller for middelværdien for de to træer.

5.3.4 Konfidensintervaller

Kør koden. Kan du forklare, hvorfor det andet konfidensinterval er bredere end det første ? Ændr koden, så der beregnes prædiktionsintervaller i stedet.

Svar: Cherry Trees

Det første af de to nye træer ligger midt i området for data, hvor middelværdien er velbestemt, hvorimod det andet træ ligger i udkanten af dataområdet.

For at lave et prædiktionsinterval skal man erstatte "confidence" med "prediction" i koden.

Foregående Næste