Afsnit 9.1: Den multiple regressionsmodel

Vi betragter målinger af

n

uafhængige stokastiske variable

X_i,

i=1,\ldots,n.

Til hvert observationsnummer

i

er der tilknyttet værdierne af

d

forklarende variable. I den simple lineære regressionsmodel i afsnit 7.1 blev værdien af den forklarende variabel betegnet med

t_i.

Når der er flere forklarende variable, lad os sige

d

af disse, betegnes værdierne med

t_{ij},

i=1,\ldots,n

j=1,\ldots,d.

På denne måde passer index med en datatabelstruktur, hvor

i

er rækkenummer og

j

er søjlenummer. Den

j

'te forklarende variabel er vektoren

t_j=(t_{1j},t_{2j},\ldots,t_{nj}).

De forklarende variable kaldes også regressionsvariable, og

\beta_1,\ldots,\beta_d

kaldes regressionskoefficienter.

Statistisk Model 9.1.1. (Den multiple regressionsmodel)

I den multiple regressionsmodel betragter vi

n

uafhængige stokastiske variable

X_1,\ldots,X_n,

og middelværdien af respons

X_i

er en linearkombination af

d

forklarende værdier.

\begin{aligned} & X_i\sim N\big( \alpha+\beta_1t_{i1}+\beta_2t_{i2}+\cdots+\beta_dt_{id},\sigma^2\big), \enspace i=1,\ldots,n, \\ & (\alpha,\beta_1,\ldots,\beta_d,\sigma^2)\in \mathbf{R}^{d+1}\times \mathbf{R}_+. \end{aligned}

Analysen af den multiple regressionsmodel laves med følgende kommandoer

\begin{array}{l} \text{from statsmodels.formula.api import ols} \\ \text{lmUD=ols(data=mydata,formula='x}\sim\text{t1+t2+}\cdots\text{+td').fit()} \\ \text{print(summaryLM(lmUD))} \end{array}

hvor, i den konkrete situation,

x

skal erstattes af navnet på responsvariablen, og t1,t2, $\ldots,$ td skal erstattes med navnene på de forklarende variable, og alle

d

led i summen skal skrives op. Datatabellen mydata skal indholde søjlerne

x

t1,\ldots,td.

I parametertabellen er Intercept skønnet over

\alpha,

og skønnet

\hat\beta_j

over den

j

'te regressionskoefficient står ud for navnet på den

j

'te forklarende variabel (her tj). Den

i

'te forventede værdi er

\hat\xi_i=\hat\alpha+\hat\beta_1t_{i1}+\cdots+\hat\beta_kt_{id},

og skønnet over variansen i modellen, her kaldet

M

, er

s^2(M)=\mathit{SSD}(M)/\mathit{df}(M)=\sum_i\big(x_i-\hat\xi_i\big)^2/(n-d-1),

idet middelværdimodellen har

d+1

parametre.

Ligesom for den simple regressionsmodel i afsnit 7.5 kan vi være interesseret i middelværdien

\xi^P=\alpha+\beta_1t_{*1}+\cdots+\beta_dt_{*d}

for givne værdier

t_{*1},\ldots,t_{*d}

af de forklarende variable. Skønnet over denne,

\hat\xi^P=\hat\alpha+\hat\beta_1t_{*1}+\cdots+\hat\beta_dt_{*d}, \tag{9.1.1}

kaldes den prædikterede værdi. Et konfidensinterval for

\xi^P

, eller et prædiktionsinterval for en kommende observation, beregnes som i afsnit 7.5. Input til beregningsfunktionerne, i form af datatabellen nyData, skal nu indeholde nye værdier for alle de forklarende variable

\text{t1},\ldots,\text{td}

, en søjle for hver af de forklarende variable.

9.1.1 Backward selektion

I en multipel regressionssituation ved man typisk ikke på forhånd, at alle de forklarende variable indeholder information om respons. Hvis man inkluderer mange variable, der ikke er relevante, kan dette give et forkert billede af afhængigheden af de relevante variable, og kan give et forkert indtryk af, hvor godt respons kan beskrives (giver en for lille værdi af spredningsskøn

s(M)

). Man taler i denne sammenhæng om "overfitting". Hvis for eksempel man har

n

observationer, og man har

n

eller flere forklarende variable, vil den multiple regressionsmodel give

s(M)=0,

og de forventede værdier

\hat\xi_i

er lig med de observerede værdier. Vores mål må derfor være at finde en delmængde af de forklarende variable, der giver en god beskrivelse af respons, og som ikke overfitter. I en model med få forklarende variable er det nemmere at fortolke modellen, og parametrene vil være bedre bestemt end i en model med mange variable.

Jeg vil nu beskrive en metode til at reducere den fulde regressionsmodel (modellen, hvor alle de forklarende variable er taget med) til en model med et færre antal forklarende variable. Ved backward selektion fjerner man successivt en af de forklarende variable baseret på

p

-værdierne fra

t

-test af, at regressionskoefficienterne er nul.

Definition 9.1.2. (Backward selektion)

I hvert trin findes parametertabellen hørende til modelformlen for den aktuelle model. Den største

p

-værdi blandt

t

-testene, for at en regressionskoefficient er nul, identificeres. Hvis denne

p

-værdi er større end en selvvalgt grænse (for eksempel 0.05), fjernes den tilhørende regressionsvariabel fra modellen. Proceduren stopper, når ingen af

p

-værdierne er over grænsen, og den tilhørende model kaldes slutmodellen.

Typisk vil man også supplere de successive test med en registrering af udviklingen af spredningsskønnet

s(M)

i hvert trin, og til sidst lave et

F

-test for reduktion fra startmodellen til slutmodellen.

Foregående Næste