Afsnit 9.1: Den multiple regressionsmodel

Vi betragter målinger af nn uafhængige stokastiske variable Xi,X_i, i=1,,n.i=1,\ldots,n. Til hvert observationsnummer ii er der tilknyttet værdierne af dd forklarende variable. I den simple lineære regressionsmodel i afsnit 7.1 blev værdien af den forklarende variabel betegnet med ti.t_i. Når der er flere forklarende variable, lad os sige dd af disse, betegnes værdierne med tij,t_{ij}, i=1,,ni=1,\ldots,n og j=1,,d.j=1,\ldots,d. På denne måde passer index med en datatabelstruktur, hvor ii er rækkenummer og jj er søjlenummer. Den jj'te forklarende variabel er vektoren tj=(t1j,t2j,,tnj).t_j=(t_{1j},t_{2j},\ldots,t_{nj}). De forklarende variable kaldes også regressionsvariable, og β1,,βd\beta_1,\ldots,\beta_d kaldes regressionskoefficienter.
Statistisk Model 9.1.1. (Den multiple regressionsmodel)
I den multiple regressionsmodel betragter vi nn uafhængige stokastiske variable X1,,Xn,X_1,\ldots,X_n, og middelværdien af respons XiX_i er en linearkombination af dd forklarende værdier.
XiN(α+β1ti1+β2ti2++βdtid,σ2),i=1,,n,(α,β1,,βd,σ2)Rd+1×R+.\begin{aligned} & X_i\sim N\big( \alpha+\beta_1t_{i1}+\beta_2t_{i2}+\cdots+\beta_dt_{id},\sigma^2\big), \enspace i=1,\ldots,n, \\ & (\alpha,\beta_1,\ldots,\beta_d,\sigma^2)\in \mathbf{R}^{d+1}\times \mathbf{R}_+. \end{aligned}
Analysen af den multiple regressionsmodel laves med følgende kommandoer
from statsmodels.formula.api import olslmUD=ols(data=mydata,formula=’xt1+t2++td’).fit()print(summaryLM(lmUD)) \begin{array}{l} \text{from statsmodels.formula.api import ols} \\ \text{lmUD=ols(data=mydata,formula='x}\sim\text{t1+t2+}\cdots\text{+td').fit()} \\ \text{print(summaryLM(lmUD))} \end{array}
hvor, i den konkrete situation, xx skal erstattes af navnet på responsvariablen, og t1,t2,,\ldots,td skal erstattes med navnene på de forklarende variable, og alle dd led i summen skal skrives op. Datatabellen mydata skal indholde søjlerne xx og t1,,td.t1,\ldots,td. I parametertabellen er Intercept skønnet over α,\alpha, og skønnet β^j\hat\beta_j over den jj'te regressionskoefficient står ud for navnet på den jj'te forklarende variabel (her tj). Den ii'te forventede værdi er
ξ^i=α^+β^1ti1++β^ktid, \hat\xi_i=\hat\alpha+\hat\beta_1t_{i1}+\cdots+\hat\beta_kt_{id},
og skønnet over variansen i modellen, her kaldet MM, er
s2(M)=SSD(M)/df(M)=i(xiξ^i)2/(nd1), s^2(M)=\mathit{SSD}(M)/\mathit{df}(M)=\sum_i\big(x_i-\hat\xi_i\big)^2/(n-d-1),
idet middelværdimodellen har d+1d+1 parametre.
Ligesom for den simple regressionsmodel i afsnit 7.5 kan vi være interesseret i middelværdien ξP=α+β1t1++βdtd\xi^P=\alpha+\beta_1t_{*1}+\cdots+\beta_dt_{*d} for givne værdier t1,,tdt_{*1},\ldots,t_{*d} af de forklarende variable. Skønnet over denne,
ξ^P=α^+β^1t1++β^dtd,(9.1.1) \hat\xi^P=\hat\alpha+\hat\beta_1t_{*1}+\cdots+\hat\beta_dt_{*d}, \tag{9.1.1}
kaldes den prædikterede værdi. Et konfidensinterval for ξP\xi^P, eller et prædiktionsinterval for en kommende observation, beregnes som i afsnit 7.5. Input til beregningsfunktionerne, i form af datatabellen nyData, skal nu indeholde nye værdier for alle de forklarende variable t1,,td\text{t1},\ldots,\text{td}, en søjle for hver af de forklarende variable.

9.1.1 Backward selektion

I en multipel regressionssituation ved man typisk ikke på forhånd, at alle de forklarende variable indeholder information om respons. Hvis man inkluderer mange variable, der ikke er relevante, kan dette give et forkert billede af afhængigheden af de relevante variable, og kan give et forkert indtryk af, hvor godt respons kan beskrives (giver en for lille værdi af spredningsskøn s(M)s(M)). Man taler i denne sammenhæng om "overfitting". Hvis for eksempel man har nn observationer, og man har nn eller flere forklarende variable, vil den multiple regressionsmodel give s(M)=0,s(M)=0, og de forventede værdier ξ^i\hat\xi_i er lig med de observerede værdier. Vores mål må derfor være at finde en delmængde af de forklarende variable, der giver en god beskrivelse af respons, og som ikke overfitter. I en model med få forklarende variable er det nemmere at fortolke modellen, og parametrene vil være bedre bestemt end i en model med mange variable.
Jeg vil nu beskrive en metode til at reducere den fulde regressionsmodel (modellen, hvor alle de forklarende variable er taget med) til en model med et færre antal forklarende variable. Ved backward selektion fjerner man successivt en af de forklarende variable baseret på pp-værdierne fra tt-test af, at regressionskoefficienterne er nul.
Definition 9.1.2. (Backward selektion)
I hvert trin findes parametertabellen hørende til modelformlen for den aktuelle model. Den største pp-værdi blandt tt-testene, for at en regressionskoefficient er nul, identificeres. Hvis denne pp-værdi er større end en selvvalgt grænse (for eksempel 0.05), fjernes den tilhørende regressionsvariabel fra modellen. Proceduren stopper, når ingen af pp-værdierne er over grænsen, og den tilhørende model kaldes slutmodellen.
Typisk vil man også supplere de successive test med en registrering af udviklingen af spredningsskønnet s(M)s(M) i hvert trin, og til sidst lave et FF-test for reduktion fra startmodellen til slutmodellen.
ForegåendeNæste