Afsnit 9.1: Den multiple regressionsmodel
Vi betragter målinger af
n uafhængige stokastiske variable
Xi,
i=1,…,n. Til hvert observationsnummer
i er der tilknyttet
værdierne af
d forklarende variable.
I den simple lineære regressionsmodel i afsnit
7.1 blev
værdien af den forklarende variabel betegnet med
ti.
Når der er flere forklarende variable, lad os sige
d af disse,
betegnes værdierne med
tij, i=1,…,n og
j=1,…,d.
På denne måde passer index med en datatabelstruktur, hvor
i er
rækkenummer og
j er søjlenummer.
Den
j'te forklarende variabel er vektoren
tj=(t1j,t2j,…,tnj).
De forklarende variable kaldes også
regressionsvariable, og
β1,…,βd kaldes
regressionskoefficienter.
Statistisk Model 9.1.1.
(Den multiple regressionsmodel)
I den multiple regressionsmodel betragter vi
n uafhængige stokastiske variable
X1,…,Xn,
og middelværdien af respons
Xi er en
linearkombination af
d forklarende værdier.
Xi∼N(α+β1ti1+β2ti2+⋯+βdtid,σ2),i=1,…,n,(α,β1,…,βd,σ2)∈Rd+1×R+.
Analysen af den multiple regressionsmodel laves med følgende
kommandoer
from statsmodels.formula.api import olslmUD=ols(data=mydata,formula=’x∼t1+t2+⋯+td’).fit()print(summaryLM(lmUD))
hvor, i den konkrete situation,
x skal erstattes af navnet på
responsvariablen, og
t1,t2,…,td skal erstattes med
navnene på de forklarende variable, og alle
d led i summen skal
skrives op. Datatabellen
mydata skal indholde søjlerne
x og
t1,…,td.
I parametertabellen er
Intercept
skønnet over
α, og skønnet
β^j
over den
j'te regressionskoefficient står ud for navnet på den
j'te forklarende variabel (her
tj).
Den
i'te forventede værdi er
ξ^i=α^+β^1ti1+⋯+β^ktid,
og skønnet over variansen i modellen, her kaldet
M, er
s2(M)=SSD(M)/df(M)=i∑(xi−ξ^i)2/(n−d−1),
idet middelværdimodellen har
d+1 parametre.
Ligesom for den simple regressionsmodel i afsnit
7.5
kan vi være interesseret i middelværdien
ξP=α+β1t∗1+⋯+βdt∗d for givne
værdier
t∗1,…,t∗d af de forklarende variable.
Skønnet over denne,
ξ^P=α^+β^1t∗1+⋯+β^dt∗d,(9.1.1)
kaldes den
prædikterede værdi.
Et konfidensinterval for
ξP, eller et
prædiktionsinterval
for en kommende observation, beregnes som i afsnit
7.5.
Input til beregningsfunktionerne, i form af datatabellen
nyData,
skal nu indeholde nye værdier for alle de forklarende variable
t1,…,td, en søjle for hver af de forklarende variable.
9.1.1 Backward selektion
I en multipel regressionssituation ved man typisk ikke på forhånd,
at alle de forklarende variable indeholder information om respons.
Hvis man inkluderer mange variable, der ikke er relevante, kan dette
give et forkert billede af afhængigheden af de relevante variable,
og kan give et forkert indtryk af, hvor godt respons kan beskrives
(giver en for lille værdi af spredningsskøn
s(M)). Man taler i denne
sammenhæng om "overfitting". Hvis for eksempel man har
n
observationer, og man har
n eller flere forklarende variable,
vil den multiple regressionsmodel give
s(M)=0, og de forventede
værdier
ξ^i er lig med de observerede værdier. Vores mål
må derfor være at finde en delmængde af de forklarende variable,
der giver en god beskrivelse af respons, og som ikke overfitter.
I en model med få forklarende variable er det nemmere at
fortolke modellen, og parametrene vil være bedre bestemt end
i en model med mange variable.
Jeg vil nu beskrive en metode til at reducere
den
fulde regressionsmodel (modellen, hvor alle de forklarende
variable er taget med) til en model med et færre antal
forklarende variable.
Ved
backward selektion fjerner man
successivt en af de forklarende variable
baseret på
p-værdierne fra
t-test af, at
regressionskoefficienterne er nul.
Definition 9.1.2.
(Backward selektion)
I hvert trin findes parametertabellen hørende til modelformlen
for den aktuelle model. Den største
p-værdi
blandt
t-testene, for at
en regressionskoefficient er nul, identificeres. Hvis denne
p-værdi er større end en selvvalgt grænse (for eksempel 0.05),
fjernes den tilhørende regressionsvariabel fra modellen.
Proceduren stopper, når ingen af
p-værdierne er over grænsen,
og den tilhørende model kaldes
slutmodellen.
Typisk vil man også supplere de successive test med en registrering af
udviklingen af spredningsskønnet
s(M) i hvert trin, og til
sidst lave et
F-test for reduktion fra startmodellen til
slutmodellen.
ForegåendeNæste