Afsnit 9.1: Den multiple regressionsmodel
Vi betragter målinger af
uafhængige stokastiske variable
Til hvert observationsnummer
er der tilknyttet
værdierne af
forklarende variable.
I den simple lineære regressionsmodel i afsnit
7.1 blev
værdien af den forklarende variabel betegnet med
Når der er flere forklarende variable, lad os sige
af disse,
betegnes værdierne med
og
På denne måde passer index med en datatabelstruktur, hvor
er
rækkenummer og
er søjlenummer.
Den
'te forklarende variabel er vektoren
De forklarende variable kaldes også
regressionsvariable, og
kaldes
regressionskoefficienter.
Statistisk Model 9.1.1.
(Den multiple regressionsmodel)
I den multiple regressionsmodel betragter vi
uafhængige stokastiske variable
og middelværdien af respons
er en
linearkombination af
forklarende værdier.
Analysen af den multiple regressionsmodel laves med følgende
kommandoer
hvor, i den konkrete situation,
skal erstattes af navnet på
responsvariablen, og
t1,t2,td skal erstattes med
navnene på de forklarende variable, og alle
led i summen skal
skrives op. Datatabellen
mydata skal indholde søjlerne
og
I parametertabellen er
Intercept
skønnet over
og skønnet
over den
'te regressionskoefficient står ud for navnet på den
'te forklarende variabel (her
tj).
Den
'te forventede værdi er
og skønnet over variansen i modellen, her kaldet
, er
idet middelværdimodellen har
parametre.
Ligesom for den simple regressionsmodel i afsnit
7.5
kan vi være interesseret i middelværdien
for givne
værdier
af de forklarende variable.
Skønnet over denne,
kaldes den
prædikterede værdi.
Et konfidensinterval for
, eller et
prædiktionsinterval
for en kommende observation, beregnes som i afsnit
7.5.
Input til beregningsfunktionerne, i form af datatabellen
nyData,
skal nu indeholde nye værdier for alle de forklarende variable
, en søjle for hver af de forklarende variable.
9.1.1 Backward selektion
I en multipel regressionssituation ved man typisk ikke på forhånd,
at alle de forklarende variable indeholder information om respons.
Hvis man inkluderer mange variable, der ikke er relevante, kan dette
give et forkert billede af afhængigheden af de relevante variable,
og kan give et forkert indtryk af, hvor godt respons kan beskrives
(giver en for lille værdi af spredningsskøn
). Man taler i denne
sammenhæng om "overfitting". Hvis for eksempel man har
observationer, og man har
eller flere forklarende variable,
vil den multiple regressionsmodel give
og de forventede
værdier
er lig med de observerede værdier. Vores mål
må derfor være at finde en delmængde af de forklarende variable,
der giver en god beskrivelse af respons, og som ikke overfitter.
I en model med få forklarende variable er det nemmere at
fortolke modellen, og parametrene vil være bedre bestemt end
i en model med mange variable.
Jeg vil nu beskrive en metode til at reducere
den
fulde regressionsmodel (modellen, hvor alle de forklarende
variable er taget med) til en model med et færre antal
forklarende variable.
Ved
backward selektion fjerner man
successivt en af de forklarende variable
baseret på
-værdierne fra
-test af, at
regressionskoefficienterne er nul.
Definition 9.1.2.
(Backward selektion)
I hvert trin findes parametertabellen hørende til modelformlen
for den aktuelle model. Den største -værdi
blandt -testene, for at
en regressionskoefficient er nul, identificeres. Hvis denne
-værdi er større end en selvvalgt grænse (for eksempel 0.05),
fjernes den tilhørende regressionsvariabel fra modellen.
Proceduren stopper, når ingen af -værdierne er over grænsen,
og den tilhørende model kaldes slutmodellen.
Typisk vil man også supplere de successive test med en registrering af
udviklingen af spredningsskønnet
i hvert trin, og til
sidst lave et
-test for reduktion fra startmodellen til
slutmodellen.
ForegåendeNæste