Afsnit 9.1: Den multiple regressionsmodel

Vi betragter målinger af uafhængige stokastiske variable Til hvert observationsnummer er der tilknyttet værdierne af forklarende variable. I den simple lineære regressionsmodel i afsnit 7.1 blev værdien af den forklarende variabel betegnet med Når der er flere forklarende variable, lad os sige af disse, betegnes værdierne med og På denne måde passer index med en datatabelstruktur, hvor er rækkenummer og er søjlenummer. Den 'te forklarende variabel er vektoren De forklarende variable kaldes også regressionsvariable, og kaldes regressionskoefficienter.
Statistisk Model 9.1.1. (Den multiple regressionsmodel)
I den multiple regressionsmodel betragter vi uafhængige stokastiske variable og middelværdien af respons er en linearkombination af forklarende værdier.
Analysen af den multiple regressionsmodel laves med følgende kommandoer
hvor, i den konkrete situation, skal erstattes af navnet på responsvariablen, og t1,t2,td skal erstattes med navnene på de forklarende variable, og alle led i summen skal skrives op. Datatabellen mydata skal indholde søjlerne og I parametertabellen er Intercept skønnet over og skønnet over den 'te regressionskoefficient står ud for navnet på den 'te forklarende variabel (her tj). Den 'te forventede værdi er
og skønnet over variansen i modellen, her kaldet , er
idet middelværdimodellen har parametre.
Ligesom for den simple regressionsmodel i afsnit 7.5 kan vi være interesseret i middelværdien for givne værdier af de forklarende variable. Skønnet over denne,
kaldes den prædikterede værdi. Et konfidensinterval for , eller et prædiktionsinterval for en kommende observation, beregnes som i afsnit 7.5. Input til beregningsfunktionerne, i form af datatabellen nyData, skal nu indeholde nye værdier for alle de forklarende variable , en søjle for hver af de forklarende variable.

9.1.1 Backward selektion

I en multipel regressionssituation ved man typisk ikke på forhånd, at alle de forklarende variable indeholder information om respons. Hvis man inkluderer mange variable, der ikke er relevante, kan dette give et forkert billede af afhængigheden af de relevante variable, og kan give et forkert indtryk af, hvor godt respons kan beskrives (giver en for lille værdi af spredningsskøn ). Man taler i denne sammenhæng om "overfitting". Hvis for eksempel man har observationer, og man har eller flere forklarende variable, vil den multiple regressionsmodel give og de forventede værdier er lig med de observerede værdier. Vores mål må derfor være at finde en delmængde af de forklarende variable, der giver en god beskrivelse af respons, og som ikke overfitter. I en model med få forklarende variable er det nemmere at fortolke modellen, og parametrene vil være bedre bestemt end i en model med mange variable.
Jeg vil nu beskrive en metode til at reducere den fulde regressionsmodel (modellen, hvor alle de forklarende variable er taget med) til en model med et færre antal forklarende variable. Ved backward selektion fjerner man successivt en af de forklarende variable baseret på -værdierne fra -test af, at regressionskoefficienterne er nul.
Definition 9.1.2. (Backward selektion)
I hvert trin findes parametertabellen hørende til modelformlen for den aktuelle model. Den største -værdi blandt -testene, for at en regressionskoefficient er nul, identificeres. Hvis denne -værdi er større end en selvvalgt grænse (for eksempel 0.05), fjernes den tilhørende regressionsvariabel fra modellen. Proceduren stopper, når ingen af -værdierne er over grænsen, og den tilhørende model kaldes slutmodellen.
Typisk vil man også supplere de successive test med en registrering af udviklingen af spredningsskønnet i hvert trin, og til sidst lave et -test for reduktion fra startmodellen til slutmodellen.
ForegåendeNæste