Afsnit 7.4: Backward selektion

I en multipel regressionssituation ved man typisk ikke på forhånd, at alle de forklarende variable indeholder information om respons. Hvis man inkluderer mange variable, der ikke er relevante, kan dette give et forkert billede af afhængigheden af de relevante variable, og kan give et forkert indtryk af, hvor godt respons kan beskrives (giver en for lille værdi af spredningsskøn ). Man taler i denne sammenhæng om "overfitting". Hvis for eksempel man har observationer, og man har eller flere forklarende variable, vil den multiple regressionsmodel give og de forventede værdier er lig med de observerede værdier. Vores mål må derfor være at finde en delmængde af de forklarende variable, der giver en god beskrivelse af respons, og som ikke overfitter. I en model med få forklarende variable er det nemmere at fortolke modellen, og parametrene vil være bedre bestemt end i en model med mange variable.
Jeg vil nu beskrive en metode til at reducere den fulde regressionsmodel (modellen, hvor alle de forklarende variable er taget med) til en model med et færre antal forklarende variable. Ved backward selektion fjerner man successivt en af de forklarende variable baseret på -værdierne fra -test af, at regressionskoefficienterne er nul.
Definition 7.4.1. (Backward selektion)
I hvert trin køres summary(lm(modelformel)) for den aktuelle model. Den største -værdi blandt -testene, for at en regressionskoeffcient er nul, identificeres. Hvis denne -værdi er større end en selvvalgt grænse (for eksempel 0.05), fjernes den tilhørende regressionsvariabel fra modellen. Proceduren stopper, når ingen af -værdierne er over grænsen, og den tilhørende model kaldes slutmodellen.
Typisk vil man også supplere testene med en registrering af udviklingen af spredningsskønnet i hvert trin, og til sidst lave et -test for reduktion fra startmodellen til slutmodellen.

7.4.1 Eksempel

I dette eksempel vil jeg se på en beskrivelse af den globale årstemperatur ud fra en række forklarende variable. Dette er et emne, hvor man skal passe på med ikke at komme med "amatørudsagn", og jeg støtter mig da også til fremstillingen i artiklen Using Data from Climate Science to Teach Introductory Statistics. Figuren nedenfor viser den globale temperaturs afvigelse fra et 30 års gennemsnit for årene 1979 til 2010 (afvigelse i grader celcius ganget med 100) og udviklingen af co2 i atmosfæren i den samme periode (ppm, parts per million). Begge grafer viser et stigende forløb hen over perioden, og derfor vil en regression af temperatur på co2 vise en tydelig sammenhæng, som i højre delfigur nedenfor.
Spørgsmålet er, om der er andre effekter end co2, der kan forklare temperaturstigningen? De kandidater, jeg vil inddrage, er solens udstråling (solar irradiance, watt/), vulkanaktivitet og et mål for el Nino effekten. Vulkanaktiviteten måles ved "MLO apparent transmission values", som angiver den procentdel af solen udstråling, der rammer jordoverfladen, og el Nino effekten måles som temperaturafvigelse i grader celcius. I den næste figur er de fire forklarende variable vist som funktion af tidspunkt.
Umiddelbart er der ikke nogen af de tre nye forklarende variable, der viser en stigende eller faldende tendens hen over perioden, men måske er der et sammenspil mellem dem, som ikke umiddelbart kan ses. Dette kan vi få viden om ved at bruge en multipel regressionsmodel. Lad være temperatur, mængden af co2 i atmosfæren, solens udstråling, vulkanaktiviteten og el Nino effekten. Udover disse fire forklarende variable vil jeg også inddrage interaktion mellem disse ved at medtage deres produkter,
hvor , , og er standardiserede variable, det vil sige, at gennemsnit er trukket fra, og der er divideret med empirisk spredning. For eksempel er hvor er den empiriske spredning for variabel Modellen, der analyseres, er
I den nedenstående kode analyseres modellen.

7.4.2 Multipel regression i R

Se opstartskoden (til/fra)

Kør koden

Fra parametertabellen ses det, at -test for giver en -værdi på 0.61, og dette er den største -værdi blandt de ti regressionsparametre. Da denne -værdi er langt over 0.05 fjerner vi leddet VE fra modellen. Kør det ovenstående program igen med VE fjernet fra modelformlen. Konstater, at SE kan fjernes. Fortsæt på samme måde og se at CE, CS og CV kan fjernes. I slutmodellen med multipel regression på , , , og SV er -værdierne for test af de tilhørende regressionskoefficienter meget små pånær for SV, og vi vælger ikke at reducere modellen yderligere. Hvis man laver et -test for reduktion fra den fulde model til slutmodellem ved hjælp af kommandoen anova(lmUD2,lmUD1), hvor lmUD1 og lmUD2 er output fra estimationen af henholdsvis startmodel og slutmodel, får man en -værdi på 0.21 (se afsnit 6.7 for beskrivelse af anova).
I slutmodellen
er nedenfor gengivet parametertabellen fra kaldet summary(lm(TC+S+V+E+SV)).

Coefficients:

              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.385e+04  5.734e+03  -4.158 0.000309 ***
C                1.055      0.089  11.859 5.45e-12 ***
S               16.771      4.125   4.065 0.000394 ***
V              638.117    157.559   4.050 0.000410 ***
E                9.063      1.824   4.967 3.66e-05 ***
SV             -10.452      4.272  -2.447 0.021492 *  
---
Residual standard error: 5.761 on 26 degrees of freedom

Det er usædvanligt, at med kun 32 datapunkter og med fem forklarende variable at fire af disse er stærkt signifikante (-værdi langt under 0.05). Regressionskoefficienten hørende til co2 (variablen C) ligger omkring 1, hvilket betyder, at hvis mængden af co2 får lov til at stige med 100 ppm, så tyder denne meget simple model på en stigning på 1 grad celcius i den globale temperatur.

Datakilder

Fremstillingen i dette eksempel er som nævnt inspireret af artiklen Using Data from Climate Science to Teach Introductory Statistics. Data for temperatur, solens udstråling og co2 er taget fra artiklen, men stammer oprindeligt for temperaturens vedkommende fra NASA Goddard Institute for Space Studies (GISS), data for solens udstråling stammer fra The Physikalisch-Meteorologisches Observatorium Davos/World Radiation Center, og data for co2 stammer fra Earth System Research Laboratory of the National Oceanic and Atmospheric Administration (NOAA). Data for vulkanaktivitet og el Nino effekten er ikke givet i artiklen, men der er givet links til data. Data for vulkanaktivitet er fra Earth System Research Laboratories og data for el Nino effekten er fra Climate Prediction Center.

ForegåendeNæste