Kapitel 9: Multipel regression

I indledningen til kapitel 7 viste jeg en figur, hvor indbyggerantal voksede med antallet af storkepar. Jeg omtalte det i kapitel 7 som spurious correlation. Omvendt er det også vigtigt at have alle de relevante variable med i en analyse. Udeladelse af en vigtig variabel kan give et forkert indtryk af afhængigheden af andre variable (Simpsons paradoks).
Lad os starte dette kapitel med et simpelt eksempel på, at inddragning af mere information kan forbedre beskrivelsen af en responsvariabel. Et opløsningmiddels evne til at udskille et stof (eluering) måles i artiklen An empirical relationship between the eluant strength parameter and solvent Lewis acidity and basicity ved Snyder's eluotropic solvent strength (ess).
I artiklen argumenteres der for, at viden om complementary solvent parameters kan bruges til at prediktere opløsningsevnen, specifikt betragtes de to mål Lewis acidity og basicity. I artiklen gives der data for 28 opløsningsmidler. Figuren nedenfor viser opløsningsevnen afsat mod henholdsvis acidity og basicity. Vi ser i det venstre delplot en tydelig sammenhæng mellem de to variable. I det højre delplot ser vi også en sammenhæng, men med mere variation omkring linjen. Hvis vi skulle vælge at beskrive oppløsningsevnen med enten acidity eller basicity, ville vi bruge acidity, men spørgsmålet er, om vi kan forbedre beskrivelsen ved at inddrage basicity samtidigt med acidity. Jeg har i det venstre delplot farvelagt de punkter, der ligger længst væk fra regressionslinjen, og overført farven til det højre delplot. Vi kan se, at en del af de farvede punkter er kommet tæt på regressionslinjen i det højre delplot. Dette tyder på, at det er muligt at forbedre beskrivelsen ved at inddrage begge de forklarende variable acidity og basicity. Modelklassen til at inddrage denne form for sammenhæng er multipel regression.
Den multiple regressionsmodel beskrives i afsnit 9.1. Her omtales også backward selektion, som er en strategi for, hvordan man kan reducere modellen til kun at indeholde de relevante variable. Eksemplet med opøsningsmidler analyseres i afsnit 9.2.
Den resterende del af kapitel 9 handler om den multiple regressionsmodel i situationen, hvor der er et meget stort antal forklarende variable, der kan bruges til at beskrive respons. Mange målemetoder indført i "computeralderen" måler simultant et stort antal værdier knyttet til den samme prøve. Et eksempel, som bruges i afsnit 9.3, er et near-infrared spektrum, hvor reflektionen af lys måles simultant ved et stort antal bølgelængder. Andre eksempler er målinger fra en gaskromatograf eller fra et massespektrometer. I de ovennævnte sammenhænge kan man ikke bruge backward selektionsmetoden fra afsnit 9.1, og i stedet indføres i afsnit 9.4 en anden strategi kaldet forward selektion. Denne strategi giver ikke et brugbart skøn over spredningen omkring regressionsmodellen, og i afsnit 9.3 indføres cross-validation til at afhjælpe dette.
Forward selektionsmetoden giver typisk kun et lille antal variable til beskrivelse af respons. En alternativ tilgang består i at holde fast i alle de forklarende variable, men lægge begrænsning på, hvor meget hver enkelt variabel kan bidrage til beskrivelsen. I afsnittene 9.5 og 9.6 beskrives en sådan metode kaldet ridge regression.
ForegåendeNæste