I indledningen til kapitel
7 viste jeg en figur,
hvor indbyggerantal voksede med antallet af storkepar.
Jeg omtalte det i kapitel 7 som
spurious correlation.
Omvendt er det også vigtigt at have alle de relevante variable
med i en analyse. Udeladelse af en vigtig variabel kan give
et forkert indtryk af afhængigheden af andre variable
(
Simpsons paradoks).
Lad os starte dette kapitel med et simpelt eksempel på, at
inddragning af mere information kan forbedre beskrivelsen
af en responsvariabel.
Et opløsningmiddels evne til at udskille et stof
(
eluering)
måles i artiklen
An empirical relationship between the eluant strength parameter and solvent Lewis acidity and basicity
ved
Snyder's eluotropic solvent strength (
ess).
I artiklen argumenteres der for, at viden om
complementary solvent parameters kan bruges til at
prediktere opløsningsevnen, specifikt betragtes de to mål
Lewis acidity og basicity.
I artiklen gives der data for 28 opløsningsmidler.
Figuren nedenfor viser opløsningsevnen afsat mod henholdsvis
acidity og
basicity.
Vi ser i det venstre delplot en tydelig sammenhæng
mellem de to variable. I det højre delplot ser vi også
en sammenhæng, men med mere variation omkring linjen.
Hvis vi skulle vælge at beskrive oppløsningsevnen med enten
acidity eller
basicity, ville vi bruge
acidity, men spørgsmålet er, om vi kan forbedre beskrivelsen
ved at inddrage
basicity samtidigt med
acidity.
Jeg har i det venstre delplot farvelagt de punkter, der ligger
længst væk fra regressionslinjen, og overført farven til det højre delplot.
Vi kan se, at en del af de farvede punkter er kommet tæt
på regressionslinjen i det højre delplot. Dette tyder på, at
det er muligt at forbedre beskrivelsen ved at inddrage begge de forklarende
variable
acidity og
basicity.
Modelklassen til at inddrage denne form for sammenhæng er
multipel regression.
Den multiple regressionsmodel beskrives i afsnit
9.1.
Her omtales også
backward selektion, som er en strategi for,
hvordan man kan reducere modellen til kun at indeholde de
relevante variable. Eksemplet med opøsningsmidler analyseres i afsnit
9.2.
Den resterende del af kapitel 9 handler om den multiple regressionsmodel
i situationen, hvor der er et meget stort antal forklarende variable,
der kan bruges til at beskrive respons. Mange målemetoder indført
i "computeralderen"
måler simultant et stort antal værdier knyttet til den
samme prøve. Et eksempel, som bruges i afsnit
9.3, er et
near-infrared spektrum,
hvor reflektionen af lys måles simultant ved et
stort antal bølgelængder. Andre eksempler er målinger fra
en gaskromatograf eller fra et massespektrometer.
I de ovennævnte sammenhænge kan man ikke bruge backward selektionsmetoden
fra afsnit
9.1, og i stedet indføres i
afsnit
9.4 en anden strategi kaldet
forward selektion.
Denne strategi giver ikke et brugbart skøn over spredningen omkring
regressionsmodellen, og i afsnit
9.3 indføres
cross-validation til at afhjælpe dette.
Forward selektionsmetoden giver typisk kun et lille antal variable
til beskrivelse af respons. En alternativ tilgang består i at
holde fast i alle de forklarende variable, men lægge begrænsning
på, hvor meget hver enkelt variabel kan bidrage til beskrivelsen.
I afsnittene
9.5 og
9.6
beskrives en sådan metode kaldet
ridge regression.
ForegåendeNæste