Kapitel 7: Multipel regression

I indledningen til kapitel 5 viste jeg en figur, hvor indbyggerantal voksede med antallet af storkepar. Jeg omtalte det i kapitel 5 som spurious correlation. Man kan også udtrykke det på den måde, at det er vigtigt i en analyse af data at have inkluderet alle de relevante variable. Lad mig vise dette med et mere realistisk eksempel end eksemplet med storkepar. Datasættet swiss i R indeholder data omkring fertilitet i 47 kommuner i den fransktalende del af Sweitz fra omkring 1888 (oprindelige kilde til data kan ses ved at følge ovenstående link). Hvis man afsætter fertiliteten mod procentdelen af befolkningen, der er beskæftiget i landbruget (agriculture), ses en positiv sammenhæng med en regressionskoefficient på 0.19 (-værdi for at teste regressionskoefficienten lig med nul er 0.015). Afbildes i stedet fertiliteten mod procentdelen af befolkningen med en uddannelse (education), viser figuren en negativ sammenhæng. De to situationer er vist i de øverste delplots i figuren nedenfor. Laver vi en model, der tager hensyn til begge variable, en såkaldt multipel regressionsmodel som bliver indført i afsnit 7.3, viser det sig, at regressionskoefficienten hørende til agriculture nu er -0.07 (-værdi for at teste regressionskoefficienten lig med nul er 0.41). At vi kan gå fra en regressionskoefficient på 0.19 til -0.07 skyldes en stærk korrelation mellem agriculture og education, som vist i det nedre venstre delplot. Når vi tager hensyn til både education og agriculture, kan man tale om afhængigheden af agriculture for fastholdt værdi af education. For at illustrere dette har jeg udvalgt data med en værdi af education mellem 4 og 8 og lavet regression af fertilitetagriculture for de udvalgte data. De udvalgte data er vist med rødt i det nedre venstre delplot, og den tilhørende regressionslinje er vist i det nedre højre delplot. Det ses tydeligt i figuren, at afhængigheden af agriculture er anderledes når education holdes fast.
For 130 år siden havde folk i landbruget ikke nogen særlig uddannelse, og det er derfor naturligt, at en høj procentdel af uddannede peger på en lav procentdel inden for landbruget. Da der også har været en tendens til at uddannede får færre børn, må der være en sammenhæng mellem procentdel uddannede og fertiliteten. Når analysen tager hensyn til dette, kan vi ikke længere se en effekt af andelen, der arbejder i landbruget.
I dette kapitel ser jeg på to måder til at inddrage ekstra viden i en regressionssituation. Først ser jeg på situationen med en kategorisk variabel (en faktor), der inddeler data i undergrupper. For at undersøge indflydelsen af denne variabel ser vi på modellen, hvor hver gruppe har sin egen lineære sammenhæng mellem middelværdi af respons og den forklarende variabel i regressionsmodellen. Modellen indføres i afsnit 7.1, og et eksempel analyseres i afsnit 7.2. Dernæst ser jeg på situationen med flere forklarende variable, der kan bruges til beskrivelse af respons, som i fertilitetseksemplet ovenfor. Modellen indføres i afsnit 7.3, og i afsnit 7.4 diskuterer jeg, hvordan man kan vælge en delmængde af de forklarende variable til at danne en slutmodel for data.
Den sidste del af kapitel 7 handler også om den multiple regressionsmodel, i situationen hvor der er et meget stort antal forklarende variable, der kan bruges til at beskrive respons. Mange målemetoder indført gennem de sidste 30-50 år måler simultant et stort antal værdier knyttet til den samme prøve. Et eksempel, som bruges i 7.5, er et near-infrared spektrum, hvor reflektionen af lys måles simultant ved et stort antal bølgelængder. Et andet eksempel er microarray målinger, hvor aktivitetsniveauet måles simultant for et stort antal gener i en celleprøve. Et tredje stort område er scanningsbilleder i diagnostiske medicinske sammenhænge. Vi skal kun berøre et lille hjørne af dette emne, nemlig hvordan man kan undgå "overfitting" ved at bruge crossvalidation til at vurdere, hvor godt modellen beskriver data. Dette beskrives i afsnit 7.6. Jeg har lavet nogle programmer i R, der gør det nemt for jer at "lege" med disse ting. Programmerne beskrives i 7.7.
ForegåendeNæste