Kapitel 7: Lineær regression

Mange undersøgelser går ud på at beskrive en sammenhæng mellem to variable, og i dette kapitel skal vi se på den (simple) lineære regressionsmodel til dette. Modellen indføres i afsnit 7.1 og analyseres i afsnit 7.2.
En sammenhæng kan være kausal forstået på den måde, at værdien af den ene variabel er årsag til værdien af den anden variabel. Dette kan illustreres med en fysisk lov som for eksempel Lambert-Beers lov. Denne siger, at mængden af lys, der absorberes ved passage af en glasbeholder med en opløsning af et bestemt stof, er proportional med koncentrationen af stoffet i opløsningen. Når man siger, at rygning øger risikoen for lungekræft, er der også tale om kausalitet, dog vedrører det kausale forhold ikke en større eller mindre grad af lungekræft hos den enkelte person, men sandsynligheden for at få lungekræft i en population.
En helt anden type sammenhæng er, når vi siger, at jo højere man er, jo mere vejer man. For det første kan man jo ikke ændre på højden af en person, så i udsagnet ligger der implicit, at det er forskellige personer der sammenlignes. For det andet er sammenhængen ikke kausal, selvom en person er 5 centimeter højere end en anden person, er det langt fra givet, at den højeste person vejer mest. Man taler i stedet for om en biologisk samvariation af de to variable højde og vægt og siger, at de to variable er korrelerede. Sammenhængen består i, at hvis vi ser på middelvægten for alle af en bestemt højde, så vil denne vokse med højden. Alt efter hvilke sammenhænge der betragtes, kan variationen omkring den linære sammenhæng være større eller mindre med en tilsvarende mindre eller større mulighed for at sige noget om den ene variabel ud fra den anden.
Når man kigger efter, om de to variable er korrelerede, skal man passe på, at det ikke er en falsk sammenhæng, man betragter (spurious correlation). Selvom to variable ikke har noget med hinanden at gøre, så kan de begge have en sammenhæng med en tredje variabel, og det er variationen i denne, der gør, at man ser en tilsyneladende sammenhæng i de to andre variable. Figuren nedenfor viser et eksempel med antallet af indbyggere i Oldenburg i perioden 1930-1936 og antallet af storke, med data aflæst fra figur i Statistics for Experimenters: Design, Innovation, and Discovery, (oprindelsen af data kan findes samme sted). Maleriet, der er tilføjet til venstre i følgende figur, er "Der Klapperstorch" af Carl Spitzweg.
Moralen er, at man skal passe på med at kigge "i blinde" efter sammenhænge. En sammenhæng skal helst være underbygget af en videnskabelig forståelse af emneområdet.
En lineær sammenhæng beskrives ved to parametre, nemlig hældning og skæring. Test og konfidensintervaller for disse parametre beskrives i afsnit 7.3, og brug af den estimerede linje til prædiktion og kalibrering omtales i afsnit 7.5. Analyse af data foretages i python via funktionen ols, der beskrives i afsnit 7.4, samt via funktionen predict, der omtales i afsnit 7.5.
ForegåendeNæste