Mange undersøgelser går ud på at beskrive en sammenhæng mellem to
variable, og i dette kapitel skal vi se på den (simple) lineære
regressionsmodel til dette. Modellen indføres i afsnit
7.1 og analyseres i afsnit
7.2.
En sammenhæng kan være
kausal forstået på den måde, at værdien
af den ene variabel er årsag til værdien af den anden variabel.
Dette kan illustreres med en fysisk lov som for eksempel Lambert-Beers lov.
Denne siger, at mængden af lys, der absorberes ved passage af en glasbeholder
med en opløsning af et bestemt stof, er proportional med
koncentrationen af stoffet i opløsningen.
Når man siger, at rygning øger risikoen for lungekræft, er der også
tale om kausalitet, dog vedrører det kausale forhold ikke en større
eller mindre grad af lungekræft hos den enkelte person, men
sandsynligheden for at få lungekræft i en population.
En helt anden type sammenhæng er, når vi siger, at jo højere man er,
jo mere vejer man. For det første kan man jo ikke ændre på højden af en
person, så i udsagnet ligger der implicit, at det er
forskellige personer der sammenlignes.
For det andet er sammenhængen ikke kausal,
selvom en person er 5 centimeter højere end en anden person, er
det langt fra givet, at den højeste person vejer mest. Man taler i stedet
for om en biologisk samvariation af de to variable højde og vægt
og siger, at de to variable er korrelerede. Sammenhængen består i,
at hvis vi ser på middelvægten for alle af en bestemt højde, så vil
denne vokse med højden. Alt efter hvilke sammenhænge der betragtes,
kan variationen omkring den linære sammenhæng
være større eller mindre med en tilsvarende mindre eller større
mulighed for at sige
noget om den ene variabel ud fra den anden.
Når man kigger efter, om de to variable er korrelerede, skal man
passe på, at det ikke er en falsk sammenhæng, man betragter
(spurious correlation). Selvom to variable ikke har noget med hinanden
at gøre, så kan de begge have en sammenhæng med en tredje
variabel, og det er variationen i denne, der gør, at man ser en
tilsyneladende sammenhæng i de to andre variable.
Figuren nedenfor viser et eksempel med antallet af indbyggere i Oldenburg
i perioden 1930-1936 og antallet af storke, med
data aflæst fra figur i
Statistics for Experimenters: Design, Innovation, and Discovery,
(oprindelsen af data kan findes samme sted).
Maleriet, der er tilføjet til venstre i følgende figur,
er "Der Klapperstorch" af
Carl Spitzweg.
Moralen er, at man skal passe på med at kigge "i blinde" efter sammenhænge.
En sammenhæng skal helst være underbygget af en videnskabelig
forståelse af emneområdet.
En lineær sammenhæng beskrives ved to parametre, nemlig hældning og skæring.
Test og konfidensintervaller for disse parametre beskrives i afsnit
7.3, og brug af den estimerede linje til prædiktion og kalibrering
omtales i afsnit
7.5.
Analyse af data foretages i
python
via funktionen
ols, der beskrives i afsnit
7.4,
samt via funktionen
predict, der omtales i afsnit
7.5.
ForegåendeNæste