Afsnit 7.1: Model for lineær regression
Jeg vil nu formulere den statistiske model, der er emnet for
dette kapitel. Udgangspunktet er, at vi har
uafhængige par
af observationer
og ønsker at sige
noget om, hvordan
afhænger af
Med denne formulering tænker
jeg på
som
responsvariabel og på
som den
forklarende variabel.
Eksempel 7.1.1.
(Forurening i vandprøver)
Måling af mængden af
E.coli
bakterier i vandprøver bruges som mål
for forureningsgraden af prøven. Målemetoden er langsom, og man er
derfor interesseret i alternative målemetoder. Data i dette eksempel
vedrører brugen af GLUase-aktivitet som et alternativ.
Data er aflæst fra figur i artiklen
Rapid enzymatic detection of Escherichia coli contamination in polluted river water
og består af 98 sammenhørende værdier af
variablene
tColi og
xGlu med henholdsvis
logaritmen til mængden af E.coli
(logaritmen til cfu E.coli per 100ml) og
logaritmen til GLUase aktiviteten (logaritmen til nM MUF per minut).
Ideen i artiklen er, at GLUase-aktivitet fortrinsvis afstedkommes af
mængden af E.coli-bakterier (
xGlu er responsvariabel og
tColi er forklarende variabel).
Data er fra vandprøver fra forskellige østrigske floder indsamlet gennem
1998 og 1999.
Følgende figur viser
xGlu afsat mod
tColi.
Figur med xGlu afsat mod tColi
Som et første kig på data vil man typisk lave en figur, hvor respons
afsættes mod den forklarende værdi
det vil sige, at
-værdierne
er ud ad
førsteaksen og
-værdierne op ad andenaksen i figuren.
Man tænker på værdierne
af den forklarende variabel som faste,
og værdierne
af responsvariablen som udfald af de
stokastiske variable
Den sammenhæng, vi vil
formulere, vedrører middelværdien af respons som funktion af den
forklarende variabel. Vi betragter udelukkende en lineær sammenhæng
givet som
Her er
hældningen i den lineære sammenhæng: en stigning på 1 i
medfører en stigning på
i middelværdien, og
er
skæringen med andenaksen.
Udover middelværdispecifikationen forlanger vi, at
alle de stokastiske variable har samme varians,
og endelig
antages, at respons er normalfordelt.
Statistisk Model 7.1.2.
(Den lineære regressionsmodel)
I den lineære regresisonsmodel har vi
faste tal
og
uafhængige stokastiske variable
med
Vores mål er at lave inferens om parametrene i modellen. I de næste
to afsnit finder jeg
skøn over parametrene og laver
-test for parametrene i
middelværdispecifikationen.
Jeg bruger i denne bog betegnelserne
forklarende variabel
og
responsvariabel. Man kan også støde på betegnelserne
uafhængig variabel og
afhængig variabel, som på
engelsk er
independent og
dependent variable.
ForegåendeNæste