Afsnit 5.1: Model for lineær regression

Jeg vil nu formulere den statistiske model, der er emnet for dette kapitel. Udgangspunktet er, at vi har uafhængige par af observationer og ønsker at sige noget om, hvordan afhænger af Med denne formulering tænker jeg på som responsvariabel og på som den forklarende variabel.
Eksempel 5.1.1. (Forurening i vandprøver)
Måling af mængden af E.coli bakterier i vandprøver bruges som mål for forureningsgraden af prøven. Målemetoden er langsom, og man er derfor interesseret i alternative målemetoder. Data i dette eksempel vedrører brugen af GLUase-aktivitet som et alternativ. Data er aflæst fra figur i artiklen Rapid enzymatic detection of Escherichia coli contamination in polluted river water og består af 98 sammenhørende værdier af variablene logColi og logGlu med henholdsvis logaritmen til mængden af E.coli (logaritmen til cfu E.coli per 100ml) og logaritmen til GLUase aktiviteten (logaritmen til nM MUF per minut). Data er fra vandprøver fra forskellige Østrigske floder indsamlet gennem 1998 og 1999. Følgende figur viser logGlu afsat mod logColi.

Figur med logGlu afsat mod logColi

Se opstartskoden (til/fra)

Som et første kig på data vil man typisk lave en figur, hvor respons afsættes mod den forklarende værdi det vil sige, at -værdierne er ud ad førsteaksen og -værdierne op ad andenaksen i figuren.
Man tænker på værdierne af den forklarende variabel som faste, og værdierne af responsvariablen som udfald af de stokastiske variable Den sammenhæng, vi vil formulere, vedrører middelværdien af respons som funktion af den forklarende variabel. Vi betragter udelukkende en lineær sammenhæng givet som
Her er hældningen i den lineære sammenhæng: en stigning på 1 i medfører en stigning på i middelværdien, og er skæringen med andenaksen. Udover middelværdispecifikationen forlanger vi, at alle de stokastiske variable har samme varians, og endelig antages, at respons er normalfordelt.
Statistisk Model 5.1.2. (Den lineære regressionsmodel)
I den lineære regresisonsmodel har vi faste tal og uafhængige stokastiske variable med
Vores mål er at lave inferens om parametrene i modellen. Nedenfor finder jeg skøn over parametrene og laver -test for parametrene i middelværdispecifikationen.
Jeg bruger i denne bog betegnelserne forklarende variabel og responsvariabel. Man kan også støde på betegnelserne uafhængig variabel og afhængig variabel, som på engelsk er independent og dependent variable.
ForegåendeNæste