Afsnit 7.2: Estimation

For nemt at kunne henvise til regressionsodellen i Statistisk Model 7.1.2 betegner jeg den her med . Modellen siger og for at lave skøn over parametrene og opstiller vi som i afsnit 4.3 likelihoodfunktionen og maksimerer denne. Da de målinger antages uafhængige, er likelihoodfunktionen produktet af tætheder,
For at finde maksimum af denne med hensyn til og skal vi minimere
hvorfor dette kaldes mindste kvadraters metode (som i afsnit 4.3). Vi differentierer med hensyn til og og sætter de afledede lig med nul. Løsningen til de to ligninger er
hvor de to gennemsnit er og Det vil være bekvemt at bruge følgende notation
hvor SSD står for Sum of Squared Deviations. Værdien kaldes den 'te forventede værdi (middelværdien med parameterskøn indsat), og
kaldes det 'te residual.
Indsættes og i og maksimeres med hensyn til fås Ligesom i afsnit 4.3 ændrer vi divisor her og bruger skønnet givet ved
På denne måde opnås, at betragtet som en stokastisk variabel, har middelværdi (dette omtales ofte som, at variansskønnet er unbiased). Nedre indeks "r" står for regression.
I Eksempel 7.2.2 nedenfor laves en figur med data fra Eksempel 7.1.1, med den estimerede linje indtegnet og med to parallelle linjer i afstanden
For at kunne bruge skønnene til at lave inferens om parametrene skal vi kende fordelingen af de tilhørende stokastiske variable.
Resultat 7.2.1. (Fordeling af skøn i lineær regressionsmodel)
I regressionsmodellen uafhængige, gælder der, at
og er uafhængig af
Jeg vil her kort forklare det første resultat, da det peger frem mod et generelt resultat i næste kapitel. Fra (7.2.1) kan vi skrive
Her er -erne faste tal (ikke-stokastiske), og vi betragter altså en linearkombination af uafhængige normalfordelte variable. Fra regnereglerne i afsnit 4.1 gælder der således, at er normalfordelt. Vi skal nu blot eftervise, at middelværdi og varians er som angivet i Resultat 7.2.1. Dette følger af, at
og
Fordelingen for findes på helt tilsvarende vis. For gælder der, at og man kan matematisk vise, at når vi indsætter og mister vi to frihedgrader (der estimeres to parametre), så

7.2.1 Modelkontrol

For at vurdere, om den lineære sammenhæng giver en god beskrivelse af data, laver man ofte et residualplot. I denne figur afsættes residualerne mod de forklarende værdier Man kigger efter to ting. For det første om der er systematiske afvigelser fra nullinjen, altså om der er områder, hvor de fleste af residualerne enten ligger over eller ligger under nullinjen. Dette vil være et udtryk for, at sammenhængen er mere kompliceret end blot en lineær sammenhæng. For det andet kigger man efter, om der er områder, hvor residualerne spreder sig mere end i andre områder. Dette vil pege mod, at antagelsen om den samme varians på alle observationerne ikke er korrekt. Man kan også lave et qqplot af residualerne for at vurdere, om normalfordelingsantagelsen er rimelig.
Eksempel 7.2.2. (Forurening i vandprøver)
Vi fortsætter med data fra Eksempel 7.1.1, hvor xGlu er responsvariabel og tColi er forklarende variabel. Data beskrives med Statistisk Model 7.1.2,
Fra formlerne ovenfor fås og Først laver vi en figur med regressionslinjen indtegnet og to parallelle linjer i afstanden

Figur med linje indsat

Se opstartskoden (til/fra)

MATLAB-kode

Hvor mange punkter forventer du ligger udenfor båndene givet ved de stribede linjer?

Svar: Punkter udenfor

I en normalfordeling er der cirka 5 procents sandsynlighed for at ligge udenfor Jeg forventer derfor cirka punkter udenfor.

Dernæst laver vi en figur med residualplot og en figur med qqplot af residualerne.

Figur med residualplot

Se opstartskoden (til/fra)

MATLAB-kode

Residualplottet tyder hverken på systematiske afvigelser fra en lineær sammenhæng eller på områder med forskellig varians. QQplottet af residualerne giver ikke anledning til bekymring med hensyn til normalfordelingsantagelsen, selvom der måske er en svag tendens til "lette haler".

ForegåendeNæste