Afsnit 3.2: Estimation i den lineære regresionsmodel
For at lave skøn over og i modellen
opstiller vi
som i afsnit 2.3 likelihoodfunktionen og
maksimere denne.
Da de målinger antages uafhængige, er likelihoodfunktionen
produktet af tætheder,
For at finde maksimum af denne med hensyn til og
skal vi minimere
hvorfor dette kaldes mindste kvadraters metode (som
i afsnit 2.3).
Vi differentierer med hensyn til og
og sætter de afledede
lig med nul. Efter division med giver dette ligningerne
Isolerer vi i den første ligning får vi
, hvor og er gennemsnit.
Indsættes dette i den anden ligning fås
og løsningen til denne er
Da imidlertid og ,
kan vi skrive på følgende mere symmetriske måde
At det fundne punkt er et minimumspunkt for
følger af, at går mod uendelig, når
og går mod uendelig.
Som vist i det skjulte punkt ovenfor er skøn over hældning
og skæring givet ved
hvor de to gennemsnit er og
Det vil være bekvemt at bruge følgende
notation
hvor SSD står for Sum of Squared Deviations.
Værdien kaldes den 'te
forventede værdi (middelværdien med parameterskøn indsat),
og
kaldes det 'te residual.Indsættes og i
og maksimeres med hensyn til fås
Ligesom i
afsnit 2.3
ændrer vi divisor her og bruger skønnet givet ved
På denne måde opnås, at betragtet som en stokastisk
variabel, har middelværdi (dette omtales ofte
som, at variansskønnet er
unbiased). Nedre indeks "r" står for regression.I Eksempel 3.2.2 nedenfor laves en figur med data fra
Eksempel 3.1.1, med den estimerede linje indtegnet og
med to parallelle linjer i afstanden For at kunne bruge skønnene til at lave inferens om parametrene
skal vi kende fordelingen af de tilhørende stokastiske variable.
Resultat 3.2.1.
(Fordeling af skøn i lineær regressionsmodel)
I modellen
uafhængige, gælder der, at
og er uafhængig af
Jeg vil her kort forklare det første resultat, da det peger frem mod et
generelt resultat i næste kapitel. Fra (3.2.1) kan vi skrive
Her er -erne faste tal (ikke-stokastiske), og vi betragter altså
en linearkombination af uafhængige normalfordelte variable. Fra
regnereglerne i afsnit 2.1
gælder der således, at er normalfordelt. Vi
skal nu blot eftervise, at middelværdi og varians er som angivet i
Resultat 3.2.1. Dette følger af, at
og
Fordelingen for findes på helt tilsvarende vis. For
gælder der, at
og man kan matematisk vise, at når vi indsætter
og mister
vi to frihedgrader (der estimeres to parametre), så
Jeg vil her kort indikere, at og er
uafhængige. Den simultane tæthed for er på formen
Idet vi antager, at alle -erne ikke er ens, kan vi uden tab af
generalitet sige, at .
Jeg vil transformere til
med det
'te residual. Jeg vil vise at
og er uafhængige, og at er en funktion af
Da transformationen er lineær i
afhænger jakobianten i den transformerede tæthed
ikke af data, og har dermed ikke betydning for argumentet om
uafhængighed. For at vise uafhængigheden skal jeg vise, at
kan skrives som en sum, hvor det ene led kun afhænger af
og det andet led kun af . Først skriver jeg
hvor jeg i det sidste lighedstegn har brugt og
som er ligningerne, der bruges til at finde
og i det skjulte punkt ovenfor. De samme to
ligninger kan også bruges til at indse, at og kan skrives
som en lineær funktion af og .
Således har vi, at det første led i summen ovenfor kun afhænger af
og vi har etableret uafhængigheden. Da
, overføres uafhængigheden til
uafhængighed mellem og .
3.2.1 Modelkontrol
For at vurdere, om den lineære sammenhæng giver en god beskrivelse
af data, laver man ofte et residualplot.
I denne figur afsættes residualerne mod de forklarende værdier
Man kigger efter to ting. For det første om der er systematiske
afvigelser fra nullinjen, altså om der er områder, hvor de fleste af
residualerne enten ligger over eller ligger under nullinjen.
Dette vil være et udtryk for, at sammenhængen er mere kompliceret
end blot en lineær sammenhæng.
For det andet kigger man efter, om der er områder, hvor residualerne
spreder sig mere end i andre områder. Dette vil pege mod, at antagelsen
om den samme varians på alle observationerne ikke
er korrekt. Man kan også lave et qqplot af residualerne
for at vurdere, om normalfordelingsantagelsen er rimelig.
Eksempel 3.2.2.
(Forurening i vandprøver)
Vi fortsætter med data fra Eksempel 3.1.1. Data beskrives
med modellen
Fra formlerne ovenfor fås og
Først laver vi en figur med regressionslinjen indtegnet
og to parallelle linjer i afstanden
Resiudalplottet tyder hverken på systematiske afvigelser fra en lineær
sammenhæng eller på områder med forskellig varians. QQplottet af
residualerne giver ikke anledning til bekymring med hensyn til
normalfordelingsantagelsen.