Afsnit 3.2: Estimation i den lineære regresionsmodel

For at lave skøn over $\alpha,$ $\beta$ og $\sigma^2$ i modellen $M_0:\enspace X_i\sim N(\alpha+\beta t_i,\sigma^2),$ $i=1,\ldots,n,$ opstiller vi som i afsnit 2.3 likelihoodfunktionen og maksimere denne. Da de $n$ målinger antages uafhængige, er likelihoodfunktionen produktet af tætheder,

$L(\alpha,\beta,\sigma^2)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{1}{2\sigma^2}(x_i-\alpha-\beta t_i)^2} = \frac{1}{\sqrt{2\pi\sigma^2}^n} e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i-\alpha-\beta t_i)^2}.$ For at finde maksimum af denne med hensyn til $\alpha$ og $\beta$ skal vi minimere

$\mathit{SSD}(\alpha,\beta)=\sum_{i=1}^n \big(x_i-\alpha-\beta t_i\big)^2,$ hvorfor dette kaldes mindste kvadraters metode (som i afsnit 2.3).

Udledning af estimater

Vi differentierer $\mathit{SSD}(\alpha,\beta)$ med hensyn til $\alpha$ og $\beta$ og sætter de afledede lig med nul. Efter division med $-2$ giver dette ligningerne

$\sum_{i=1}^n \big(x_i-\hat\alpha-\hat\beta t_i\big)=0\enspace\text{og}\enspace \sum_{i=1}^n t_i\big(x_i-\hat\alpha-\hat\beta t_i\big)=0.$ Isolerer vi $\hat\alpha$ i den første ligning får vi $\hat\alpha=\bar x-\hat\beta\bar t$ , hvor $\bar x$ og $\bar t$ er gennemsnit. Indsættes dette i den anden ligning fås

$\sum_{i=1}^n t_i\big(x_i-\bar x-\hat\beta (t_i-\bar t)\big)=0,$ og løsningen til denne er

$\hat\beta=\frac{\sum_{i=1}^nt_i(x_i-\bar x)} {\sum_{i=1}^nt_i(t_i-\bar t)}.$ Da imidlertid $\sum_i \bar t(x_i-\bar x)=0$ og $\sum_i \bar t(t_i-\bar t)=0$ , kan vi skrive $\hat \beta$ på følgende mere symmetriske måde

$\hat\beta=\frac{\sum_{i=1}^n(x_i-\bar x)(t_i-\bar t)} {\sum_{i=1}^n(t_i-\bar t)^2}.$ At det fundne punkt er et minimumspunkt for $\mathit{SSD}(\alpha,\beta)$ følger af, at $\mathit{SSD}(\alpha,\beta)$ går mod uendelig, når $\alpha$ og $\beta$ går mod uendelig.

Som vist i det skjulte punkt ovenfor er skøn over hældning $\beta$ og skæring $\alpha$ givet ved

$\hat\beta=\frac{\sum_{i=1}^n(x_i-\bar x)(t_i-\bar t)} {\sum_{i=1}^n(t_i-\bar t)^2},\qquad \hat\alpha=\bar x-\hat\beta\bar t, \tag{3.2.1}$ hvor de to gennemsnit er $\bar t=\sum_it_i/n$ og $\bar x=\sum_ix_i/n.$ Det vil være bekvemt at bruge følgende notation

$\mathit{SSD}_t=\sum_{i=1}^n (t_i-\bar t)^2\quad \text{og}\quad \mathit{SSD}(M_0)=\sum_{i=1}^n \big(x_i-(\hat\alpha+\hat\beta t_i)\big)^2,$ hvor SSD står for Sum of Squared Deviations. Værdien $\hat\xi_i=\hat\alpha+\hat\beta t_i$ kaldes den $i$ 'te forventede værdi (middelværdien med parameterskøn indsat), og

$r_i=x_i-\hat\xi_i$ kaldes det $i$ 'te residual.

Indsættes $\hat\alpha$ og $\hat\beta$ i $L(\alpha,\beta,\sigma^2),$ og maksimeres med hensyn til $\sigma^2,$ fås $\hat\sigma^2=\frac{1}{n}\mathit{SSD}(M_0).$ Ligesom i afsnit 2.3 ændrer vi divisor her og bruger skønnet $s_r^2$ givet ved

$s_r^2=\frac{\mathit{SSD}(M_0)}{\mathit{df}(M_0)},\quad \mathit{df}(M_0)=n-2.$ På denne måde opnås, at $s_r^2,$ betragtet som en stokastisk variabel, har middelværdi $\sigma^2$ (dette omtales ofte som, at variansskønnet er unbiased). Nedre indeks "r" står for regression.

I Eksempel 3.2.2 nedenfor laves en figur med data fra Eksempel 3.1.1, med den estimerede linje indtegnet og med to parallelle linjer i afstanden $\pm 2s_r.$

For at kunne bruge skønnene til at lave inferens om parametrene skal vi kende fordelingen af de tilhørende stokastiske variable.

Resultat 3.2.1. (Fordeling af skøn i lineær regressionsmodel)

I modellen $M_0:\enspace X_i\sim N(\alpha+\beta t_i,\sigma^2),$ $i=1,\ldots,n,$ uafhængige, gælder der, at

$\hat\beta\sim N\Big(\beta,\frac{\sigma^2}{\mathit{SSD}_t}\Big),\quad \hat\alpha\sim N\Big(\alpha,\sigma^2\Big( \frac{1}{n}+\frac{\bar t^2}{\mathit{SSD}_t}\Big)\Big),\quad s_r^2\sim \sigma^2\chi^2(n-2)/(n-2),$ og $s_r^2$ er uafhængig af $(\hat\alpha,\hat\beta).$

Jeg vil her kort forklare det første resultat, da det peger frem mod et generelt resultat i næste kapitel. Fra (3.2.1) kan vi skrive

$\hat\beta=\frac{\sum_{i=1}^n(X_i-\bar X)(t_i-\bar t)} {\mathit{SSD}_t}= \frac{\sum_{i=1}^n X_i(t_i-\bar t)} {\mathit{SSD}_t}=\sum_{i=1}^n X_i a_i,\quad a_i=\frac{t_i-\bar t}{\mathit{SSD}_t}.$ Her er $a_i$ -erne faste tal (ikke-stokastiske), og vi betragter altså en linearkombination af uafhængige normalfordelte variable. Fra regnereglerne i afsnit 2.1 gælder der således, at $\hat\beta$ er normalfordelt. Vi skal nu blot eftervise, at middelværdi og varians er som angivet i Resultat 3.2.1. Dette følger af, at

$\begin{aligned} E\big(\hat\beta\big)&=\sum_i(\alpha+\beta t_i)a_i= \sum_i(\alpha+\beta t_i)\frac{t_i-\bar t}{\mathit{SSD}_t}= 0+\beta\sum_i t_i\frac{t_i-\bar t}{\mathit{SSD}_t} \\ &= \beta\sum_i (t_i-\bar t)\frac{t_i-\bar t}{\mathit{SSD}_t} =\beta, \end{aligned}$ og

$\begin{aligned} \text{Var}\big(\hat\beta\big)=\sigma^2 \sum_i a_i^2 =\sigma^2\sum_i \frac{(t_i-\bar t)^2}{\mathit{SSD}_t^2} =\sigma^2\frac{\mathit{SSD}_t}{\mathit{SSD}_t^2} =\frac{\sigma^2}{\mathit{SSD}_t}. \end{aligned}$ Fordelingen for $\hat\alpha$ findes på helt tilsvarende vis. For $s^2$ gælder der, at $\sum_i\big(x_i-(\alpha+\beta t_i)\big)^2\sim\sigma^2\chi^2(n),$ og man kan matematisk vise, at når vi indsætter $\hat\alpha$ og $\hat\beta,$ mister vi to frihedgrader (der estimeres to parametre), så $\sum_i(x_i-(\hat\alpha+\hat\beta t_i))^2\sim\sigma^2\chi^2(n-2).$

Uafhængighed

Jeg vil her kort indikere, at $(\hat\alpha,\hat\beta)$ og $s_r^2$ er uafhængige. Den simultane tæthed for $X_1,\ldots,X_n$ er på formen $(2\pi\sigma^2)^{-n/2}\exp(-\mathit{SSD}(\alpha,\beta)/(2\sigma^2)).$ Idet vi antager, at alle $t_i$ -erne ikke er ens, kan vi uden tab af generalitet sige, at $t_1\neq t_2$ . Jeg vil transformere $X_1,\ldots,X_n$ til $\hat\alpha,\hat\beta,R_3,\ldots,R_n$ med $R_i=X_i-\hat\alpha-\hat\beta t_i$ det $i$ 'te residual. Jeg vil vise at $(\hat\alpha,\hat\beta)$ og $(R_3,\ldots,R_n)$ er uafhængige, og at $s^2_r$ er en funktion af $(R_3,\ldots,R_n).$ Da transformationen er lineær i $X_1,\ldots,X_n,$ afhænger jakobianten i den transformerede tæthed ikke af data, og har dermed ikke betydning for argumentet om uafhængighed.

For at vise uafhængigheden skal jeg vise, at $\mathit{SSD}(\alpha,\beta)$ kan skrives som en sum, hvor det ene led kun afhænger af $(R_3,\ldots,R_n)$ og det andet led kun af $(\hat\alpha,\hat\beta)$ . Først skriver jeg

$\begin{aligned} \mathit{SSD}(\alpha,\beta)&=\sum_{i=1}^n (X_i-\alpha-\beta t_i)^2= \sum_{i=1}^n (R_i+(\hat\alpha-\alpha)+(\hat\beta-\beta) t_i)^2 \\ &= \sum_{i=1}^n R_i^2+\sum_{i=1}^n ((\hat\alpha-\alpha)+(\hat\beta-\beta) t_i)^2, \end{aligned}$ hvor jeg i det sidste lighedstegn har brugt $\sum_iR_i=0$ og $\sum_i t_iR_i=0,$ som er ligningerne, der bruges til at finde $\hat\alpha$ og $\hat\beta$ i det skjulte punkt ovenfor. De samme to ligninger kan også bruges til at indse, at $R_1$ og $R_2$ kan skrives som en lineær funktion af $\sum_{i=3}^nR_i$ og $\sum_{i=3}^nt_iR_i$ . Således har vi, at det første led i summen ovenfor kun afhænger af $(R_3,\ldots,R_n),$ og vi har etableret uafhængigheden. Da $s^2_r=\sum_{i=1}^nR_i^2/(n-2)$ , overføres uafhængigheden til uafhængighed mellem $(\hat\alpha,\hat\beta)$ og $s_r^2$ .

3.2.1 Modelkontrol

For at vurdere, om den lineære sammenhæng giver en god beskrivelse af data, laver man ofte et residualplot. I denne figur afsættes residualerne $r_i$ mod de forklarende værdier $t_i.$ Man kigger efter to ting. For det første om der er systematiske afvigelser fra nullinjen, altså om der er områder, hvor de fleste af residualerne enten ligger over eller ligger under nullinjen. Dette vil være et udtryk for, at sammenhængen er mere kompliceret end blot en lineær sammenhæng. For det andet kigger man efter, om der er områder, hvor residualerne spreder sig mere end i andre områder. Dette vil pege mod, at antagelsen om den samme varians $\sigma^2$ på alle observationerne ikke er korrekt. Man kan også lave et qqplot af residualerne $r_1,\ldots,r_n$ for at vurdere, om normalfordelingsantagelsen er rimelig.

Eksempel 3.2.2. (Forurening i vandprøver)

Vi fortsætter med data fra Eksempel 3.1.1. Data beskrives med modellen

$\text{LogGlu}_i\sim N(\alpha+\beta\cdot\text{logColi}_i,\sigma^2),\enspace i=1,\ldots,98,\enspace (\alpha,\beta,\sigma)\in \mathbf{R}^2\times\mathbf{R}_+.$ Fra formlerne ovenfor fås $\hat\beta=0.8494,$ $\hat\alpha=-3.8872$ og $s_r=0.3094.$ Først laver vi en figur med regressionslinjen indtegnet og to parallelle linjer i afstanden $\pm 2s_r.$

Figur med logGlu afsat mod logColi

Se opstartskoden (til/fra)

Hvor mange punkter forventer du ligger udenfor båndene givet ved de stribede linjer ?

Svar: Punkter udenfor

I en normalfordeling $N(\mu,\sigma^2)$ er der cirka 5 procents sandsynlighed for at ligge udenfor $\mu\pm 2\sigma.$ Jeg forventer derfor cirka $0.05\cdot 98=4.9$ punkter udenfor.

Dernæst laver vi en figur med residualplot og en figur med qqplot af residualerne.

Figur med residualplot

Resiudalplottet tyder hverken på systematiske afvigelser fra en lineær sammenhæng eller på områder med forskellig varians. QQplottet af residualerne giver ikke anledning til bekymring med hensyn til normalfordelingsantagelsen.

Foregående Næste