Afsnit 6.1: Den generelle lineære model via underrum

I har nu i de tidligere kapitler set forskellige eksempler på normalfordelingsmodeller specificeret gennem faktorer og regressionsvariable. Det har været en stor bekvemmelighed, at modellen kan angives gennem en modelformel. Dette giver en meget simpel og kompakt sprogbrug, der også gør det nemt at kommunikere med R, specielt med funktionen lm.

Det der karakteriserer modellerne, ud fra en matematisk synsvinkel, er, at vektoren af middelværdier kan variere frit i et lineært underrum af $\mathbf{R}^n,$ hvor $n$ er antallet af observationer. Lad $X_i\sim N(\xi_i,\sigma^2)$ , $i=1,\ldots,n,$ være uafhængige stokastiske variable, og lad $\boldsymbol{\xi}=(\xi_1,\ldots,\xi_n)^{\text{\tiny T}}$ . En lineær model siger, at $\boldsymbol{\xi}$ kan variere frit i et givet lineært underrum $L.$ I det næste skjulte punkt vises det relevante underrum for nogle af de modeller, vi har betragtet i de tidligere kapitler.

Kendte eksempler

To grupper

Vi starter med modellen, hvor vi har to grupper af normalfordelte variable med hver sin middelværdi $\mu_1$ og $\mu_2.$ Betragt en ordning, hvor de $n_1$ observationer fra gruppe 1 kommer først, og de $n_2$ observationer fra gruppe 2 kommer sidst. Betragt de to vektorer

$\mathbf{v}=(1,\ldots,1,0,\ldots,0)^{\text{\tiny T}} \quad\text{og}\quad \mathbf{w}=(0,\ldots,0,1,\ldots,1)^{\text{\tiny T}},$ og lad $\mathbf{H}$ være matricen med søjlerne $\mathbf{v}$ og $\mathbf{w},$ og lad $L$ være underrummet udspændt af de to vektorer. Så kan modellen skrives på formen $\boldsymbol{\xi}=\mu_1\mathbf{v}+\mu_2\mathbf{w}=\mathbf{H}\boldsymbol{\mu},$ hvor $\boldsymbol{\mu}$ er søjlevektoren med indgangene $\mu_1$ og $\mu_2$ , og kan også formuleres på den måde, at $\boldsymbol{\xi}$ kan variere frit i $L.$

Det er nemt at se, at $\mathbf{H}^{\text{\tiny T}}\mathbf{H}$ er diagonalmatricen med indgangene $n_1$ og $n_2$ , $\mathbf{H}^{\text{\tiny T}}\mathbf{x}$ er søjlevektoren med summen over gruppe 1 og summen over gruppe 2 som indgange, og derfor

$\hat{\boldsymbol{\mu}}= (\mathbf{H}^{\text{\tiny T}}\mathbf{H})^{-1} \mathbf{H}^{\text{\tiny T}}\mathbf{x}= \Big( \begin{array}{c} \bar x_1 \\ \bar x_2 \end{array} \Big),$ hvor $\bar x_1$ og $\bar x_2$ er gennemsnittene i de to grupper.

Simpel lineær regression

Vi betragter den lineære regressionsmodel med $X_i\sim N(\alpha+\beta t_i,\sigma^2)$ , $i=1,\ldots,n,$ med $t_1,\ldots,t_n$ kendte tal. Betragt de to vektorer

$\mathbf{e}=(1,\ldots,1)^{\text{\tiny T}} \quad\text{og}\quad \mathbf{t}=(t_1,\ldots,t_n)^{\text{\tiny T}},$ og lad $\mathbf{H}$ være matricen med søjlerne $\mathbf{e}$ og $\mathbf{t}$ , og lad $L$ være underrummet udspændt af de to vektorer. Så kan modellen skrives på formen $\boldsymbol{\xi}=\alpha\mathbf{e}+\beta\mathbf{t}= \mathbf{H}\Big( \begin{array}{c} \alpha \\ \beta \end{array} \Big),$ og kan også formuleres på den måde, at $\boldsymbol{\xi}$ kan variere frit i $L$ .

Hvis vi lader $\mathbf{v}=\mathbf{t}-\bar t\mathbf{e},$ så er $L$ også udspændt af $\mathbf{e}$ og $\mathbf{v}.$ Lad $\mathbf{K}$ være matricen med søjlerne $\mathbf{e}$ og $\mathbf{v}$ . Så viser en simpel beregning at

$(\mathbf{K}^{\text{\tiny T}}\mathbf{K})^{-1} \mathbf{K}^{\text{\tiny T}}\mathbf{x}= \Big( \begin{array}{c} \bar x \\ \hat\beta \end{array} \Big),$ med $\hat\beta$ givet i (3.2.1). Da

$\bar x\mathbf{e}+\hat\beta\mathbf{v}= (\bar x-\hat\beta\bar t)\mathbf{e}+\hat\beta \mathbf{t},$ ses at $\hat\alpha=\bar x-\hat\beta\bar t.$

One way anova

Vi betragter normalfordelingsmodellen med $X_i\sim N(\mu_{G_i},\sigma^2)$ , $i=1,\ldots,n,$ hvor $G$ er en faktor, der deler op i $k$ grupper. For hver gruppe $j=1,\ldots,k$ defineres en vektor $\mathbf{v}_j$ ved at den $i$ 'te indgang er 1, hvis $G_i=j$ , og nul ellers. Så kan vi skrive modellen på formen

$\boldsymbol{\xi}=\mu_1\mathbf{v}_1+\cdots + \mu_k\mathbf{v}_k=\mathbf{H}\boldsymbol{\mu},$ hvor $\mathbf{H}$ er matricen med søjlerne $\mathbf{v}_j$ , $j=1,\ldots,k,$ og $\boldsymbol{\mu}$ er søjlevektoren indeholdende $\mu_1,\ldots,\mu_k.$

Bemærk at $\mathbf{H}^{\text{\tiny T}}\mathbf{H}$ bliver en diagonalmatriks, hvoraf det let ses, at $\hat{\boldsymbol{\mu}}= (\mathbf{H}^{\text{\tiny T}}\mathbf{H})^{-1} \mathbf{H}^{\text{\tiny T}}\mathbf{x}$ giver, at $\hat\mu_j$ er gennemsnittet i den $j$ 'te gruppe.

Matricen $\mathbf{H}$ giver parametriseringen med $\mu_1,\ldots,\mu_k.$ Det samme middelværdirum kan imidlertid også udspændes af søjlevektorerne $\mathbf{e}$ , $\mathbf{v}_2$ , $\mathbf{v}_3,\ldots,\mathbf{v}_k$ , hvor $\mathbf{e}$ er vektoren med lutter 1-taller, som svarer til den parametrisering, der bruges i R med $\mu_1$ , $\mu_2-\mu_1,\ldots,\mu_k-\mu_1.$

I en generel lineær model kan middelværdien skrives som en sum af bidrag fra enten en faktor eller en regressionsvariabel. Vi har set i eksemplerne ovenfor, hvordan henholdsvis en faktor og en regressionsvariabel definerer et linært underrum. Når vi i en model betragter sum af bidrag, svarer dette til sum af de lineære underrum, og dette er i sig selv et nyt lineært underrum. Vi ender derfor med følgende generelle setup,

$\begin{aligned} & \mathbf{X}\sim N_n(\boldsymbol{\xi},\sigma^2\mathbf{I}) \\ & \text{Model }M_1:\enspace \boldsymbol{\xi}\in L_1, \\ & \text{Model }M_2:\enspace \boldsymbol{\xi}\in L_2,\enspace L_2\subset L_1, \end{aligned}\tag{6.1.1}$ hvor $L_1$ er et $d_1$ -dimensionalt lineært underrum af $\mathbf{R}^n,$ og $L_2$ er et $d_2$ -dimensionalt lineært underrum af $L_1.$ Model $M_2$ fremkommer typisk ved, at man sætter nogle af parametrene i model $M_1$ lig med nul, eller man sætter nogle parametre lig med hinanden. Vi skal i næste afsnit bruge følgende matematiske resultat.

Resultat 6.1.1. (Ortogonalitet af projektioner)

Lad $\mathbf{P}_1$ og $\mathbf{P}_2$ være projektionsmatricer hørende til de to underrum $L_1$ og $L_2\subset L_1$ . Så gælder der

$\begin{aligned} & \mathbf{P}_1\mathbf{P}_2=\mathbf{P}_2, \enspace (\mathbf{I}-\mathbf{P}_1)(\mathbf{P}_1-\mathbf{P}_2)^{\text{\tiny T}}=0, \\ & (\mathbf{I}-\mathbf{P}_1)\mathbf{P}_2^{\text{\tiny T}}=0, \enspace (\mathbf{P}_1-\mathbf{P}_2)\mathbf{P}_2^{\text{\tiny T}}=0. \end{aligned}$

For en projektionsmatriks $\mathbf{P}$ har vi $\mathbf{P}^{\text{\tiny T}}=\mathbf{P}$ og $\mathbf{P}^2=\mathbf{P}.$ Hvis den første ligning ovenfor er vist, kan ligning nummer to reduceres som følger

$\begin{aligned} & (\mathbf{I}-\mathbf{P}_1)(\mathbf{P}_1-\mathbf{P}_2)^{\text{\tiny T}} = (\mathbf{I}-\mathbf{P}_1)(\mathbf{P}_1-\mathbf{P}_2) \\ & = (\mathbf{P}_1-\mathbf{P}_1^2)-(\mathbf{P}_2-\mathbf{P}_1\mathbf{P}_2) = (\mathbf{P}_1-\mathbf{P}_1)-(\mathbf{P}_2-\mathbf{P}_2) =0. \end{aligned}$ Ligning nummer 3 og 4 følger på samme vis. Vi skal derfor blot argumentere for korrektheden af den første ligning. For en vektor $\mathbf{v}\in L_2$ gælder der, at $\mathbf{P}_1\mathbf{v}=\mathbf{v},$ eftersom $L_2\subset L_1.$ Da søjlerne i projektionmatricen $\mathbf{P}_2$ ligger i $L_2,$ følger det nu, at $\mathbf{P}_1\mathbf{P}_2=\mathbf{P}_2.$

Foregående Næste