I har nu flere gange set, hvordan der dannes en $t$ -teststørrelse ved at bruge at et skøn over en middelværdiparameter er normalfordelt, variansskønnet følger en skaleret $\chi^2$ -fordeling, og de to skøn er stokastisk uafhængige. I dette kapitel vil jeg gå lidt ind på matematikken bag denne type resultat, såvel som resultatet om det generelle $F$ -test i afsnit 4.7.

I analysen af den generelle lineære model tænker vi ofte på data som organiseret i en dataframe, hvor responsvektoren er en af søjlerne, og de andre søjler er faktorer og regressionsvariable. Det er denne vektortilgang, vi vil udnytte i dette kapitel. Så i stedet for at have fokus på den enkelte variabel $X_i$ vil vi have fokus på hele vektoren $(X_1,\ldots,X_n)^{\text{\tiny T}}\in\mathbf{R}^n.$

Jeg starter med at indføre lidt vektor- og matrixnotation. Vektorer kan enten være rækkevektorer eller søjlevektorer. Hvis vi transponerer en rækkevektor (notation: $\mathbf{v}^{\text{\tiny T}}$ , hvor $\mathbf{v}$ er rækkevektoren) får vi en søjlevektor, og vice versa.

Middelværdien af en stokastisk (søjle-) vektor $\mathbf{Z}=(Z_1,\ldots,Z_n)^{\text{\tiny T}}$ defineres som vektoren af middelværdier af de enkelte indgange

$\mathrm{E}(\mathbf{Z})=(E(Z_1),\ldots,E(Z_n))^{\text{\tiny T}}.$ Variansen $\mathrm{Var}(\mathbf{Z})$ defineres som en $n\times n$ matrix, hvor den $i$ 'te diagonalindgang er variansen $\mathrm{Var}(Z_i)$ , og den $(i,j)$ 'te indgang er kovariansen $\mathrm{Cov}(Z_i,Z_j)$ :

$\mathrm{Var}(\mathbf{Z})=\left(\begin{array}{cccc} \mathrm{Var}(Z_1) & \mathrm{Cov}(Z_1,Z_2) & \cdots & \mathrm{Cov}(Z_1,Z_n) \\ \mathrm{Cov}(Z_2,Z_1) & \mathrm{Var}(Z_2) & \cdots & \mathrm{Cov}(Z_2,Z_n) \\ \vdots & \vdots & & \vdots \\ \mathrm{Cov}(Z_n,Z_1) & \mathrm{Cov}(Z_n,Z_2) & \cdots & \mathrm{Var}(Z_n) \end{array}\right).$ I kender formodentligt følgende regneregler

$\begin{aligned} & E\Big(\sum_i a_iZ_i\Big)=\sum_ia_i E(Z_i),\quad \mathrm{Var}\Big(\sum_i a_iZ_i\Big)=\sum_{i,j}a_ia_j\mathrm{Cov}(Z_i,Z_j),\\ & \mathrm{Cov}\Big(\sum_i a_iZ_i,\sum_i b_iZ_i\Big)=\sum_{i,j}a_ib_j\mathrm{Cov}(Z_i,Z_j). \end{aligned}$ Med den indførte matrixnotation kan vi samle disse regneregler på følgende vis. Lad $\mathbf{B}$ være en $k\times n$ ikke-stokastisk matrix. Så er

$\mathrm{E}(\mathbf{B}\mathbf{Z})=\mathbf{B}\mathrm{E}(\mathbf{Z})\quad\text{og}\quad \mathrm{Var}(\mathbf{B}\mathbf{Z})=\mathbf{B}\mathrm{Var}(\mathbf{Z})\mathbf{B}^{\text{\tiny T}}.$

Matriks-regneregler

For fuldstændighedens skyld samler jeg her nogle vigtige regneregler for matricer.

Resultat 6.0.1. (Regneregler for matricer)

Hvis $\mathbf{B}$ er en $n\times k$ matrix, med $(i,j)$ 'te indgang $B_{ij},$ så er $\mathbf{B}^{\text{\tiny T}}$ en $k\times n$ matrix med $(i,j)$ 'te indgang $B_{ji}.$
Hvis $\mathbf{A}$ er $n\times k$ og $\mathbf{B}$ er $k\times m$ , så er $(\mathbf{A}\mathbf{B})^{\text{\tiny T}}=\mathbf{B}^{\text{\tiny T}}\mathbf{A}^{\text{\tiny T}}.$
Hvis $\mathbf{X}$ er $n\times k,$ så er $k\times k$ matricen $\mathbf{X}^{\text{\tiny T}} \mathbf{X}$ symmetrisk ( $(\mathbf{X}^{\text{\tiny T}} \mathbf{X})^{\text{\tiny T}}=\mathbf{X}^{\text{\tiny T}} \mathbf{X}$ ), og dette gælder også for den inverse matrix $(\mathbf{X}^{\text{\tiny T}} \mathbf{X})^{-1}.$
Hvis $\mathbf{A}$ er en $k\times k$ symmetrisk matrix, er den inverse matrix $\mathbf{A}^{-1}$ bestemt ved $\mathbf{A}^{-1}\mathbf{A}=\mathbf{I}$ og $\mathbf{A}\mathbf{A}^{-1}=\mathbf{I}.$

For analysen af normalfordelingsmodellerne skal vi også vide noget om projektioner. Når vi skal finde skøn over $(\beta_1,\ldots,\beta_k)$ ved at minimere

$\sum_{i=1}^n \big(x_i-\beta_1h_{i1}-\cdots -\beta_kh_{ik}\big)^2,$ er dette ækvivalent med at minimere den kvadrerede $L^2$ -norm

$| \mathbf{x}-\mathbf{H}\boldsymbol{\beta} |^2= (\mathbf{x}-\mathbf{H}\boldsymbol{\beta})^{\text{\tiny T}} (\mathbf{x}-\mathbf{H}\boldsymbol{\beta}), \quad \mathbf{x}=(x_1,\ldots,x_n)^{\text{\tiny T}} ,\enspace \mathbf{\beta}=(\beta_1,\ldots,\beta_k)^{\text{\tiny T}},$ hvor $\mathbf{H}$ er $n\times k$ matricen med $(i,j)$ 'te indgang $h_{ij}.$ Her står, at vi skal finde det punkt, udspændt af søjlerne i $\mathbf{H},$ som er tættest på $\mathbf{x}$ , men dette er netop projektionen af $\mathbf{x}$ på rummet udspændt af søjlerne i $\mathbf{H}.$

Resultat 6.0.2. (Projektion)

Projektionen af vektoren $\mathbf{x}$ ned på underrummet udspændt af søjlerne i $\mathbf{H}$ er givet ved $\mathbf{P}\mathbf{x}$ , hvor $n\times n$ matricen $\mathbf{P}$ er givet som $\mathbf{P}=\mathbf{H}(\mathbf{H}^{\text{\tiny T}} \mathbf{H})^{-1}\mathbf{H}^{\text{\tiny T}}$ . I ovenstående minimeringsproblem giver dette skønnet $\hat{\boldsymbol{\beta}}=(\mathbf{H}^{\text{\tiny T}} \mathbf{H})^{-1}\mathbf{H}^{\text{\tiny T}}\mathbf{x}.$

For at eftervise dette resultat skal man vise, at $\mathbf{x}-\mathbf{P}\mathbf{x}$ står vinkelret på søjlerne i $\mathbf{H}$ , men dette følger af

$\mathbf{H}^{\text{\tiny T}}(\mathbf{x}-\mathbf{P}\mathbf{x})= \mathbf{H}^{\text{\tiny T}}(\mathbf{I}-\mathbf{P})\mathbf{x} =\mathbf{H}^{\text{\tiny T}} (\mathbf{I}-\mathbf{H}(\mathbf{H}^{\text{\tiny T}}\mathbf{H})^{-1} \mathbf{H}^{\text{\tiny T}})\mathbf{x}= (\mathbf{H}^{\text{\tiny T}}-\mathbf{H}^{\text{\tiny T}})\mathbf{x}=0,$ hvor $\mathbf{I}$ er en diagonalmatrix med 1 langs diagonalen.

Vektor af normalfordelte variable

Hvis $Z_i\sim N(\mu_i,\sigma^2)$ , $i=1,\ldots,n,$ er uafhængige, skriver vi dette kort som

$\mathbf{Z}\sim N_n(\boldsymbol{\mu},\sigma^2\mathbf{I}),$ hvor $\mathbf{I}$ er en diagonalmatriks med 1 langs diagonalen, og $\boldsymbol{\mu}$ er søjlevektoren med middelværdierne, $\boldsymbol{\mu}=(\mu_1,\ldots,\mu_n)^{\text{\tiny T}}.$ I notationen $N_n(\cdot,\cdot)$ er det første argument middelværdien $\mathrm{E}(\mathbf{Z}),$ og det andet argument er variansen $\mathrm{Var}(\mathbf{Z}).$

Hvis vi laver linearkombinationer af koordinaterne i $\mathbf{Z},$ bliver disse igen normalfordelte (regneregler for normalfordelingen!), men ikke nødvendigvis uafhængige. Vi vil stadig bruge notationen med $N_n(\cdot,\cdot)$ og skriver

$\mathbf{B}\mathbf{Z}\sim N_n\big(\mathbf{B}\boldsymbol{\mu},\sigma^2 \mathbf{B}\mathbf{B}^{\text{\tiny T}}\big),$ idet $\mathbf{B}\mathbf{I}\mathbf{B}^{\text{\tiny T}}= \mathbf{B}\mathbf{B}^{\text{\tiny T}}.$ Hvis vi har en søjlevektor $\mathbf{U},$ der er fremkommet ved linearkombinationer af uafhængige normalfordelte variable, og $\mathbf{U}\sim N(\boldsymbol{\mu},\boldsymbol{\Sigma}),$ så vil

$\mathbf{B}\mathbf{U}\sim N_n\big(\mathbf{B}\boldsymbol{\mu}, \mathbf{B}\boldsymbol{\Sigma}\mathbf{B}^{\text{\tiny T}}\big).$ Dette skyldes, at koordinaterne i $\mathbf{B}\mathbf{U}$ vil også være linearkombinationer af uafhængige normalfordelte variable.

Ved hjælp af den ovenfor etablerede matriksnotation kan vi nemt lave beregninger baseret på normalfordelte variable.

Foregående Næste

Kapitel 6: Matematikken bag lineære modeller