Afsnit 6.3: T-test

Betragt den generelle lineære model $X_i\sim N(\xi_i,\sigma^2)$ , $i=1,\ldots,n,$ hvor søjlevektoren $\boldsymbol{\xi}$ af middelværdier ligger i det lineære underrum $L$ af dimension $d$ . Betragt en parametrisering $\theta$ givet ved $\boldsymbol{\xi}=\mathbf{H}\boldsymbol{\theta},$ hvor $\mathbf{H}$ er en $n\times d$ matrix og $\boldsymbol{\theta}$ er en søjlevektor.

Vi har, at $\hat{\boldsymbol{\theta}}=(\mathbf{H}^{\text{\tiny T}} \mathbf{H})^{-1}\mathbf{H}^{\text{\tiny T}}\mathbf{X},$ jævnfør Resultat 6.0.2, hvilket specielt viser, at enhver koordinat $\hat\theta_j$ er en linearkombination af $X_1,\ldots,X_n.$ Dette er baggrunden for resultaterne i de tidligere kapitler, hvor alle skønnene over parametrene i middelværdien er normalfordelte. Når alle disse skøn også har haft den egenskab, at middelværdien er lig med den sande værdi af parameteren, følger dette af

$\mathrm{E}\Big((\mathbf{H}^{\text{\tiny T}}\mathbf{H})^{-1}\mathbf{H}^{\text{\tiny T}}\mathbf{X}\Big)= (\mathbf{H}^{\text{\tiny T}}\mathbf{H})^{-1}\mathbf{H}^{\text{\tiny T}}\mathrm{E}(\mathbf{X}) =(\mathbf{H}^{\text{\tiny T}}\mathbf{H})^{-1}\mathbf{H}^{\text{\tiny T}}\mathbf{H}\boldsymbol{\theta} =\boldsymbol{\theta}.$ Med notationen for en vektor med normalfordelte variable fra afsnit 6.0 kan vi skrive

$\hat\theta\sim N_d\big(\theta,\sigma^2 (\mathbf{H}^\text{\tiny T}\mathbf{H})^{-1}\big),$ idet $(\mathbf{H}^\text{\tiny T}\mathbf{H})^{-1}\mathbf{H}^\text{\tiny T} \big(\mathbf{H}^\text{\tiny T}\mathbf{H})^{-1} \mathbf{H}^\text{\tiny T}\big)^\text{\tiny T}= (\mathbf{H}^\text{\tiny T}\mathbf{H})^{-1}.$

Resultat 6.3.1. ( $T$ -test i lineær model)

Betragt en lineær normal model $M$ , hvor $\gamma$ er en af koordinaterne i middelværdiparametriseringen. Ifølge ovenstående kan vi så skrive $\hat\gamma=\sum_ia_iX_i$ for passende konstanter $a_1,\ldots,a_n.$ Lad endvidere variansskønnet være $s^2(M)$ med $\mathit{df}(M)$ frihedsgrader.

Under hypotesen $\gamma=\gamma_0$ gælder der, at
$t=\frac{\hat\gamma-\gamma_0}{\text{sd}_s(\hat\gamma)}\sim t\big(\mathit{df}(M)\big),\enspace \text{hvor}\enspace \text{sd}_s(\hat\gamma)=s(M)\sqrt{\sum_ia_i^2}.$
Lad $t_0=t_{\text{inv}}\big(0.975,\mathit{df}(M)\big),$ så er et 95%-konfidensinterval for $\gamma$ på formen
$\big[\hat\gamma-t_0\cdot\text{sd}_s(\hat\gamma),\, \hat\gamma+t_0\cdot\text{sd}_s(\hat\gamma)\big].$

Bevis

Med $C=\sum_ia_i^2$ har vi

$\frac{\hat\gamma-\gamma_0}{\sigma\sqrt{C}}\sim N(0,1),\quad \frac{s^2(M)}{\sigma^2}\sim \chi^2(\mathit{df}(M))/\mathit{df}(M),$ og de to stokastiske variable er uafhængige ifølge Resultat 6.2.2. Fra Definition 2.4.1 har vi derfor

$t=\frac{\hat\gamma-\gamma_0}{s(M)\sqrt{C}}= \frac{(\hat\gamma-\gamma_0)/(\sigma\sqrt{C})}{\sqrt{s^2(M)/\sigma^2}} \sim t(\mathit{df}(M)),$ hvilket viser (i).

For at vise konfidensintervallet laver vi omskrivningen

$\begin{aligned} & P_{\gamma_0}\big([\hat\gamma-t_0\cdot\text{sd}_s(\hat\gamma), \hat\gamma+t_0\cdot\text{sd}_s(\hat\gamma)]\ni \gamma\big) = P_{\gamma_0}\big(\hat\gamma-t_0\cdot\text{sd}_s(\hat\gamma)\leq\gamma\leq \hat\gamma+t_0\cdot\text{sd}_s(\hat\gamma)\big) \\ & \quad = P_{\gamma_0}\big( -t_0\leq\frac{\hat\gamma-\gamma_0}{\text{sd}_s(\hat\gamma)}\leq t_0\big) = t_{\text{cdf}}\big(t_0,\mathit{df}(M)\big)- t_{\text{cdf}}\big(-t_0,\mathit{df}(M)\big) \\ & \quad = 0.975-0.025=0.95. \end{aligned}$

6.3.1 Korrelation i multipel regressionsmodel

Som angivet ovenfor er variansmatricen for $\hat\theta$ i den lineære model med $\boldsymbol{\xi}=\mathbf{H}\boldsymbol{\theta}$ givet ved $(\mathbf{H}^\text{\tiny T}\mathbf{H})^{-1}.$ Dette kan vi bruge til at studere korrelationen mellem to estimatorer.

For at se princippet kan vi starte med den simple regressionsmodel $X_i\sim N(\alpha+\beta t_i,\sigma^2)$ , $i=1,\ldots,n,$ alle uafhængige. Det lineære underrum for middelværdivektoren er frembragt af $\mathbf{e}=(1,\ldots,1)^\text{\tiny T}$ og $\mathbf{t}=(t_1,\ldots,t_n)^\text{\tiny T}.$ Med $\mathbf{H}=(\mathbf{e},\mathbf{t})$ får vi, med $S_t=\sum_it_i$ og $\mathit{SS}_t=\sum_it_i^2,$ at

$\mathbf{H}^\text{\tiny T}\mathbf{H}=\left( \begin{array}{cc} n & S_t \\ S_t & \mathit{SS}_t \end{array} \right)\enspace \text{og}\enspace (\mathbf{H}^\text{\tiny T}\mathbf{H})^{-1}= \frac{1}{\mathit{SSD}_t}\left( \begin{array}{cc} \mathit{SS}_t/n & -\bar t \\ -\bar t & 1 \end{array} \right).$ Vi ser her, at korrelationen mellem $\hat\alpha$ og $\hat\beta$ er

$-\frac{\bar t}{\sqrt{\mathit{SS}_t/n}}= -\frac{\bar t}{\sqrt{\mathit{SSD}_t/n+\bar t^2}}.$ Specielt ser vi, at hvis $\bar t=0,$ så er de to skøn ukorrelerede, og omvendt, hvis $|\bar t|$ bliver meget stor, nærmer korrelationen sig plus eller minus 1.

Lad os dernæst betragte den multiple regressionsmodel med to forklarende variable $t_{i1}$ og $t_{i2}.$ Lad $S_j=\sum_it_{ij}$ og $\mathit{SS}_{uv}=\sum_it_{iu}t_{iv}.$ Det lineære underrum for middelværdivektoren udspændes af $\mathbf{e}$ , $\mathbf{t}_1$ og $\mathbf{t}_2$ . For denne model finder vi

$\mathbf{H}^\text{\tiny T}\mathbf{H}=\left( \begin{array}{ccc} n & S_1 & S_2 \\ S_1 & \mathit{SS}_{11} & \mathit{SS}_{12} \\ S_2 & \mathit{SS}_{12} & \mathit{SS}_{22} \end{array} \right)\enspace \text{og}\enspace (\mathbf{H}^\text{\tiny T}\mathbf{H})^{-1}= \frac{1}{\mathit{Det}}\left( \begin{array}{ccc} * & * & * \\ * & \mathit{SSD}_2 & -\mathit{SPD}_{12} \\ * & -\mathit{SPD}_{12} & \mathit{SSD}_1 \end{array} \right),$ hvor $\mathit{Det}$ er determinanten, $\mathit{SSD}_j=\sum_i(t_{ij}-\bar t_j)^2$ , $\mathit{SPD}_{12}=\sum_i(t_{i1}-\bar t_1)(t_{i2}-\bar t_2),$ og en stjerne er en ikke-angivet værdi. Vi får nu herfra, at korrelationen mllem $\hat\beta_1$ og $\hat\beta_2$ er

$-\frac{\mathit{SPD}_{12}}{\sqrt{\mathit{SSD}_1\mathit{SSD}_2}} =-r_{12},$ som er den minus den empiriske korrelation $r_{12}$ mellem de to forklarende variable.

En stor korrelation mellem de to forklarende variable giver således anledning til en stor korrelation (med modsat fortegn) mellem de to skøn over regressionskoefficienterne. Ydermere vil en stor korrelation mellem de forklarende variable også øge spredningen på parameterskønnet. Vi kan se dette nemt, hvis vi betragter tilfældet med $\bar t_i=\bar t_2=0$ (eller $S_1=S_2=0$ ). Så får vi,

$\mathit{Det}=n(\mathit{SS}_{11}\mathit{SS}_{22} -\mathit{SS}_{12}^2)\enspace \text{og}\enspace \text{Var}(\hat\beta_2)= \frac{\sigma^2\mathit{SS}_{11}}{\mathit{SS}_{11}\mathit{SS}_{22} -\mathit{SS}_{12}^2} = \frac{\sigma^2/\mathit{SS}_{22}}{1-r_{12}^2},$ som netop viser, at variansen stiger, når korrelationen bliver stor.

Med en stor korrelation mellem de forklarende variable er det således svært at bestemme regressionskoefficienterne præcist. Dette kan umiddelbart virke negativt, men man skal huske, at der findes kombinationer af de to koefficienter, der er mere velbestemte. Vi kan anskueliggøre dette ved at starte med en situation uden korrelation. Lad os sige, at $S_1=S_2=0$ , $\mathit{SS}_{11}=\mathit{SS}_{22}=n$ og $\mathit{SS}_{12}=0$ . I denne situation er variansen på skønnet over regressionskoefficienten givet ved $\sigma^2/n.$ Vi laver nu nye forklarende variable ved at definere $\tilde t_{i1}=t_{i1}$ og $\tilde t_{i2}=(t_{i1}+zt_{i1})/\sqrt{1+z^2}$ , hvor $z$ er en konstant. Korrelationen mellem $\hat{\tilde\beta}_1$ og $\hat{\tilde\beta}_2$ bliver $z/\sqrt{1+z^2}$ , og varianserne på de to skøn er $(1+z^2)\sigma^2/n.$ Så med en stor værdi af $z$ er $\tilde\beta_1$ og $\tilde\beta_2$ ikke særligt velbestemte, men de to kombinationer $\beta_1=\tilde\beta_1+\tilde\beta_2 z/\sqrt{1+z^2}$ og $\beta_2=\tilde\beta_2/\sqrt{1+z^2}$ er stadig velbestemte.

Foregående