Afsnit 4.7: Det generelle F-test

I eksemplet omkring stresspåvirkning af soyabønner i foregående afsnit kunne vi teste interaktionen mellem stress og lys væk ved et $t$ -test, da interaktionen kun bestod af en enkelt parameter. Generelt i den tosidede variansanalysemodel $M_1$ fjernes $d(M_1)-d(M_2)=km-(k+m-1)=(k-1)(m-1)$ parametre, når vi går fra den fulde model til den addititve model, hvor $k$ og $m$ er antallet af niveauer i de to faktorer. Hvordan laver vi et test for denne reduktion ? Ligesom i den ensidede variansanalysemodel skal varians "mellem grupper" sammenlignes med varians "inden for grupper". Jeg beskriver nu testet i en meget generel ramme.

En generel lineær normal model er på formen:

$M:\enspace X_i\sim N\big(\xi_i,\sigma^2\big),\enspace i=1,\ldots,n,\enspace (\xi_1,\ldots,\xi_n)^{\text{\tiny T}}\in L(M),$ hvor $L(M)$ er et lineært underrum af $\mathbf{R}^n.$ Det sidste betyder blot, at der findes et $k$ og faste vektorer $\mathbf{v}_1,\ldots,\mathbf{v}_k$ , $\mathbf{v}_j=(v_{j1},\ldots,v_{jn})^{\text{\tiny T}},$ således at vektoren af middelværdier kan skrives på formen

$(\xi_1,\ldots,\xi_n)^{\text{\tiny T}}=\theta_1\mathbf{v}_1+\theta_2\mathbf{v}_2+\cdots+ \theta_k\mathbf{v}_k, \tag{4.7.1}$ hvor $(\theta_1,\ldots,\theta_k)$ er ukendte parametre, som vi ønsker at estimere ud fra data. Dette kan virke noget abstrakt, men tænk på følgende to eksempler. For to grupper af observationer med hver sin middelværdi, hvor gruppe 1 kommer først, kan vi skrive

$(\xi_1,\ldots,\xi_n)^{\text{\tiny T}}=\mu_1(1,1,\ldots,1,0,0,\ldots,0)^{\text{\tiny T}}+ \mu_2(0,0,\ldots,0,1,1,\ldots,1)^{\text{\tiny T}},$ eller for den simple regressionsmodel, kan vi skrive

$(\xi_1,\ldots,\xi_n)^{\text{\tiny T}}=\alpha(1,1,\ldots,1)^{\text{\tiny T}}+ \beta(t_1,t_2,\ldots,t_n)^{\text{\tiny T}}.$ I det generelle $F$ -test ønsker vi at teste reduktionen fra en model $M_1$ til en undermodel $M_2,$ hvor $L(M_2)$ er et underrum af $L(M_1).$ I praksis betyder det sidste typisk, at man tester en hypotese om, at nogle angivne parametre er nul.

Resultat 4.7.1. (Det generelle $F$ -test)

Betragt to modeller $M_1$ og $M_2,$ hvor $M_2$ er en undermodel af $M_1.$ Lad $\hat\xi_i(M_1)$ og $\hat\xi_i(M_2)$ , $i=1,\ldots,n$ , være de forventede værdier i de to modeller, og definer $s^2(M_1,M_2)=\sum_i(\hat\xi_i(M_1)-\hat\xi_i(M_2))^2/(d(M_1)-d(M_2))$ . Så er $F$ -teststørrelsen for reduktion fra model $M_1$ til model $M_2$ givet ved

$\begin{aligned} F &=\frac{s^2(M_1,M_2)}{s^2(M_1)} =\frac{(\mathit{SSD}(M_2)-\mathit{SSD}(M_1))/ (\mathit{df}(M_2)-\mathit{df}(M_1))}{s^2(M_1)}. \end{aligned}$ Under model $M_2$ beregnes $p$ -værdien for testet som

$p\text{-værdi}=1-F_{\text{cdf}} (F,\mathit{df}(M_2)-\mathit{df}(M_1),\mathit{df}(M_1)).$ Testet beregnes i R ved kommandoen

$\text{anova(lm(modelformel for }M_2 \text{),lm(modelformel for }M_1 \text{))}.$

Output fra kaldet af anova er en testtabel med 2 rækker og 7 søjler:

$\begin{array}{rrrrrrr} \hline & \text{Res.Df} & \text{RSS} & \text{Df} & \text{Sum of Sq} & \text{F} & \text{Pr(>F)} \\ \hline 1 & - & - & & & & \\ 2 & - & - & - & - & - & -\\ \hline \end{array}$ Første række vedrører model $M_2$ og anden række model $M_1$ . Søjlen RSS indeholder $\mathit{SSD}(M)$ for de to modeller, og Res.Df de tilhørende frihedsgrader. Indholdet i anden række i søjlen Df er differensen mellem de to værdier under Res.Df, og Sum of Sq er differensen mellem de to værdier under RSS. De to sidste søjler indeholder selve $F$ -teststørrelsen og den tilhørende $p$ -værdi.

Måske har I bemærket, at i output fra summary(lm(modelformel)) står der til sidst "F-statistics:". Hvis modelformel ikke indeholder "-1", er dette $F$ -testet fra kommandoen anova(lm(x $\sim$ 1),lm(modelformel)), hvor $x$ er vektoren med responsværdier. Selvom slutmodellen i dette test altid er modellen, hvor alle de stokastiske variable har den samme middelværdi, vil $p$ -værdien også afhænge af startmodellen givet gennem modelformel. I kan se dette konkret i output fra det skjulte kodevindue i eksempel 4.6.3.

Hvis man har en række modeller $M_1,M_2,\ldots$ , hvor model model $M_{i+1}$ er en undermodel af model $M_i$ , benytter man ofte en teststrategi med successive $F$ -test. I det $i$ 'te test antager man, at data kan beskrives med modellen $M_i$ , og undersøger, om data understøtter en reduktion til model $M_{i+1}$ ved at bruge $F$ -testet, som beskrevet i Resultat 4.7.1 med $M_1$ og $M_2$ svarende til $M_i$ og $M_{i+1}$ . Man fortsætter med successive test, indtil data ikke længere understøtter en reduktion.

Eksempel 4.7.2. (Stress af soyabønner)

I kodevinduet nedenfor vises beregningen af $F$ -test for reduktion fra den tosidede variansanalysemodel til den additive mode. Derudover vises de to $F$ -test for henholdsvis ingen effekt af stress og ingen effekt af lys.

4.7.3 Test for additive model

Se opstartskoden (til/fra)

Kør koden og genfind $p$ -værdierne fra Eksempel 4.6.3.

Foregående Næste