Afsnit 4.6: Tosidet variansanalyse

Mekanisk "stress" som for eksempel vind påvirker planters vækst. For at studere dette i kontrollerede omgivelser er der i artiklen Effects of seismic stress on the vegetative growth of Glycine max (L.) Merr. cv. Wells II lavet et drivhuseksperiment, hvor væksten af soyabønner er undersøgt, når disse udsættes for stress i form af at blive rystet.

Efter 16 dages vækst er det totale bladareal målt. Planterne er delt op i to grupper, hvor den ene gruppe ikke udsættes for stress, og den anden gruppe udsættes for stress (faktoren stress). Planterne er desuden delt op i to grupper med hensyn til lysforhold i vækstperioden, hvor den ene gruppe vokser under en lav lysmængde og den anden under en højere lysmængde (faktoren lys). På denne måde inddeles data i fire grupper svarende til produktet stress*lys af de to faktorer. Rådata er ikke gengivet i artiklen, men den del, jeg vil bruge her, kan findes i bogen Statistics for the Life Sciences.

I kodevinduet nedenfor laves en figur med boxplot for de fire grupper og en figur med qqplots for de fire grupper. Den sidste figur viser, at det er rimeligt at bruge en normalfordeling til beskrivelse af data i hver af de fire grupper, og den første figur peger på forskel i middelværdi mellem grupperne.

4.6.1 Boxplot og qqplot opdelt efter to faktorer

Se opstartskoden (til/fra)

Jeg vil nu beskrive den tosidede variansanalysemodel generelt. Data består af målinger fra $n$ uafhængige stokastiske variable $X_1,\ldots,X_n.$ Disse inddeles i grupper ved hjælp af to faktorer $G=(G_1,\ldots,G_n)$ og $H=(H_1,\ldots,H_n),$ hvor $G$ har $k$ niveauer og $H$ har $m$ niveauer. Vi starter med en model, hvor både middelværdi og varians afhænger af, hvilken af de $k\cdot m$ grupper observationen tilhører

$\begin{aligned} M_0:\enspace & X_i\sim N(\mu_{G_i,H_i},\sigma^2_{G_i,H_i}),\enspace i=1,\ldots,n, \\ & (\mu_{11},\ldots,\mu_{km},\sigma^2_{11},\ldots,\sigma^2_{km}) \in \mathbf{R}^{k\cdot m}\times \mathbf{R}^{k\cdot m}_+, \end{aligned}$ hvor niveauerne for de to faktorer for nemheds skyld betegnes med tal. Hvis det kan antages, at varianserne er ens, får vi modellen

$\begin{aligned} M_1:\enspace & X_i\sim N(\xi_i,\sigma^2),\enspace \xi_i=\mu_{G_i,H_i},\enspace i=1,\ldots,n, \\ & (\mu_{11},\ldots,\mu_{km},\sigma^2) \in \mathbf{R}^{k\cdot m}\times \mathbf{R}_+,\enspace d(M_1)=k\cdot m, \end{aligned}$ som kaldes den tosidede variansanalysemodel. I analysen af modellen betragtes følgende undermodeller:

$\begin{aligned} M_2:\enspace& \xi_i=\zeta_{G_i}+\eta_{H_i},\enspace (\zeta_{1},\ldots,\zeta_{k},\eta_1,\ldots,\eta_m,\sigma^2) \in \mathbf{R}^{k+ m}\times \mathbf{R}_+,\enspace d(M_2)=k+ m-1, \\ M_{3G}:\enspace & \xi_i=\zeta_{G_i},\enspace (\zeta_{1},\ldots,\zeta_{k},\sigma^2) \in \mathbf{R}^{k}\times \mathbf{R}_+,\enspace d(M_{3G})=k, \\ M_{3H}:\enspace & \xi_i=\eta_{H_i},\enspace (\eta_{1},\ldots,\eta_{m},\sigma^2) \in \mathbf{R}^{m}\times \mathbf{R}_+,\enspace d(M_{3H})=m, \\ M_4:\enspace & \xi_i=\mu,\enspace (\mu,\sigma^2) \in \mathbf{R}\times \mathbf{R}_+,\enspace d(M_{4})=1. \end{aligned}$ Model $M_2$ kaldes den additive model, og er vigtig på grund af fortolkningen af parametrene, som bliver beskrevet nedenfor. For modellerne $M_{3G}$ og $M_{3H}$ er vi tilbage ved den ensidede variansanalysemodel fra afsnit 4.2.

For at få en fornemmelse af om data kan beskrives med den additive model, kan man lave et interaktionsplot. Den indbyggede funktion i R er lidt mangelfuld på dette punkt, så i stedet anbefaler jeg en funktion additivitetsPlot, som findes i filen Rfunktioner.txt, jævnfør underafsnittet Egne funktioner i R i afsnit 1.9.

I et interaktionsplot beregner man gennemsnit i alle grupperne givet ved opdeling efter $G*H.$ Gennemsnit afsættes mod niveauerne for den ene faktor, og alle gennemsnit, der ligger på det samme niveau af den anden faktor, forbindes. Hvis data kan beskrives med model $M_2$ ovenfor, afspejler gennemsnittene i figuren altså $\zeta_u+\eta_v$ afsat mod for eksempel $u=1,\ldots,k,$ og punkterne med samme værdi af $v$ forbindes. De kurver, der fremkommer, svarer altså til kurven $(u,\zeta_u),$ der parallelforskydes med værdierne fra $\eta_v.$ I et interaktionsplot prøver vi derfor at vurdere, om kurverne ser ud til at være parallelle.

4.6.2 Interaktionsplot

I det følgende kodevindue vises interaktionsplots baseret på den indbyggede funktion interaction.plot i R. Input til denne funktion er de to faktorer, der bruges til at dele data op i undergrupper, og vektoren med responsværdierne. Når I kører på jeres egen R-installation, kan I benytte additivitetsPlot fra filen Rfunktioner.txt, hvor input er som til interaction.plot.

Begge figurer viser approksimative parallelle kurver, hvilket tyder på, at data kan beskrives med den additive model.

4.6.1 Analyse i R og parametrisering

Model $M_1,$ hvor hver gruppe har sin egen middelværdi, analyseres med kaldet x $\sim$ G*H. Den additive model $M_2$ analyseres med kaldet x $\sim$ G+H. Lad os starte med at forstå output fra summary for den sidste model. Vi kan forstå output ved, for $u=1,\ldots,k$ og $v=1,\ldots,m,$ at skrive

$\zeta_u+\eta_v=(\zeta_1+\eta_1)+(\zeta_u-\zeta_1)+(\eta_v-\eta_1) =\text{Intercept+Gu+Hv},$ hvor højresiden viser de parametre, der bruges ved kaldet x $\sim$ G+H. Vi ser her at modellen kan parametriseres med $k+m-1$ parametre, nemlig $\zeta_1+\eta_1$ , $\zeta_2-\zeta_1,\ldots,\zeta_k-\zeta_1$ og $\eta_2-\eta_1,\ldots,\eta_m-\eta_1$ . Går vi nu tilbage til model $M_1,$ skriver vi i stedet

$\begin{aligned} \mu_{u,v} &=\mu_{1,1}+(\mu_{u,1}-\mu_{1,1})+(\mu_{1,v}-\mu_{1,1})+ (\mu_{u,v}-\mu_{u,1}-\mu_{1,v}+\mu_{1,1}) \\ & = \text{Intercept+Gu+Hv+Gu:Hv}, \end{aligned}$ hvor den anden linje viser de parametre, der bruges ved kaldet x $\sim$ G*H. Det sidste led kaldes interaktionen mellem de to faktorer. I den fulde model, model $M_1,$ er Gu således forskel mellem niveau $u$ og niveau 1 for faktoren $G,$ når faktoren $H$ ligger på niveau 1, og vice versa for Hv. Det nyttige ved den additive model $M_2$ er, at Gu nu er forskel mellem niveau $u$ og niveau 1 for faktoren $G,$ uanset hvilket niveau faktoren $H$ befinder sig på, og Hv er forskel mellem niveau $v$ og niveau 1 for faktoren $H,$ uanset hvilket niveau faktoren $G$ befinder sig på.

Parametrisering i R

Som for den ensidede variansanalyse i afsnit 4.4 betragtes simulerede data med spredning $\sigma=0,$ således at vi direkte kan se parametrene, der bruges i R. Vi betragter den additive model inden for den tosidede variansanalysemodel.

Hvad er middelværdien for en observation med gFak på niveau "2" og hFak på niveau "B" ? Hvad er værdien af Intercept+gFak2+hFakB ?
Udtryk R-parametrene Intercept, gFak2, hFakB og hFakC ud fra eta og zeta.
Opskriv de statistiske modeller svarende til henholdsvis kaldet lm(x~gFak*hFak) og til kaldet lm(x~gFak+hFak).

Svar: Forstå output

Fra gFak kommer bidraget 3 til middelværdien og fra hFak bidraget 0, hvorfor middelværdien er $3+0=3.$ $\text{Intercept+gFak2+hFakB}=3+2-2=3,$ som er middelværdien, vi lige har udregnet.
Intercept=eta[1]+zeta[1], gFak2=eta[2]-eta[1], hFakB=zeta[2]-zeta[1] og hFakC=zeta[3]-zeta[1].
Det $i$ 'te respons er $X_i,$ og den $i$ 'te værdi af de to faktorer er $\text{gFak}_i$ og $\text{hFak}_i.$ Model svarende til det første kald siger, at hver undergruppe givet ved de to faktorer har sin egen middelværdi, $X_i\sim N(\mu_{\text{gFak}_i,\text{hFak}_i},\sigma^2).$ Model svarende til det andet kald siger, at middelværdien består af et bidrag fra gruppen bestemt af faktoren gFak plus et bidrag fra gruppen bestemt af faktoren hFak, $X_i\sim N(\eta_{\text{gFak}_i}+\zeta_{\text{hFak}_i},\sigma^2).$

Eksempel 4.6.3. (Soyabønner udsat for stress)

Vi betragter data omtalt i starten af dette afsnit omkring stresspåvirkning af soyaplanter. Lad $\text{Areal}_i$ være den stokastiske variabel, der angiver respons (bladareal), og lad $\text{lys}_i$ og $\text{stress}_i$ være de tilhørende værdier for de to faktorer lys og stress. Lad os starte med modellen

$M_0:\enspace \text{Areal}_i\sim N\big(\mu_{\text{lys}_i,\text{stress}_i}, \sigma^2_{\text{lys}_i,\text{stress}_i}\big),\enspace i=1,\ldots,42,$ hvor hver gruppe bestemt af lys*stress har sin egen middelværdi og sin egen varians, og de fire middelværdier og varianser kan variere frit. Først undersøges hypotesen om fælles varians:

$H:\enspace \sigma^2_{\text{Hoej},\text{Med}}= \sigma^2_{\text{Hoej},\text{Uden}}= \sigma^2_{\text{Lav},\text{Med}}= \sigma^2_{\text{Lav},\text{Uden}}.$ Beregningerne nedenfor i R viser, at Bartlett teststørrelsen er 1.16, og den tilhørende $p$ -værdi fra en $\chi^2(3)$ -fordeling er 0.76. Data strider således ikke mod hypotesen om samme varians i de fire grupper, og model $M_0$ kan reduceres til model $M_1$ :

$M_1:\enspace \text{Areal}_i\sim N\big(\mu_{\text{lys}_i,\text{stress}_i}, \sigma^2\big),\enspace i=1,\ldots,42,$ hvor de fire middelværdier og den fælles varians kan variere frit. Vi ønsker nu at teste reduktionen til den additive model

$M_2:\enspace \text{Areal}_i\sim N\big(\zeta_{\text{lys}_i}+\eta_{\text{stress}_i}, \sigma^2\big),\enspace i=1,\ldots,42.$ Vi har ovenfor lavet interaktionsplots, der viser overensstemmelse med den additive model. Parametertabellen hørende til model $M_1$ viser, at der kun er en enkelt parameter, der vedrører interaktionen mellem lys og stress nemlig lysLav:stressUden. Test for, at denne parameter kan sættes lig med nul, aflæses under $t$ -testet i parametertabellen, og giver en $p$ -værdi på 0.86. Konklusionen er derfor, at data ikke strider mod hypotesen om additivitet.

Vi laver nu en parametertabel for den additive model $M_2.$ Fra denne ses, at modellen ikke kan reduceres yderligere, idet et test for ingen effekt af lys giver $p$ -værdi på $7.1\cdot 10^{-9},$ og test for ingen effekt af stress giver en $p$ -værdi på 0.00015. Konfidensintervaller for de to effekter er $[-74,\,-40]$ og $[17,\,50]$ for henholdsvis $\zeta_{\text{Lav}}-\zeta_{\text{Hoej}}$ og $\eta_{\text{Uden}}-\eta_{\text{Med}}.$ Endelig er skønnet over spredningen 29.6. Der er således en tydelig effekt af både lys og stress.

4.6.4 Bartletts test og parametertabeller

Foregående Næste