Afsnit 6.2: Ensidet variansanalyse

The Data And Story Library (DASL) indeholder datasæt, der kan bruges til at afprøve forskellige statistiske metoder. Specielt kan man finde et datasæt, hvor en studerende har undersøgt, hvor effektiv forskellige former for håndvask er til at fjerne bakterier fra hænderne. Der undersøges fire metoder: vaske hænderne i vand, med almindelig sæbe, med antibakteriel sæbe og med antibakterial spray (indeholdende 65% ethanol).

Hver morgen vælges en af metoderne, hænderne vaskes, og hånden placeres på en steril plade beregnet til at fremskynde bakterivækst. Antallet af bakteriekolonier tælles efter 2 dage. Proceduren er fulgt i 32 dage, således at hver af de fire metoder er afprøvet otte gange. I kodevinduet nedenfor udskrives data på tabelform, og der laves et boxplot for hver af håndvaskmetoderne. Bemærk, at input til boxplot er en modelformel, der deler data op i de fire undergrupper givet ved faktoren metode, hvilket er anderledes end kaldet til boxplotfunktionen i afsnit 4.8. I kodevinduet laves desuden en figur med qqplots for de fire datasæt. Her dannes først et qqplot for det ene datasæt, og de tre andre tilføjes ved brug af points.

6.2.1 Boxplot og qqplot opdelt efter en faktor

I udskriften af datatabel nedenfor skal søjleoverskrifterne flyttes til højre.

xxxxxxxxxx
 
# data indskrives
bakt=c(74,84,70,51,135,51,164,5,102,110,88,19,124,67,111,18,
105,119,73,58,139,108,119,50,170,207,20,82,87,102,95,17)
metode=factor(rep(c("vand","saebe","antisaebe","antibakspray"),8))
​
# boxplots og qqplots dannes
par(mfrow=c(1,2))
boxplot(bakt~metode)
​
qqnorm(bakt[metode=="vand"],ylim=range(bakt))
points(qqnorm(bakt[metode=="saebe"],plot=FALSE),col=2,pch=20)
points(qqnorm(bakt[metode=="antisaebe"],plot=FALSE),col=3,pch=2)
points(qqnorm(bakt[metode=="antibakspray"],plot=FALSE),col=4,pch=3)
legend("topleft",legend=c("v","s","as","ab"),col=c(1,2,3,4),pch=c(1,20,2,3))
​
# datatabel udskrives
data.frame(Metode=metode,Bakterietal=bakt)

Kasserne i boxplottene er cirka lige høje, hvilket indikerer, at der er samme varians i de fire grupper af håndvaskmetode. I afsnit 6.5 viser jeg et formelt test for hypotesen om samme varians. Boxplottene tyder også på, at der er forskel i middelværdien af bakterietallet for de fire metoder. Jeg vil nu indføre en statistisk model for situationen med data opdelt i grupper og lave et test for hypotesen om samme middelværdi i grupperne.

I det følgende indføres en statistisk model for situationen med data opdelt i grupper, og der laves et test for hypotesen om samme middelværdi i grupperne.

Vi betragter

n

stokastiske variable

X_1,\ldots,X_n

og en faktor

G,

der deler data op i grupper. Faktoren deler op i

k

grupper. Selvom faktorniveauerne er tekststrenge, vil det være bekvemt at ækvivalere disse med tallene

1,2,\ldots,k,

svarende til for eksempel en leksikografisk ordning af tekststrengene. Som i det skjulte punkt ovenfor starter vi med modellen, hvor både middelværdi og varians kan afhænge af gruppen.

Statistisk Model 6.2.2. (Grundlæggende enkeltfaktor gruppemodel)

Vi betragter uafhængige stokastiske variable

X_1,\ldots,X_n,

der deles ind i grupper efter en faktor

G

med faktorniveauerne

1,2,\ldots,k.

Hver gruppe har sin egen middelværdi og varians,

X_{i}\sim N(\mu_{G_i},\sigma_{G_i}^2),\enspace i=1,\ldots,n,\enspace (\mu_1,\ldots,\mu_k,\sigma_1,\ldots,\sigma_k)\in \mathbf{R}^k\times \mathbf{R}^k_+.

Den ensidede variansanalysemodel er undermodellen, alle grupperne har den samme varians.

Statistisk Model 6.2.3. (Ensidet variansanalysemodel (oneway anova))

Vi betragter uafhængige stokastiske variable

X_1,\ldots,X_n,

der deles ind i grupper efter en faktor

G

med faktorniveauerne

1,2,\ldots,k.

Hver gruppe har sin egen middelværdi og alle grupperne har den samme varians,

X_{i}\sim N(\mu_{G_i},\sigma^2),\enspace i=1,\ldots,n,\enspace (\mu_1,\ldots,\mu_k,\sigma)\in \mathbf{R}^k\times \mathbf{R}_+.

Den ensidede variansanalysemodel indeholder de

k

middelværdiparametre

(\mu_1,\ldots,\mu_k),

og vi er specielt interesseret i hypotesen at der er samme middelværdi i alle grupperne,

\mu_1=\mu_2=\cdots=\mu_k,

og alternativet er blot, at ikke alle

k

middelværdier er ens. Under hypotesen om ens middelværdier befinder vi os i Statistisk Model 4.3.1 med en enkelt normalfordelt observationsrække, her formuleret som

X_i\sim N\big(\xi_i,\sigma^2\big),\enspace \xi_i=\mu,\enspace i=1,\ldots,n, \enspace (\mu,\sigma)\in \mathbf{R}\times\mathbf{R}_+. \tag{6.2.1}

6.2.1 Estimation og fordelingsresultater

Situationen her er blot en lille udvidelse af situationen med to grupper i afsnit 4.9. Under den ensidede variansanalysemodel, som vi her betegner model

M_1

, gælder der, at

\begin{aligned} & \hat\mu_g=\bar X_g=\frac{1}{n_g}\sum_{i\in I_g}X_i\sim N\Big(\mu_g,\frac{\sigma^2}{n_g}\Big),\enspace g=1,\ldots,k, \\ & s^2(M_1)=\frac{1}{n-k}\sum_i(X_i-\bar X_{G_i})^2 \sim \sigma^2\chi^2(n-k)/(n-k), \end{aligned}

hvor

I_g

er de indices blandt

1,\ldots,n,

for hvilke

G_i=g

(alle observationsnumre tilhørende gruppe

g

n_g

er antal elementer i gruppe

g,

s^2(M_1)

er skønnet over variansen

\sigma^2.

Under hypotesen om ens middelværdier befinder vi os i model (6.2.1), som vi har betegner model

M_2

. Fra afsnit 4.3 har vi

\begin{aligned} & \hat\mu=\bar X=\frac{1}{n}\sum_{i}{X_i}\sim N\Big(\mu,\frac{\sigma^2}{n}\Big), \\ & s^2(M_2)=\frac{1}{n-1}\sum_i(X_i-\bar X)^2 \sim \sigma^2\chi^2(n-1)/(n-1). \end{aligned}

I næste afsnit skal vi også bruge, at under model

M_2

(samme middelværdi i alle grupperne) gælder der, at

s^2(M_1,M_2)=\frac{1}{k-1}\sum_i(\bar X_{G_i}-\bar X)^2 = \frac{1}{k-1}\sum_gn_g(\bar X_{g}-\bar X)^2 \sim \sigma^2\chi^2(k-1)/(k-1),

og denne stokastiske variabel er uafhængig af

s^2(M_1).

Foregående Næste