Afsnit 4.2: Ensidet variansanalyse

The Data And Story Library (DASL) indeholder datasæt, der kan bruges til at afprøve forskellige statistiske metoder. Specielt kan man finde et datasæt, hvor en studerende har undersøgt, hvor effektiv forskellige former for håndvask er til at fjerne bakterier fra hænderne. Der undersøges fire metoder: vaske hænderne i vand, med almindelig sæbe, med antibakteriel sæbe og med antibakterial spray (indeholdende 65% ethanol).

Hver morgen vælges en af metoderne, hænderne vaskes, og hånden placeres på en steril plade beregnet til at fremskynde bakterivækst. Antallet af bakteriekolonier tælles efter 2 dage. Proceduren er fulgt i 32 dage, således at hver af de fire metoder er afprøvet otte gange. I kodevinduet nedenfor udskrives data på tabelform, og der laves et boxplot for hver af håndvaskmetoderne. Bemærk, at input til boxplot er en modelformel, der deler data op i de fire undergrupper givet ved faktoren metode. (I udskrift af datatabel, der dannes i outputvinduet, skal søjleoverskrifterne flyttes til højre.)

4.2.1 Boxplot og qqplot opdelt efter en faktor

I udskriften af datatabel nedenfor skal søjleoverskrifterne flyttes til højre.

Kasserne i boxplottene er cirka lige høje, hvilket indikerer, at der er samme varians i de fire grupper af håndvaskmetode. I afsnit 6.5 viser jeg et formelt test for hypotesen om samme varians. Boxplottene tyder også på, at der er forskel i middelværdien af bakterietallet for de fire metoder. Jeg vil nu indføre en statistisk model for situationen med data opdelt i grupper og lave et test for hypotesen om samme middelværdi i grupperne.

Vi betragter $n$ stokastiske variable $X_1,\ldots,X_n$ og en faktor $G,$ der deler data op i grupper. Faktoren deler op i $k$ grupper. Selvom faktorniveauerne er tekststrenge, vil det være bekvemt at ækvivalere disse med tallene $1,2,\ldots,k,$ svarende til for eksempel en leksikografisk ordning af tekststrengene. Vi betragter den ensidede variansanalysemodel, hvor middelværdien af $X_i$ er bestemt af faktorværdien $G_i.$ På denne måde får modellen de $k$ middelværdiparametre $(\mu_1,\ldots,\mu_k).$ Præcist skrives modellen (her kaldet $M_1$ ) som

$\begin{aligned} M_1:\enspace &X_i\sim N\big(\xi_i,\sigma^2\big),\enspace \xi_i=\mu_{G_i},\enspace i=1,\ldots,n, \quad (\mu_1,\ldots,\mu_k,\sigma^2)\in \mathbf{R}^k\times\mathbf{R}_+. \end{aligned}\tag{4.2.1}$ Hypotesen, om at der er samme middelværdi i de $k$ grupper, kan skrives som

$\mu_1=\mu_2=\cdots=\mu_k,$ og alternativet er blot, at ikke alle $k$ middelværdier er ens. Under hypotesen befinder vi os i model $M_2$ :

$\begin{aligned} M_2:\enspace & X_i\sim N\big(\xi_i,\sigma^2\big),\enspace \xi_i=\mu,\enspace i=1,\ldots,n, \quad (\mu,\sigma^2)\in \mathbf{R}\times\mathbf{R}_+. \end{aligned}\tag{4.2.2}$

4.2.1 Estimation og fordelingsresultater

Situationen her er blot en lille udvidelse af situationen med to grupper i afsnit 2.9. Under model $M_1$ gælder der, at

$\begin{aligned} & \hat\mu_g=\bar X_g=\frac{1}{n_g}\sum_{i\in I_g}X_i\sim N\Big(\mu_g,\frac{\sigma^2}{n_g}\Big),\enspace g=1,\ldots,k, \\ & s^2(M_1)=\frac{1}{n-k}\sum_i(X_i-\bar X_{G_i})^2 \sim \sigma^2\chi^2(n-k)/(n-k), \end{aligned}$ hvor $I_g$ er de indices blandt $1,\ldots,n,$ for hvilke $G_i=g$ (alle observationsnumre tilhørende gruppe $g$ ), $n_g$ er antal elementer i gruppe $g,$ og $s^2(M_1)$ er skønnet over variansen $\sigma^2.$ Uafhængigheden mellem $\hat\mu_g$ og $\sum_{i\in I_g}(X_i-\bar X_g)^2$ fra Resultat 2.3.1 giver, at variansskønnet $s^2(M_1)$ er stokastisk uafhængig af skønnene over middelværdiparametrene $(\hat\mu_1,\ldots,\hat\mu_k).$

For model $M_2$ er vi tilbage til en normalfordelt observationsrække fra afsnit 2.3. Vi har derfor

$\begin{aligned} & \hat\mu=\bar X=\frac{1}{n}\sum_{i}{X_i}\sim N\Big(\mu,\frac{\sigma^2}{n}\Big), \\ & s^2(M_2)=\frac{1}{n-1}\sum_i(X_i-\bar X)^2 \sim \sigma^2\chi^2(n-1)/(n-1). \end{aligned}$

I næste afsnit skal vi også bruge, at under model $M_2$ (samme middelværdi i alle grupperne) gælder der, at

$s^2(M_1,M_2)=\frac{1}{k-1}\sum_i(\bar X_{G_i}-\bar X)^2 = \frac{1}{k-1}\sum_gn_g(\bar X_{g}-\bar X)^2 \sim \sigma^2\chi^2(k-1)/(k-1),$ og denne stokastiske variabel er uafhængig af $s^2(M_1).$ Uafhængigheden følger af, at $s^2(M_1)$ er uafhængig af $(\bar X_1,\ldots,\bar X_k),$ og $\bar X=\sum_gn_g\bar X_g/n$ .

Foregående Næste