Afsnit 8.2: Ensidet variansanalyse

The Data And Story Library (DASL) indeholder datasæt, der kan bruges til at afprøve forskellige statistiske metoder. Specielt kan man finde et datasæt, hvor en studerende har undersøgt, hvor effektiv forskellige former for håndvask er til at fjerne bakterier fra hænderne. Der undersøges fire metoder: vaske hænderne i vand, med almindelig sæbe, med antibakteriel sæbe og med antibakterial spray (indeholdende 65% ethanol).
Hver morgen vælges en af metoderne, hænderne vaskes, og hånden placeres på en steril plade beregnet til at fremskynde bakterivækst. Antallet af bakteriekolonier tælles efter 2 dage. Proceduren er fulgt i 32 dage, således at hver af de fire metoder er afprøvet otte gange. I kodevinduet nedenfor udskrives data på tabelform, og der laves et boxplot for hver af håndvaskmetoderne. I python findes en udgave af boxplot, som er tilknyttet en dataframe, hvor man angiver navnet på søjlen med dataværdierne og eventuelt navn, eller navne, på søjler, der skal bruges til at inddele data i grupper. Dette er anderledes end kaldet til boxplotfunktionen i kapitel 6.

8.2.1 Boxplot opdelt efter faktor

Se opstartskoden (til/fra)

Kasserne i boxplottene er cirka lige høje, hvilket indikerer, at der er samme varians i de fire grupper af håndvaskmetode. For at lave et formelt test lader vi bakti\mathit{bakt}_i være bakteritallet for den ii'te måling og lader metodei\mathit{metode}_i være den tilhørende metode til håndvask. Vi betragter modellen
BaktiN(μmetodei,σmetodei2),i=1,,32, \text{Bakt}_i\sim N\big(\mu_{\text{metode}_i}, \sigma_{\text{metode}_i}^2\big),\enspace i=1,\ldots,32,
hvor både middelværdien og variansen afhænger af gruppen. I det følgende kodevindue beregnes Bartletts test for hypotesen om ens varianser
σantibakspray2=σantisaebe2=σsaebe2=σvand2. \sigma^2_{\text{antibakspray}}=\sigma^2_{\text{antisaebe}} =\sigma^2_{\text{saebe}}=\sigma^2_{\text{vand}}.
I output ses, at teststørrelsen er Ba=2.6325,\text{Ba}=2.6325, og den approksimative pp-værdi fra en χ2(3)\chi^2(3)-fordeling er 0.4518.0.4518. Da denne er over 0.05, er konklusionen, at data ikke strider mod hypotesen om samme varians for de fire metoder til håndvask.

I det følgende indføres en statistisk model for situationen med data opdelt i grupper, og der laves et test for hypotesen om samme middelværdi i grupperne.
Vi betragter nn stokastiske variable X1,,XnX_1,\ldots,X_n og en faktor G,G, der deler data op i grupper. Faktoren deler op i kk grupper. Selvom faktorniveauerne er tekststrenge, vil det være bekvemt at ækvivalere disse med tallene 1,2,,k,1,2,\ldots,k, svarende til for eksempel en leksikografisk ordning af tekststrengene. Som i det skjulte punkt ovenfor starter vi med modellen, hvor både middelværdi og varians kan afhænge af gruppen.
Statistisk Model 8.2.2. (Grundlæggende enkeltfaktor gruppemodel)
Vi betragter uafhængige stokastiske variable X1,,Xn,X_1,\ldots,X_n, der deles ind i grupper efter en faktor GG med faktorniveauerne 1,2,,k.1,2,\ldots,k. Hver gruppe har sin egen middelværdi og varians,
XiN(μGi,σGi2),i=1,,n,(μ1,,μk,σ1,,σk)Rk×R+k. X_{i}\sim N(\mu_{G_i},\sigma_{G_i}^2),\enspace i=1,\ldots,n,\enspace (\mu_1,\ldots,\mu_k,\sigma_1,\ldots,\sigma_k)\in \mathbf{R}^k\times \mathbf{R}^k_+.
Den ensidede variansanalysemodel er undermodellen, alle grupperne har den samme varians.
Statistisk Model 8.2.3. (Ensidet variansanalysemodel (oneway anova))
Vi betragter uafhængige stokastiske variable X1,,Xn,X_1,\ldots,X_n, der deles ind i grupper efter en faktor GG med faktorniveauerne 1,2,,k.1,2,\ldots,k. Hver gruppe har sin egen middelværdi og alle grupperne har den samme varians,
XiN(μGi,σ2),i=1,,n,(μ1,,μk,σ)Rk×R+. X_{i}\sim N(\mu_{G_i},\sigma^2),\enspace i=1,\ldots,n,\enspace (\mu_1,\ldots,\mu_k,\sigma)\in \mathbf{R}^k\times \mathbf{R}_+.
Den ensidede variansanalysemodel indeholder de kk middelværdiparametre (μ1,,μk),(\mu_1,\ldots,\mu_k), og vi er specielt interesseret i hypotesen at der er samme middelværdi i alle grupperne,
μ1=μ2==μk, \mu_1=\mu_2=\cdots=\mu_k,
og alternativet er blot, at ikke alle kk middelværdier er ens. Under hypotesen om ens middelværdier befinder vi os i Statistisk Model 4.3.1 med en enkelt normalfordelt observationsrække, her formuleret som
XiN(ξi,σ2),ξi=μ,i=1,,n,(μ,σ)R×R+.(8.2.1) X_i\sim N\big(\xi_i,\sigma^2\big),\enspace \xi_i=\mu,\enspace i=1,\ldots,n, \enspace (\mu,\sigma)\in \mathbf{R}\times\mathbf{R}_+. \tag{8.2.1}

8.2.1 Estimation og fordelingsresultater

Situationen her er blot en lille udvidelse af situationen med to grupper i afsnit 6.1. Under den ensidede variansanalysemodel, som vi her betegner model M1M_1, gælder der, at
μ^g=Xˉg=1ngiIgXiN(μg,σ2ng),g=1,,k,s2(M1)=1nki(XiXˉGi)2σ2χ2(nk)/(nk),\begin{aligned} & \hat\mu_g=\bar X_g=\frac{1}{n_g}\sum_{i\in I_g}X_i\sim N\Big(\mu_g,\frac{\sigma^2}{n_g}\Big),\enspace g=1,\ldots,k, \\ & s^2(M_1)=\frac{1}{n-k}\sum_i(X_i-\bar X_{G_i})^2 \sim \sigma^2\chi^2(n-k)/(n-k), \end{aligned}
hvor IgI_g er de indices blandt 1,,n,1,\ldots,n, for hvilke Gi=gG_i=g (alle observationsnumre tilhørende gruppe gg), ngn_g er antal elementer i gruppe g,g, og s2(M1)s^2(M_1) er skønnet over variansen σ2.\sigma^2.
Under hypotesen om ens middelværdier befinder vi os i model (8.2.1), som vi har betegner model M2M_2. Fra afsnit 4.3 har vi
μ^=Xˉ=1niXiN(μ,σ2n),s2(M2)=1n1i(XiXˉ)2σ2χ2(n1)/(n1).\begin{aligned} & \hat\mu=\bar X=\frac{1}{n}\sum_{i}{X_i}\sim N\Big(\mu,\frac{\sigma^2}{n}\Big), \\ & s^2(M_2)=\frac{1}{n-1}\sum_i(X_i-\bar X)^2 \sim \sigma^2\chi^2(n-1)/(n-1). \end{aligned}
I næste afsnit skal vi også bruge, at under model M2M_2 (samme middelværdi i alle grupperne) gælder der, at
s2(M1,M2)=1k1i(XˉGiXˉ)2=1k1gng(XˉgXˉ)2σ2χ2(k1)/(k1), s^2(M_1,M_2)=\frac{1}{k-1}\sum_i(\bar X_{G_i}-\bar X)^2 = \frac{1}{k-1}\sum_gn_g(\bar X_{g}-\bar X)^2 \sim \sigma^2\chi^2(k-1)/(k-1),
og denne stokastiske variabel er uafhængig af s2(M1).s^2(M_1).
ForegåendeNæste