The Data And Story Library (DASL)
indeholder datasæt, der kan bruges til at afprøve forskellige
statistiske metoder. Specielt kan man finde et
datasæt,
hvor en
studerende har undersøgt, hvor effektiv forskellige former for
håndvask er til at fjerne bakterier fra hænderne.
Der undersøges fire metoder: vaske hænderne i vand, med almindelig sæbe,
med antibakteriel sæbe og med antibakterial spray (indeholdende 65% ethanol).
Hver morgen vælges en af metoderne, hænderne vaskes, og hånden placeres
på en steril plade beregnet til at fremskynde bakterivækst. Antallet
af bakteriekolonier tælles efter 2 dage. Proceduren er fulgt i 32 dage,
således at hver af de fire metoder er afprøvet otte gange.
I kodevinduet nedenfor
udskrives data på tabelform, og der laves et boxplot for hver af
håndvaskmetoderne. I python findes en udgave af boxplot,
som er tilknyttet
en dataframe, hvor man angiver navnet på søjlen med dataværdierne og eventuelt
navn, eller navne, på søjler, der skal bruges til at inddele data i
grupper. Dette er anderledes end kaldet til boxplotfunktionen i kapitel
6.
Kasserne i boxplottene er cirka lige høje, hvilket indikerer, at
der er samme varians i de fire grupper af håndvaskmetode.
For at lave et formelt test
lader vi bakti være bakteritallet for den i'te måling
og lader metodei være den tilhørende metode til
håndvask. Vi betragter modellen
Bakti∼N(μmetodei,σmetodei2),i=1,…,32,
hvor både middelværdien og variansen afhænger af gruppen.
I det følgende kodevindue beregnes Bartletts test for hypotesen
om ens varianser
σantibakspray2=σantisaebe2=σsaebe2=σvand2.
xxxxxxxxxx
1
# bakt0 og metode0 er indskrevet i opstartskode ovenfor
2
# datatabel dannes
3
# (hvis data indlæses med read_csv har man allerede en datatabel)
I output ses, at teststørrelsen er Ba=2.6325,
og den approksimative p-værdi fra en χ2(3)-fordeling er
0.4518. Da denne er over 0.05, er konklusionen, at data ikke strider mod
hypotesen om samme varians for de fire metoder til håndvask.
I det følgende indføres en statistisk model
for situationen med data opdelt i grupper, og der laves et test
for hypotesen om samme middelværdi i grupperne. Vi betragter n stokastiske variable X1,…,Xn og en
faktor G, der deler data op i grupper. Faktoren deler op i k
grupper. Selvom faktorniveauerne er tekststrenge, vil det være bekvemt
at ækvivalere disse med tallene 1,2,…,k, svarende til for eksempel
en leksikografisk ordning af tekststrengene.
Som i det skjulte punkt ovenfor starter vi med modellen, hvor både
middelværdi og varians kan afhænge af gruppen.
Statistisk Model 8.2.2.
(Grundlæggende enkeltfaktor gruppemodel)
Vi betragter uafhængige stokastiske variable
X1,…,Xn, der deles ind i grupper efter en faktor G med
faktorniveauerne 1,2,…,k. Hver gruppe har sin egen middelværdi
og varians,
Den ensidede variansanalysemodel er undermodellen,
alle grupperne har den samme varians.
Statistisk Model 8.2.3.
(Ensidet variansanalysemodel (oneway anova))
Vi betragter uafhængige stokastiske variable
X1,…,Xn, der deles ind i grupper efter en faktor G med
faktorniveauerne 1,2,…,k. Hver gruppe har sin egen middelværdi
og alle grupperne har den samme varians,
Xi∼N(μGi,σ2),i=1,…,n,(μ1,…,μk,σ)∈Rk×R+.
Den ensidede variansanalysemodel indeholder de k middelværdiparametre
(μ1,…,μk), og vi er specielt interesseret i hypotesen
at der er samme middelværdi i alle grupperne,
μ1=μ2=⋯=μk,
og alternativet er blot, at ikke alle k middelværdier er ens.
Under hypotesen om ens middelværdier befinder vi os i
Statistisk Model 4.3.1 med en enkelt normalfordelt
observationsrække, her formuleret som
Xi∼N(ξi,σ2),ξi=μ,i=1,…,n,(μ,σ)∈R×R+.(8.2.1)
8.2.1 Estimation og fordelingsresultater
Situationen her er blot en lille udvidelse af situationen
med to grupper i afsnit 6.1.
Under den ensidede variansanalysemodel,
som vi her betegner model M1, gælder der, at
hvor Ig er de indices blandt 1,…,n, for
hvilke Gi=g (alle observationsnumre tilhørende
gruppe g), ng er antal elementer i gruppe g,
og s2(M1) er skønnet over variansen
σ2.Under hypotesen om ens middelværdier befinder vi os i model
(8.2.1), som vi har betegner model M2.
Fra afsnit 4.3 har vi