Afsnit 4.2: Ensidet variansanalyse

The Data And Story Library (DASL) indeholder datasæt, der kan bruges til at afprøve forskellige statistiske metoder. Specielt kan man finde et datasæt, hvor en studerende har undersøgt, hvor effektiv forskellige former for håndvask er til at fjerne bakterier fra hænderne. Der undersøges fire metoder: vaske hænderne i vand, med almindelig sæbe, med antibakteriel sæbe og med antibakterial spray (indeholdende 65% ethanol).
Hver morgen vælges en af metoderne, hænderne vaskes, og hånden placeres på en steril plade beregnet til at fremskynde bakterivækst. Antallet af bakteriekolonier tælles efter 2 dage. Proceduren er fulgt i 32 dage, således at hver af de fire metoder er afprøvet otte gange. I kodevinduet nedenfor udskrives data på tabelform, og der laves et boxplot for hver af håndvaskmetoderne. Bemærk, at input til boxplot er en modelformel, der deler data op i de fire undergrupper givet ved faktoren metode. (I udskrift af datatabel, der dannes i outputvinduet, skal søjleoverskrifterne flyttes til højre.)

4.2.1 Boxplot og qqplot opdelt efter en faktor

I udskriften af datatabel nedenfor skal søjleoverskrifterne flyttes til højre.
Kasserne i boxplottene er cirka lige høje, hvilket indikerer, at der er samme varians i de fire grupper af håndvaskmetode. I afsnit 6.5 viser jeg et formelt test for hypotesen om samme varians. Boxplottene tyder også på, at der er forskel i middelværdien af bakterietallet for de fire metoder. Jeg vil nu indføre en statistisk model for situationen med data opdelt i grupper og lave et test for hypotesen om samme middelværdi i grupperne.

Vi betragter stokastiske variable og en faktor der deler data op i grupper. Faktoren deler op i grupper. Selvom faktorniveauerne er tekststrenge, vil det være bekvemt at ækvivalere disse med tallene svarende til for eksempel en leksikografisk ordning af tekststrengene. Vi betragter den ensidede variansanalysemodel, hvor middelværdien af er bestemt af faktorværdien På denne måde får modellen de middelværdiparametre Præcist skrives modellen (her kaldet ) som
Hypotesen, om at der er samme middelværdi i de grupper, kan skrives som
og alternativet er blot, at ikke alle middelværdier er ens. Under hypotesen befinder vi os i model :

4.2.1 Estimation og fordelingsresultater

Situationen her er blot en lille udvidelse af situationen med to grupper i afsnit 2.9. Under model gælder der, at
hvor er de indices blandt for hvilke (alle observationsnumre tilhørende gruppe ), er antal elementer i gruppe og er skønnet over variansen Uafhængigheden mellem og fra Resultat 2.3.1 giver, at variansskønnet er stokastisk uafhængig af skønnene over middelværdiparametrene
For model er vi tilbage til en normalfordelt observationsrække fra afsnit 2.3. Vi har derfor
I næste afsnit skal vi også bruge, at under model (samme middelværdi i alle grupperne) gælder der, at
og denne stokastiske variabel er uafhængig af Uafhængigheden følger af, at er uafhængig af og .
ForegåendeNæste