I afsnit 8.2 vil vi se på en situation,
hvor data er delt op i mere end to grupper, og ønsker at
sammenligne middelværdierne i grupperne. Det vil være
naturligt at starte en analyse af data med at vurdere, om
varianserne i grupperne kan antages ens.
Vi ved fra afsnit 6.4,
hvordan man kan lave et test for, at to varianser er ens,
men hvordan gør vi, når det skal vurderes, om mere end to varianser
er ens. Der er ikke en intuitiv oplagt måde at gøre dette på.
Vi kan imidlertid bruge det generelle princip til at
konstruere en teststørrelse omtalt i
afsnit 3.2 (likelihood ratio test).
Testet konstrueret på denne måde
forbedrede M.S.Bartlett i 1937, og det kendes derfor
i dag som Bartletts test. Antag, at der er grupper af observationer, og for hver gruppe
er
der lavet et variansskøn med frihedsgrader:
og disse variansskøn er uafhængige. Vi ønsker at teste hypotesen, at
varianserne er ens,
For at beskrive teststørrelsen indføres først et
fælles variansskøn under hypotesen,
Bartletts test for ens varianser er på formen
Store værdier af Ba er kritiske for hypotesen, og -værdien
for testet kan findes approksimativt som
Python har funktionen bartlett og MATLAB funktionen
vartestn der kan bruges til at lave Bartletts test. For at
lave et mere simpelt kald har jeg imidlertid lavet
funktionen bartlettGroup. I python-versionen ligger den i filen
pytFunktioner.py og i MATLAB-versionen i filen
bartlettGroup.m.
Input til funktionen er en datatabel, navnet på søjlen med dataværdierne
og navnet på søjlen, der skal bruges til at opdele data i
grupper. I afsnit 8.5 skal I lave en opdeling
baseret på to variable, hvilket kan gøres ved at skrive
begge navnene på søjlerne med de relevante variable.
Den præcise struktur af kaldet fremgår af eksemplet nedenfor.
Output er en tabel med Bartlettteststørrelsen, antal
frihedsgrader i -fordelingen, og
den approksimative -værdi.
Eksempel 6.7.1.
(Simulerede normalfordelte data)
I kodevinduet nedenfor simuleres normalfordelte data fra grupper
og der laves et Bartletts test for hypotesen om fælles varians.
Prøv at køre koden nogle gange. Får du nogensinde en -værdi
under 0.05 ? Prøv dernæst at ændre de fire spredningsværdier
[1,1,1,1] til [1,1,2,2], og kør koden nogle gange
igen. Får du nu flere -værdier under 0.05, eventuelt udelukkende
-værdier under 0.05 ?
Lad være 95%-fraktilen i en
-fordeling. Hver gang vi får en værdi af
Bartlettteststørrelsen over ,
vil -værdien være under 5%. Under hypotesen om ens varianser
er teststørrelsen approksimativt -fordelt,
hvorfor vi får en værdi over i
cirka 5% af tilfældene. Vi får altså en -værdi under
5% i cirka en ud af 20 gange. Når varianserne ikke er ens, vil vi gerne opnå en -værdi
under 5%. Præcist hvor ofte dette sker (kaldes styrken
af testet) afhænger af,
hvor stor forskel der er mellem varianserne, og hvor
mange observationer vi har i hver gruppe.