Afsnit 6.7: Teste mere end to varianser ens

I afsnit 8.2 vil vi se på en situation, hvor data er delt op i mere end to grupper, og ønsker at sammenligne middelværdierne i grupperne. Det vil være naturligt at starte en analyse af data med at vurdere, om varianserne i grupperne kan antages ens. Vi ved fra afsnit 6.4, hvordan man kan lave et test for, at to varianser er ens, men hvordan gør vi, når det skal vurderes, om mere end to varianser er ens. Der er ikke en intuitiv oplagt måde at gøre dette på. Vi kan imidlertid bruge det generelle princip til at konstruere en teststørrelse omtalt i afsnit 3.2 (likelihood ratio test). Testet konstrueret på denne måde forbedrede M.S. $\,$ Bartlett i 1937, og det kendes derfor i dag som Bartletts test.

Antag, at der er $k$ grupper af observationer, og for hver gruppe $g=1,\ldots,k$ er der lavet et variansskøn $s_g^2$ med $\mathit{df}_{\text{\negthinspace} g}$ frihedsgrader:

$s_g^2\sim\sigma_g^2\chi^2(\mathit{df}_{\text{\negthinspace} g})/\mathit{df}_{\text{\negthinspace} g},$ og disse variansskøn er uafhængige. Vi ønsker at teste hypotesen, at varianserne er ens,

$H:\enspace \sigma_1^2=\sigma_2^2=\cdots = \sigma_k^2.$ For at beskrive teststørrelsen indføres først et fælles variansskøn under hypotesen,

$s^2=\frac{\sum_{g=1}^k\mathit{df}_{\text{\negthinspace} g}s_g^2}{\mathit{df}},\enspace \mathit{df}=\sum_{g=1}^k\mathit{df}_{\text{\negthinspace} g}.$ Bartletts test for ens varianser er på formen

$\mathit{Ba}=\frac{1}{C}\Big( \mathit{df}\cdot\ln(s^2)-\sum_{g=1}^k\mathit{df}_{\text{\negthinspace} g}\cdot\ln(s_g^2) \Big),\enspace C=1+\frac{1}{3(k-1)}\Big(\sum_{g=1}^k\frac{1}{\mathit{df}_{\text{\negthinspace} g}}- \frac{1}{\mathit{df}}\Big). \tag{6.7.1}$ Store værdier af Ba er kritiske for hypotesen, og $p$ -værdien for testet kan findes approksimativt som

$p\text{-værdi}=1-\chi^2_{\text{cdf}}(\mathit{Ba},k-1).$

Python har funktionen bartlett, der kan bruges til at lave Bartletts test. For at lave et mere simpelt kald har jeg imidlertid lavet funktionen bartlettGroup, som ligger den i filen pytFunktioner.py. Input til funktionen er en datatabel, navnet på søjlen med dataværdierne og navnet på søjlen, der skal bruges til at opdele data i grupper. I afsnit 8.5 skal I lave en opdeling baseret på to variable, hvilket kan gøres ved at skrive begge navnene på søjlerne med de relevante variable inden for kantede parenteser (en liste med søjlenavne). Den præcise struktur af kaldet fremgår af eksemplet nedenfor. Output er en tabel med Bartlettteststørrelsen, antal frihedsgrader i $\chi^2$ -fordelingen, og den approksimative $p$ -værdi.

Eksempel 6.7.1. (Simulerede normalfordelte data)

I kodevinduet nedenfor simuleres normalfordelte data fra $k$ grupper og der laves et Bartletts test for hypotesen om fælles varians.

Se opstartskoden (til/fra)

Prøv at køre koden nogle gange. Får du nogensinde en $p$ -værdi under 0.05 ? Prøv dernæst at ændre de fire spredningsværdier [1,1,1,1] til [1,1,2,2], og kør koden nogle gange igen. Får du nu flere $p$ -værdier under 0.05, eventuelt udelukkende $p$ -værdier under 0.05 ?

Lad $\chi^2_{\text{inv}}(0.95,k-1)$ være 95%-fraktilen i en $\chi^2(k-1)$ -fordeling. Hver gang vi får en værdi af Bartlettteststørrelsen over $\chi^2_{\text{inv}}(0.95,k-1)$ , vil $p$ -værdien være under 5%. Under hypotesen om ens varianser er teststørrelsen approksimativt $\chi^2(k-1)$ -fordelt, hvorfor vi får en værdi over $\chi^2_{\text{inv}}(0.95,k-1)$ i cirka 5% af tilfældene. Vi får altså en $p$ -værdi under 5% i cirka en ud af 20 gange.

Når varianserne ikke er ens, vil vi gerne opnå en $p$ -værdi under 5%. Præcist hvor ofte dette sker (kaldes styrken af testet) afhænger af, hvor stor forskel der er mellem varianserne, og hvor mange observationer vi har i hver gruppe.

Foregående Næste