I de to foregående afsnit har vi undersøgt, om det kan antages, at
middelværdierne er ens i to grupper. Det kan også være af interesse
at undersøge, om varianserne er ens. For eksempel kan man se på,
om der er forskel i måleusikkerheden i to laboratorier
eller i to forskellige måleinstrumenter. Forskelle i to populationer
(population forstået bredt) kan både påvirke middelværdi og varians,
og her kan det også være af interesse at sammenligne varianserne, et
eksempel kan være virkningen af to forskellige katalysatorer. For to grupper af normalfordelte observationer betragter vi
hypotesen i
Statistisk Model 6.1.1
med
Samme varians svarer i et qqplot af de to observationssæt til, at
data snor sig om parallelle linjer. I et boxplot skal de
to kasser være cirka lige store.For at kunne bruge det test jeg nu vil indføre i andre modelsammenhænge,
betragter jeg en lidt mere generel situation. Antag, at vi har to
uafhængige variansskøn
Situationen under model
Statistisk Model 6.1.1
svarer til
og For at teste
hypotesen om samme varians vil jeg benytte
forholdet som bør være tæt på 1 under hypotesen.
Da
under hypotesen, vil fordelingen af være fordelingen af
hvor og er uafhængige og
Definition 6.4.1.
(-fordeling)
Lad og være uafhængige,
og
Så siges
at følge en -fordeling med frihedsgrader i tæller
og frihedsgrader i nævner.
Fordelingsfunktionen udregnet i betegnes
og -fraktilen betegnes
I
python er de tilsvarende funktioner
og
(hvor scipy.stats er importeret som st).
I nedenstående kodevindue tegnes tætheden for en
-fordeling, og 2.5% og 97.5%
fraktilerne markeres. Desuden er medianen for fordelingen
markeret. Tætheden findes i python med kommandoen
Prøv at køre koden med forskellige valg af
frihedsgradsantallene og
Ved det test, der laves nedenfor, bliver 2.5% og 97.5%
fraktilerne grænserne for, hvornår vi accepterer, og hvornår
vi forkaster.
Når man laver et test for hypotesen
mod alternativet er både store og små
værdier af kritiske. Store og små værdier skal ses i
forhold til et midtpunkt for fordelingen (medianen), som er det punkt
hvor der er sandsynlighed 0.5 for værdier under og
sandsynlighed 0.5 for værdier over.
Hvis derfor den oberverede værdi af
er større end medianen, bruger vi som -værdi 2 gange
sandsynlighed for at få en værdi over og hvis
er mindre end medianen, bruger vi 2 gange
sandsynlighed for at få en værdi mindre end
Med andre ord siger vi, at der er lige så stor en sandsynlighed
for kritiske værdier på den anden side af medianen som på den side
af medianen, hvor ligger. For at undgå at finde
medianen implementerer vi beregningen som i det følgende resultat.
Resultat 6.4.2.
(Teste to varianser ens)
For test af hypotesen
mod i
Statistisk Model 6.1.1
benyttes og
-værdi beregnes som
hvor er den observerede værdi af Endvidere er et 95%-konfidensinterval for forholdet mellem de to varianser,
det vil sige for parameteren givet ved
Konfidensintervallet for forholdet mellem de to varianser fås ved at bruge
Eksempel 6.4.3.
(Opdagelsen af Argon)
Jeg vender tilbage til Eksempel 6.3.2
omkring massen af kvælstof udvundet på to forskellige måder.
Vi fandt i eksemplet,
at de to variansskøn er
Herudfra kan man beregne -teststørrelsen for hypotesen
om samme varians,
Da -værdien er langt under 0.05, strider data
mod hypotesen om samme varians ved de to
metoder til udvinding af kvælstof. Et 95%-konfidensinterval for forholdet
bliver
Skønnet over forholdet mellem de to varianser er 0.010, og
konfidensintervallet viser, at forholdet kan være så lavt som
0.002. Det brede konfideninterval skyldes, at vi kun har
henholdsvis 7 og 8 observationer i de to grupper.
Har I viden, der kan forklare, at variansen er meget lavere
for eksperimentet, hvor der fjernes ilt fra atmosfæren ?