Jeg har ovenfor indført to tests af hypotesen om ens middelværdier i
to normalfordelte populationer. Et test i situationen hvor
varianserne er ens og et andet, når varianserne i de to grupper er
forskellige. Hvorfor bruger vi to test i stedet for blot at nøjes
med testet, hvor det ikke antages, at varianserne er ens?
Svaret er, at hvis data ikke strider mod fælles varians, så får vi
et stærkere test for hypotesen om samme middelværdi. Et stærkere
test betyder, at man har nemmere ved at opdage en forskel i middelværdi,
hvilket kan aflæses i, at konfidensintervallet for forskellen
mellem de to middelværdier er smallere (97.5%-fraktilen i en
t(df)-fordeling falder med antalllet af frihedsgrader, og
frihedsgraderne i tilfældet med forskellige varianser er
dfW≤n1+n2−2).For at kunne afgøre hvilket af de to tests der skal brugs, skal man
overveje, om de to varianser er ens. Vi betragter derfor hypotesen
σ12=σ22 i
Statistisk Model 4.9.1
med Xji∼N(μj,σj2).
Samme varians svarer i et qqplot af de to observationssæt til, at
data snor sig om parallelle linjer. I et boxplot skal de
to kasser være cirka lige store.For at kunne bruge det test jeg nu vil indføre i andre modelsammenhænge,
betragter jeg en lidt mere generel situation. Antag, at vi har to
uafhængige variansskøn
Situationen under Statistisk Model 4.9.1
svarer til
df1=n1−1 og df2=n2−1. For at teste
hypotesen om samme varians σ12=σ22, vil jeg benytte
forholdet s12/s22, som bør være tæt på 1 under hypotesen.
Da
s22s12=s22/σ2s12/σ2=s22/σ22s12/σ12
under hypotesen, vil fordelingen af s12/s22 være fordelingen af
V1/V2, hvor V1 og V2 er uafhængige og
Vj∼χ2(dfj)/dfj.
Definition 4.12.1.
(F-fordeling)
Lad V1 og V2 være uafhængige,
V1∼χ2(df1)/df1 og
V2∼χ2(df2)/df2. Så siges V1/V2
at følge en F-fordeling med df1 frihedsgrader i tæller
og df2 frihedsgrader i nævner.
Fordelingsfunktionen betegnes
Fcdf(⋅,df1,df2)
og fraktiler betegnes
Finv(⋅,df1,df2). I
R er de tilsvarende funktioner
pf(⋅,df1,df2) og
qf(⋅,df1,df2).
I nedenstående kodevindue tegnes tætheden for en
F(df1,df2)-fordeling, og 2.5% og 97.5%
fraktilerne markeres. Desuden er medianen for fordelingen
markeret. Tætheden findes i R med kommandoen
df(⋅,df1,df2).
Prøv at køre koden med forskellige valg af
frihedsgradsantallene df1 og df2.
Ved det test, der laves nedenfor, bliver 2.5% og 97.5%
fraktilerne grænserne for, hvornår vi accepterer, og hvornår
vi forkaster.
Når man laver et test for hypotesen σ12=σ22
mod alternativet σ12=σ22, er både store og små
værdier (værdier langt fra 1) af s12/s22 kritiske.
Hvis derfor den observerede værdi Fobs af
s12/s22 er større end medianen, bruger vi som p-værdi 2 gange
sandsynlighed for at få en værdi over Fobs, og hvis
Fobs er mindre end medianen, bruger vi 2 gange
sandsynlighed for at få en værdi mindre end Fobs.
Med andre ord siger vi, at der er lige så stor en sandsynlighed
for kritiske værdier på den anden side af medianen som på den side
af medianen, hvor Fobs ligger. For at undgå at finde
medianen implementerer vi beregningen som i det følgende resultat.
Resultat 4.12.2.
(Teste to varianser ens)
For test af hypotesen σ12=σ22
mod σ12=σ22 i
Statistisk Model 4.9.1
benyttes s12/s22∼F(df1,df2), og
p-værdi beregnes som
Jeg vender tilbage til Eksempel 4.11.2
omkring tidsforbruget til at skrive en SMS-tekst på enten en
smartphone eller en tripelkodende mobil. Vi fandt i eksemplet,
at de to variansskøn er
Da p-værdien er langt under 0.05, bliver konklusionen, at
data strider mod samme varians ved brug af de to metoder til
at skrive SMS-teksten: der er større varians under brug af
den tripelkodende mobil.