Afsnit 4.11: Teste middelværdier ens når varianser er forskellige
Vi betragter nu Statistisk Model 4.9.1 med to grupper
af normalfordelte observationer med hver sin middelværdi og
hver sin varians, Xji∼N(μj,σj2).
Vi ønsker stadig at teste de to middelværdier ens, det vil sige
hypotesen μ1=μ2. Hvis middelværdierne er ens, er de to fordelinger centreret
omkring det samme punkt, men den ene fordeling spreder sig
ud over et større område end den anden fordeling.
Alternativet, hvor middelværdierne er forskellige, skal man
passe på, hvordan man fortolker. Hvis for eksempel μ1<μ2,
vil man nemt danne sig det mentale billede, at observationerne fra
gruppe 1 vil ligge under observationerne fra gruppe 2, men hvis
samtidigt σ1>σ2, vil der være et punkt x0, således at
for x>x0 vil der være større sandsynlighed i gruppe 1 end i
gruppe 2 for at få en værdi over x. Som et konkret eksempel
kan vi sige σ1=2σ2 og μ1=μ2−σ2, hvor der
så gælder, at μ2+σ2=μ1+σ1, hvilket er 84.1%-fraktilen
i begge fordelinger. Den følgende figur med normalfordelingstætheder
illustrerer eksemplet,
hvor den højre del er situationen med forskellig varians.
Ligesom i konstruktionen af de to t-tests tidligere i dette kapitel
starter vi med en standardisering:
σ12/n1+σ22/n2Xˉ1−Xˉ2∼N(0,1).
Da σ1 og σ2 ikke kendes, kan den standardiserede størrelse
ikke bruges direkte, og i stedet erstattes σj2 med
den empiriske varians sj2,
T=s12/n1+s22/n2Xˉ1−Xˉ2.(4.11.1)
I modsætning til tidligere er denne teststørrelse ikke t-fordelt
på grund af de forskellige varianser. Faktisk afhænger fordelingen
af T stadig af de ukendte varianser σ12 og σ22.
Man har dog kunnet vise matematisk, at som en approksimation
kan man bruge en t-fordeling til beregning af p-værdi,
hvor antallet af frihedsgrader i t-fordelingen afhænger af data
gennem s12 og s22.
Resultat 4.11.1.
(Welch's t-test)
Til at teste hypotesen om ens middelværdier, μ1=μ2 mod
alternativet μ1=μ2, i model
M0 hvor hver gruppe har sin egen varians, benyttes teststørrelsen
T fra (4.11.1) med tilhørende
observeret værdi tobs, og en approksimativ
p-værdi beregnes som
Man kan vise, at dfW altid er større end eller lig med
det mindste af de to frihedsgradsantal n1−1 og n2−1,
og mindre end eller lig med
n1+n2−2. Metoden givet ovenfor kaldes Welch's t-test. Spørgmålet, om der findes et eksakt test for hypotesen
μ1=μ2, kendes under navnet
Behrens–Fisher problem.
Eksempel 4.11.2.
(Menneske-maskine interaktion)
Menneske-maskine interaktion
(human-computer interaction, HCI)
er et vigtigt område under informationteknologi.
I eksemplet her vil jeg se på tidsforbruget til at skrive en SMS.
For en del år siden lavede en australsk skoleklasse et eksperiment,
hvor en række personer blev bedt om at skrive en SMS med teksten
The quick brown fox jumps over the lazy dog.
Teksten er et pangram, det vil sige, at alle alfabetets bogstaver optræder.
Data var delt op på to aldersgrupper med en tydelig forskel i tidsforbrug
mellem de to aldersgrupper. Desværre ser det ud til, at data ikke længere kan
findes på nettet. Jeg vil i stedet bruge data
inspireret af det australske eksperiment, som jeg selv har indsamlet
ved en forelæsning.
Jeg brugte et dansk pangram:
"Dansk jomfru på Ærø kyler halvsexet quizbog ned i wc",
og delte op efter, om der blev brugt en smartphone med fuldt tastatur
eller en "gammeldags" mobil, hvor hver knap koder for tre bogstaver
(tripelkodende mobil).
Data i dette eksempel vedrører udelukkende kvindelige deltagere i
eksperimentet. Der var 27 kvinder, der brugte en smartphone, og
33 der brugte en tripelkodende mobil. Data er givet i sekunder. Vi lader Tidji være tidsforbrug for den i'te kvinde
i den j'te gruppe (gruppe sm: smartphone,
gruppe tr: tripelkodende mobil).
Vi benytter modellen Tidji∼N(μj,σj2),
idet data i qqplots snor sig nogenlunde om rette linjer (kør
koden i kodevinduet nedenfor).
Både qqplots og boxplots peger i retning af forskellige varianser
i de to populationer. Vi ønsker med eksperimentet at undersøge, om de to teknologier
er lige gode med hensyn til at skrive en SMS-besked,
formuleret som hypotesen at de to middelværdier er ens
μsm=μtr.T-teststørrelsen for denne hypotese,
når varianserne er forskellige, bliver
Den tilhørende p-værdi fra en t(49.61)-fordeling er
p-værdi=2⋅(0.000391)=0.000782.
Da denne er meget mindre 0.05, bliver konklusionen, at data strider mod
samme middelværdi, og da
Tidsm<Tidtr,
tyder data altså på, at det er hurtigere at skrive en besked
på en smartphone fremfor en tripelkodende mobil. Forskellen i tidsforbruget ved brug af de to mobiltyper kan angives
ved et 95%-konfidensinterval for forskellen i middelværdi.
Hertil finder vi 97.5%-fraktilen i en t(49.61)-fordeling,
t0=tinv(0.975,49.61)=2.0090, og konfidensintervallet bliver
Middelværdien af tidsforbruget ved brug af smartphone
ligger mellem 4.13 og 14.69 sekunder
under middelværdien ved brug af en tripelkodende mobil
med 95% sikkkerhed.
Der ser ud til at være forskellig hældning i de to qqplots, hvilket tyder
på forskellig varians i de to grupper af observationer. Den samme tendens
ses i boxplottene: det højre boxplot har større udstrækning.
Boxplottene indikerer også, at der er forskel i middelværdi i de
to grupper: kassen i det højre boxplot ligger højere end kassen i det
venstre boxplot.