Afsnit 4.11: Teste middelværdier ens når varianser er forskellige

Vi betragter nu Statistisk Model 4.9.1 med to grupper af normalfordelte observationer med hver sin middelværdi og hver sin varians,

X_{ji}\sim N(\mu_j,\sigma_j^2).

Vi ønsker stadig at teste de to middelværdier ens, det vil sige hypotesen

\mu_1=\mu_2.

Hvis middelværdierne er ens, er de to fordelinger centreret omkring det samme punkt, men den ene fordeling spreder sig ud over et større område end den anden fordeling. Alternativet, hvor middelværdierne er forskellige, skal man passe på, hvordan man fortolker. Hvis for eksempel

\mu_1<\mu_2,

vil man nemt danne sig det mentale billede, at observationerne fra gruppe 1 vil ligge under observationerne fra gruppe 2, men hvis samtidigt

\sigma_1>\sigma_2,

vil der være et punkt

x_0,

således at for

x>x_0

vil der være større sandsynlighed i gruppe 1 end i gruppe 2 for at få en værdi over

x.

Som et konkret eksempel kan vi sige

\sigma_1=2\sigma_2

\mu_1=\mu_2-\sigma_2,

hvor der så gælder, at

\mu_2+\sigma_2=\mu_1+\sigma_1,

hvilket er 84.1%-fraktilen i begge fordelinger. Den følgende figur med normalfordelingstætheder illustrerer eksemplet, hvor den højre del er situationen med forskellig varians.

Ligesom i konstruktionen af de to

t

-tests tidligere i dette kapitel starter vi med en standardisering:

\frac{\bar X_1-\bar X_2}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}} \sim N(0,1).

\sigma_1

\sigma_2

ikke kendes, kan den standardiserede størrelse ikke bruges direkte, og i stedet erstattes

\sigma_j^2

med den empiriske varians

s_j^2,

T=\frac{\bar X_1-\bar X_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}}. \tag{4.11.1}

I modsætning til tidligere er denne teststørrelse ikke

t

-fordelt på grund af de forskellige varianser. Faktisk afhænger fordelingen af

T

stadig af de ukendte varianser

\sigma_1^2

\sigma_2^2.

Man har dog kunnet vise matematisk, at som en approksimation kan man bruge en

t

-fordeling til beregning af

p

-værdi, hvor antallet af frihedsgrader i

t

-fordelingen afhænger af data gennem

s_1^2

s_2^2.

Resultat 4.11.1. (Welch's

t

-test)

Til at teste hypotesen om ens middelværdier,

\mu_1=\mu_2

mod alternativet

\mu_1\neq\mu_2,

i model

M_0

hvor hver gruppe har sin egen varians, benyttes teststørrelsen

T

fra (4.11.1) med tilhørende observeret værdi

t_{\text{obs}},

og en approksimativ

p

-værdi beregnes som

\begin{aligned} p\text{-værdi}&=2\cdot t(|t_{\text{obs}}|,\mathit{df}_W),\quad \mathit{df}_W = \frac{\big(s_1^2/n_1+s_2^2/n_2\big)^2} {(s_1^2/n_1)^2/(n_1-1)+(s_2^2/n_2)^2/(n_2-1)}. \end{aligned}

Endvidere er et 95%-konfidensinterval for forskel i middelværdi, det vil sige for parameteren

\delta=\mu_1-\mu_2,

givet ved formlen

\bar x_1-\bar x_2\pm t_0\sqrt{s_1^2/n_1+s_2^2/n_2}, \quad t_0=t_{\text{inv}}(0.975,\mathit{df}_W).

Man kan vise, at

\mathit{df}_W

altid er større end eller lig med det mindste af de to frihedsgradsantal

n_1-1

n_2-1,

og mindre end eller lig med

n_1+n_2-2.

Metoden givet ovenfor kaldes Welch's $t$ -test.

Spørgmålet, om der findes et eksakt test for hypotesen

\mu_1=\mu_2,

kendes under navnet Behrens–Fisher problem.

Eksempel 4.11.2. (Menneske-maskine interaktion)

Menneske-maskine interaktion (human-computer interaction, HCI) er et vigtigt område under informationteknologi. I eksemplet her vil jeg se på tidsforbruget til at skrive en SMS. For en del år siden lavede en australsk skoleklasse et eksperiment, hvor en række personer blev bedt om at skrive en SMS med teksten The quick brown fox jumps over the lazy dog. Teksten er et pangram, det vil sige, at alle alfabetets bogstaver optræder. Data var delt op på to aldersgrupper med en tydelig forskel i tidsforbrug mellem de to aldersgrupper. Desværre ser det ud til, at data ikke længere kan findes på nettet. Jeg vil i stedet bruge data inspireret af det australske eksperiment, som jeg selv har indsamlet ved en forelæsning. Jeg brugte et dansk pangram: "Dansk jomfru på Ærø kyler halvsexet quizbog ned i wc", og delte op efter, om der blev brugt en smartphone med fuldt tastatur eller en "gammeldags" mobil, hvor hver knap koder for tre bogstaver (tripelkodende mobil).

Data i dette eksempel vedrører udelukkende kvindelige deltagere i eksperimentet. Der var 27 kvinder, der brugte en smartphone, og 33 der brugte en tripelkodende mobil. Data er givet i sekunder.

Vi lader

\text{Tid}_{ji}

være tidsforbrug for den

i

'te kvinde i den

j

'te gruppe (gruppe sm: smartphone, gruppe tr: tripelkodende mobil). Vi benytter modellen

\text{Tid}_{ji}\sim N(\mu_j,\sigma_j^2),

idet data i qqplots snor sig nogenlunde om rette linjer (kør koden i kodevinduet nedenfor). Både qqplots og boxplots peger i retning af forskellige varianser i de to populationer.

Vi ønsker med eksperimentet at undersøge, om de to teknologier er lige gode med hensyn til at skrive en SMS-besked, formuleret som hypotesen at de to middelværdier er ens

\mu_{\text{sm}}=\mu_{\text{tr}}.

T

-teststørrelsen for denne hypotese, når varianserne er forskellige, bliver

t_{\text{obs}}=\frac{32.926-42.333}{\sqrt{45.456/27+172.417/33}}=-3.579 ,\quad \mathit{df}_w=\frac{\big(\frac{45.456}{27}+\frac{172.417}{33}\big)^2} {\frac{\big(\frac{45.456}{27}\big)^2}{26}+ \frac{\big(\frac{172.417}{33}\big)^2}{32}}=49.61,

baseret på følgende beregnede værdier

\begin{aligned} \overline{\text{Tid}}_{\text{sm}} &=32.926 , & s_{\text{sm}}^2 &=45.456 , \\ \overline{\text{Tid}}_{\text{tr}} &=42.333 , & s_{\text{tr}}^2 &=172.417 . \end{aligned}

Den tilhørende

p

-værdi fra en

t(49.61)

-fordeling er

p\text{-værdi}=2\cdot(0.000391)=0.000782 .

Da denne er meget mindre 0.05, bliver konklusionen, at data strider mod samme middelværdi, og da

\overline{\text{Tid}}_{\text{sm}}<\overline{\text{Tid}}_{\text{tr}},

tyder data altså på, at det er hurtigere at skrive en besked på en smartphone fremfor en tripelkodende mobil.

Forskellen i tidsforbruget ved brug af de to mobiltyper kan angives ved et 95%-konfidensinterval for forskellen i middelværdi. Hertil finder vi 97.5%-fraktilen i en

t(49.61)

-fordeling,

t_0=t_{\text{inv}}(0.975,49.61)=2.0090,

og konfidensintervallet bliver

32.926-42.333\pm 2.0090\cdot\sqrt{45.456/27+172.417/33} =[-14.69,\, -4.13].

Middelværdien af tidsforbruget ved brug af smartphone ligger mellem 4.13 og 14.69 sekunder under middelværdien ved brug af en tripelkodende mobil med 95% sikkkerhed.

Beregninger i R

Nedenstående kodevindue laver qqplots og boxplots af de to datasæt, og laver de beregnede værdier benyttet ovenfor.

Se opstartskoden (til/fra)

xxxxxxxxxx
 
# data indskrives
smart=c(34,33,24,31,35,35,42,47,35,28,42,43,32,23,31,38,
27,23,25,32,38,37,35,29,29,40,21)
tripel=c(80,79,46,50,27,31,23,27,35,45,33,30,28,43,53,39,
40,60,34,33,37,46,45,46,47,40,46,41,50,26,51,36,50)
​
c("Opstart er gennemført: smart og tripel er indskrevet")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# qqplot og boxplot dannes
par(mfrow=c(1,2))
qqnorm(smart,ylim=range(smart,tripel))
points(qqnorm(tripel,plot=FALSE),col=2,pch=20)
boxplot(smart,tripel,names=c("Smart","Tripel"))
​
# teststørrelse og p-værdi beregnes
n=c(length(smart),length(tripel))
me=c(mean(smart),mean(tripel))
s2=c(var(smart),var(tripel))
dfw=(s2[1]/n[1]+s2[2]/n[2])^2/
((s2[1]/n[1])^2/(n[1]-1)+(s2[2]/n[2])^2/(n[2]-1))
t=(me[1]-me[2])/sqrt(s2[1]/n[1]+s2[2]/n[2])
pval=2*pt(-abs(t),dfw)
​
# konfidensinterval beregnes
t0=qt(0.975,dfw)
konfInt=me[1]-me[2]+c(-1,1)*t0*sqrt(s2[1]/n[1]+s2[2]/n[2])
​
list(Gennemsnit=me,Varians=s2,
Test=c(t=t,frihedsgrader=dfw,Pvaerdi=pval),
konfidensinterval=c(tfraktil=t0,lower=konfInt[1],upper=konfInt[2]))

Kommenter, ud fra den dannede figur, på forholdet mellem de to varianser og forholdet mellem de to middelværdier.

Svar: To datasæt

Der ser ud til at være forskellig hældning i de to qqplots, hvilket tyder på forskellig varians i de to grupper af observationer. Den samme tendens ses i boxplottene: det højre boxplot har større udstrækning. Boxplottene indikerer også, at der er forskel i middelværdi i de to grupper: kassen i det højre boxplot ligger højere end kassen i det venstre boxplot.

Foregående Næste