Afsnit 6.3: Teste middelværdier ens når varianser er forskellige

Vi betragter nu Statistisk Model 6.1.1 med to grupper af normalfordelte observationer med hver sin middelværdi og hver sin varians,

X_{ji}\sim N(\mu_j,\sigma_j^2).

Vi ønsker stadig at teste de to middelværdier ens, det vil sige hypotesen

\mu_1=\mu_2.

Hvis middelværdierne er ens, er de to fordelinger centreret omkring det samme punkt, men den ene fordeling spreder sig ud over et større område end den anden fordeling. Alternativet, hvor middelværdierne er forskellige, skal man passe på, hvordan man fortolker. Hvis for eksempel

\mu_1<\mu_2,

vil man nemt danne sig det mentale billede, at observationerne fra gruppe 1 vil ligge under observationerne fra gruppe 2, men hvis samtidigt

\sigma_1>\sigma_2,

vil der være et punkt

x_0,

således at for

x>x_0

vil der være større sandsynlighed i gruppe 1 end i gruppe 2 for at få en værdi over

x.

Som et konkret eksempel kan vi sige

\sigma_1=2\sigma_2

\mu_1=\mu_2-\sigma_2,

hvor der så gælder, at

\mu_2+\sigma_2=\mu_1+\sigma_1,

hvilket er 84.1%-fraktilen i begge fordelinger. Den følgende figur med normalfordelingstætheder illustrerer eksemplet, hvor den højre del er situationen med forskellig varians.

Ligesom i konstruktionen af

t

-testet i det foregående afsnit starter vi med en standardisering:

\frac{\bar X_1-\bar X_2}{\sqrt{\sigma_1^2/n_1+\sigma_2^2/n_2}} \sim N(0,1).

\sigma_1

\sigma_2

ikke kendes, kan den standardiserede størrelse ikke bruges direkte, og i stedet erstattes

\sigma_j^2

med den empiriske varians

s_j^2,

T=\frac{\bar X_1-\bar X_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}}. \tag{6.3.1}

I modsætning til tidligere er denne teststørrelse ikke

t

-fordelt på grund af de forskellige varianser. Faktisk afhænger fordelingen af

T

stadig af de ukendte varianser

\sigma_1^2

\sigma_2^2.

Man har dog kunnet vise matematisk, at som en approksimation kan man bruge en

t

-fordeling til beregning af

p

-værdi, hvor antallet af frihedsgrader i

t

-fordelingen afhænger af data gennem

s_1^2

s_2^2.

Resultat 6.3.1. (Welch's

t

-test)

Til at teste hypotesen om ens middelværdier,

\mu_1=\mu_2

mod alternativet

\mu_1\neq\mu_2,

i Statistisk Model 6.1.1, hvor hver gruppe har sin egen varians, benyttes teststørrelsen

T

fra (6.3.1) med tilhørende observeret værdi

t_{\text{obs}},

og en approksimativ

p

-værdi beregnes som

\begin{aligned} p\text{-værdi}&=2\cdot t_{\text{cdf}}(-|t_{\text{obs}}|,\mathit{df}_W),\quad \mathit{df}_W = \frac{\big(s_1^2/n_1+s_2^2/n_2\big)^2} {(s_1^2/n_1)^2/(n_1-1)+(s_2^2/n_2)^2/(n_2-1)}. \end{aligned}

Endvidere er et 95%-konfidensinterval for forskel i middelværdi mellem gruppe 1 og gruppe2, det vil sige for parameteren

\delta=\mu_1-\mu_2,

givet ved formlen

\bar x_1-\bar x_2\pm t_0\sqrt{s_1^2/n_1+s_2^2/n_2}, \quad t_0=t_{\text{inv}}(0.975,\mathit{df}_W).

Man kan vise, at

\mathit{df}_W

altid er større end eller lig med det mindste af de to frihedsgradsantal

n_1-1

n_2-1,

og mindre end eller lig med

n_1+n_2-2.

Metoden givet ovenfor kaldes Welch's $t$ -test.

Spørgmålet, om der findes et eksakt test for hypotesen

\mu_1=\mu_2,

kendes under navnet Behrens–Fisher problem.

Eksempel 6.3.2. (Opdagelsen af Argon)

Lord Rayleigh lavede i 1890-erne en række målingerne af massefylden af kvælstof og opdagede en forskel i massefylden afhængig af måden det formodede rene kvælstof blev udvundet på. Dette førte senere til opdagelsen af luftarten argon og Lord Rayleigh fik i 1904 Nobelprisen i fysik for denne opdagelse.

I artiklen On an Anomaly encountered in Determinations of the Density of Nitrogen Gas Er der 7 målte værdier fremkommet ved at ilt fjernes fra atmosfærisk luft og 8 målte værdier ved reaktioner med kemiske forbindelse hvor kvælstof indgår. Målingen er massen i gram af indholdet i en glaskugle (vistnok med rumfang på 1.836 liter) og er bestemt med stor nøjagtighed.

Vi lader

\mathit{atmos}_{i}

være massemålingen for den

i

'te prøve, hvor ilt fjernes fra atmosfæren, og lader

\mathit{kemi}_{i}

være den

i

'te måling, når der bruges en kemisk forbindelse. Vi benytter Statistisk Model 6.1.1, her skrevet som

\begin{aligned} \text{Atmos}_i & \sim N(\mu_1,\sigma_1^2),\enspace i=1,\ldots,7, \\ \text{Kemi}_i & \sim N(\mu_2,\sigma_2^2),\enspace i=1,\ldots,8, \end{aligned}

hvor

(\mu_1,\mu_2,\sigma_1,\sigma_2)

kan variere frit. QQplots nedenfor støtter normalfordelingsmodellen, og både qqplots og boxplots peger i retning af forskellige varianser i de to observationssæt.

Rayleigh brugte eksperimentet til at påvise en forskel i massen af kvælstof ved de to metoder. Rayleigh brugte ikke statistiske metoder (de var ikke kendte på daværende tidspunkt), men følte sig sikker i konklusionen ud fra de målte værdier. Vi vil formulere problemstillingen som hypotesen, at de to middelværdier er ens

\mu_1=\mu_2.

T

-teststørrelsen for denne hypotese, når varianserne er forskellige, bliver

t_{\text{obs}}=\frac{2.31011- 2.29945}{ \sqrt{2.035\cdot 10^{-8}/7+1.940\cdot 10^{-6}/8}}=21.52 ,\quad \mathit{df}_w=\frac{\big(\frac{2.035\cdot 10^{-8}}{7}+\frac{1.940\cdot 10^{6}}{8}\big)^2} {\frac{\big(\frac{2.035\cdot 10^{-8}}{7}\big)^2}{6}+ \frac{\big(\frac{1.940\cdot 10^{-6}}{8}\big)^2}{7}}=7.17,

baseret på følgende beregnede værdier

\begin{aligned} \overline{\text{atmos}} &=2.31011 , & s_{\text{atmos}}^2 &=2.035\cdot 10^{-8} , \\ \overline{\text{kemi}} &=2.29945 , & s_{\text{kemi}}^2 & = 1.940\cdot 10^{-6} . \end{aligned}

Den tilhørende

p

-værdi fra en

t(7.17)

-fordeling er

p\text{-værdi}=2\cdot 4.46\cdot 10^{-8}=8.92\cdot 10^{-8} .

Da denne er meget mindre end 0.05, bliver konklusionen, at data strider mod samme middelværdi, og da

\overline{\text{atmos}}>\overline{\text{kemi}},

tyder data altså på, at kvælstof udvundet fra atmosfæren har en højere masse.

Forskellen i massen ved de to udvindingsmetoder kan angives ved et 95%-konfidensinterval for forskellen i middelværdi. Hertil finder vi 97.5%-fraktilen i en

t(7.17)

-fordeling,

t_0=t_{\text{inv}}(0.975,7.17)=2.3535,

og konfidensintervallet bliver

2.31011- 2.29945 \pm 2.3535\cdot\sqrt{2.035\cdot 10^{-8}/7+1.940\cdot 10^{-6}/8} =[0.0095,\, 0.0118].

Middelværdien af massen af kvælstof fra atmosfæren ligger med 95% sikkkerhed mellem 0.0095 og 0.0118 gram over middelværdien for kvælstof fra kemiske forbindelser.

Beregninger i python

Nedenstående kodevindue laver qqplots og boxplots af de to datasæt, og laver de beregnede værdier benyttet ovenfor.

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.graphics.gofplots import qqplot
import scipy.stats as st
​
# data indskrives
atmos=np.array([2.31017,2.30986,2.31010,2.31001,2.31024,2.31010,2.31028])
kemi=np.array([2.30143,2.29890,2.29816,2.30182,2.29869,2.29940,2.29849,2.29869])
​
print("Opstart er gennemført: atmos og kemi er indskrevet")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# datasæt
x1=atmos
x2=kemi
navne=["Atmos","Kemi"]
​
# qqplot og boxplot dannes
ax1=plt.subplot(1,2,1) 
ax2=plt.subplot(1,2,2) 
qqplot(x1,line='r',ax=ax1)
qqplot(x2,line='r',ax=ax1,marker='+',color='r')
ax2.boxplot([x1,x2],labels=navne)
plt.show()
​
# teststørrelse og p-værdi beregnes
n=np.array([len(x1),len(x2)])
gns=np.array([np.mean(x1),np.mean(x2)])
s2=np.array([np.var(x1,ddof=1),np.var(x2,ddof=1)])
dfw=sum(s2/n)**2/sum((s2/n)**2/(n-1))
stds=np.sqrt(sum(s2/n))
tstat=(gns[0]-gns[1])/stds
pval=2*st.t.cdf(-abs(tstat),dfw)
​
# konfidensinterval beregnes
t0=st.t.ppf(0.975,dfw)
KI=gns[0]-gns[1]+np.array([-1,1])*t0*stds
​
print('t:',format(tstat,'.2f'),'  Pværdi:',format(pval,'.4g'),
'  Konfidensinterval:',format(KI[0],'.3g'),format(KI[1],'.3g'))

Kommenter, ud fra den dannede figur, på forholdet mellem de to varianser og forholdet mellem de to middelværdier.

Svar: To datasæt

Der ser ud til at være forskellig hældning i de to qqplots, hvilket tyder på forskellig varians i de to grupper af observationer. Den samme tendens ses i boxplottene: det højre boxplot har større udstrækning. Boxplottene indikerer også, at der er forskel i middelværdi i de to grupper: kassen i det venstre boxplot ligger højere end kassen i det venstre boxplot.

Foregående Næste