Afsnit 6.3: Teste middelværdier ens når varianser er forskellige
Vi betragter nu Statistisk Model 6.1.1
med to grupper
af normalfordelte observationer med hver sin middelværdi og
hver sin varians,
Vi ønsker stadig at teste de to middelværdier ens, det vil sige
hypotesen Hvis middelværdierne er ens, er de to fordelinger centreret
omkring det samme punkt, men den ene fordeling spreder sig
ud over et større område end den anden fordeling.
Alternativet, hvor middelværdierne er forskellige, skal man
passe på, hvordan man fortolker. Hvis for eksempel
vil man nemt danne sig det mentale billede, at observationerne fra
gruppe 1 vil ligge under observationerne fra gruppe 2, men hvis
samtidigt vil der være et punkt således at
for vil der være større sandsynlighed i gruppe 1 end i
gruppe 2 for at få en værdi over Som et konkret eksempel
kan vi sige og hvor der
så gælder, at hvilket er 84.1%-fraktilen
i begge fordelinger. Den følgende figur med normalfordelingstætheder
illustrerer eksemplet,
hvor den højre del er situationen med forskellig varians.
Ligesom i konstruktionen af -testet i det
foregående afsnit
starter vi med en standardisering:
Da og ikke kendes, kan den standardiserede størrelse
ikke bruges direkte, og i stedet erstattes med
den empiriske varians
I modsætning til tidligere er denne teststørrelse ikke -fordelt
på grund af de forskellige varianser. Faktisk afhænger fordelingen
af stadig af de ukendte varianser og
Man har dog kunnet vise matematisk, at som en approksimation
kan man bruge en -fordeling til beregning af -værdi,
hvor antallet af frihedsgrader i -fordelingen afhænger af data
gennem og
Resultat 6.3.1.
(Welch's -test)
Til at teste hypotesen om ens middelværdier, mod
alternativet i
Statistisk Model 6.1.1,
hvor hver gruppe har sin egen varians, benyttes teststørrelsen
fra (6.3.1) med tilhørende
observeret værdi og en approksimativ
-værdi beregnes som
Endvidere er et 95%-konfidensinterval for forskel
i middelværdi mellem gruppe 1 og gruppe2,
det vil sige for parameteren
givet ved formlen
Man kan vise, at altid er større end eller lig med
det mindste af de to frihedsgradsantal og
og mindre end eller lig med
Metoden givet ovenfor kaldes Welch's -test. Spørgmålet, om der findes et eksakt test for hypotesen
kendes under navnet
Behrens–Fisher problem.
Eksempel 6.3.2.
(Opdagelsen af Argon)
Lord Rayleigh lavede i 1890-erne en række målingerne af massefylden af
kvælstof og opdagede en forskel i massefylden afhængig af måden
det formodede rene kvælstof blev udvundet på. Dette førte senere
til opdagelsen af luftarten argon og Lord Rayleigh fik i 1904
Nobelprisen i fysik for denne opdagelse.
I artiklen
On an Anomaly encountered in Determinations of the Density of Nitrogen Gas
Er der 7 målte værdier fremkommet ved at ilt fjernes fra atmosfærisk luft
og 8 målte værdier ved reaktioner med kemiske forbindelse hvor kvælstof indgår.
Målingen er massen i gram af indholdet i en glaskugle (vistnok med rumfang på
1.836 liter) og er bestemt med stor nøjagtighed. Vi lader være massemålingen for den 'te prøve,
hvor ilt fjernes fra atmosfæren, og lader
være den 'te måling, når der bruges en
kemisk forbindelse.
Vi benytter Statistisk Model 6.1.1, her skrevet som
hvor kan variere frit.
QQplots nedenfor støtter normalfordelingsmodellen, og
både qqplots og boxplots peger i retning af forskellige varianser
i de to observationssæt. Rayleigh brugte eksperimentet til at påvise en forskel i massen af
kvælstof ved de to metoder. Rayleigh brugte ikke statistiske metoder
(de var ikke kendte på daværende tidspunkt), men følte sig sikker i
konklusionen ud fra de målte værdier. Vi vil
formulere problemstillingen som hypotesen, at de to middelværdier er ens
-teststørrelsen for denne hypotese,
når varianserne er forskellige, bliver
baseret på følgende beregnede værdier
Den tilhørende -værdi fra en -fordeling er
Da denne er meget mindre end 0.05, bliver konklusionen, at data strider mod
samme middelværdi, og da
tyder data altså på, at kvælstof udvundet fra atmosfæren har en højere
masse. Forskellen i massen ved de to udvindingsmetoder kan angives
ved et 95%-konfidensinterval for forskellen i middelværdi.
Hertil finder vi 97.5%-fraktilen i en -fordeling,
og konfidensintervallet bliver
Middelværdien af massen af kvælstof fra atmosfæren
ligger med 95% sikkkerhed mellem 0.0095 og 0.0118 gram over
middelværdien for kvælstof fra kemiske forbindelser.
Der ser ud til at være forskellig hældning i de to qqplots, hvilket tyder
på forskellig varians i de to grupper af observationer. Den samme tendens
ses i boxplottene: det højre boxplot har større udstrækning.
Boxplottene indikerer også, at der er forskel i middelværdi i de
to grupper: kassen i det venstre boxplot ligger højere end kassen i det
venstre boxplot.