I de tre foregående afsnit omkring sammenligning af to
normalfordelte observationssæt blev alle beregningerne lavet
ved at bruge R som en lommeregner. I afsnittet her
vil beregningerne blive lavet på mere simpel vis med avancerede
funktioner indbygget i R. Jeg har i de foregående afsnit indført to tests af hypotesen
om ens middelværdier i to normalfordelte populationer.
Et test (-testet) i situationen hvor varianserne er ens
og et andet (Welchs test), når varianserne i de to grupper er
forskellige. Hvorfor bruger vi to test i stedet for blot at nøjes
med testet, hvor det ikke antages, at varianserne er ens ?
De fleste vil nok bruge -testet, hvis baggrundsviden gør,
at man formoder de to varianser er ens. Fortolkningen af et
konfidensinterval for forskel i middelværdierne bliver nemmere,
og for meget små stikprøvestørrelser () vil testet
bedre kunne opdage en forskel end Welchs test.
Det sidste kan aflæses i, at konfidensintervallet for forskellen
mellem de to middelværdier er smallere for -testet end for Welchs
test (dette skyldes, at antallet af frihedsgrader for -testet
er som er større end eller lig med antallet af
frihedsgrader i Welchs test). Omvendt, hvis man ikke tror, at varianserne er ens, skal man bruge
Welchs test. Når varianserne er forskellige, ser man ofte
en sammenhæng mellem middelværdi og spredning, således at spredningen
approksimativt er proportional med middelværdien (når der måles på
positive størrelser). I sådanne situationer opnår man typisk
ens varianser, hvis man logaritmetransformerer data. Et eksempel på dette
beskrives nedenfor.
4.13.1 Two samples: Teste middelværdier ens
For at teste at middelværdierne er ens i to normalfordelinger,
skal man enten bruge -testet, hvis de to varianser er ens,
eller også bruge Welchs test, hvis de to varianser ikke er
ens. Begge de to tests udregnes med R-funktionen t.test.
Hvis data ligger i to vektorer
x1 og x2 bliver kaldet
t.test(x1,x2,var.equal=TRUE) hvis de to varianser er ens,
t.test(x1,x2,var.equal=FALSE) hvis de to varianser er
forskellige,
Output indeholder -tesstørrelsen (statistic),
antallet af frihedsgrader (parameter) og
-værdien (pvalue) for test af hypotesen, om
at de to middelværdier er ens. Desuden angives et
95%-konfidensinterval for forskellen i middelværdi (conf.int), det
vil sige for parameteren
Gå nu tilbage til Eksempel 4.10.2
og Eksempel 4.11.2 og gentag beregningerne
ved hjælp af t.test.
Vi aflæser her -teststørrelsen til
-værdien fra en -fordeling er 0.000064,
og et 95%-konfidensinterval for forskel i middelværdi er Vi betragter dernæst beregningerne hørende til Eksempel 4.11.2.
Vi aflæser her -teststørrelsen til
-værdien fra en -fordeling er 0.00078,
og et 95%-konfidensinterval for forskel i middelværdi er Hvordan kan du i output se, om du betragter modellen med fælles
varians i de to normalfordelinger,
eller modellen med forskellig varians ?
Output starter med enten "Two Sample t-test" eller "Welch Two Sample t-test".
4.13.2 Two samples: Teste varianser ens
I Statistisk Model 4.9.1
med to normalfordelte observationssæt
kan man lave -testet for hypotesen om ens varianser med
R-funktionen var.test. Hvis data ligger i to vektorer
x1 og x2 bliver kaldet
var.test(x1,x2)
I output kan man finde -testtørrelsen (statistic),
de tilhørende frihedsgradsantal (parameter), og
-værdien (p.value). Der angives også et
95%-konfidensinterval for forholdet mellem de to
variansparametre
Gå nu tilbage til Eksempel 4.12.3, og find
de beregnede værdier der i output fra et kald af vartest.
I output fra var.test aflæses, at der er 26 frihedsgrader i tæller og
32 frihedsgrader i nævner. Den anvendte fordeling er derfor
en -fordeling.
4.13.3 Eksempel: log-data
I eksemplerne 4.11.2 og 4.12.3 så vi,
at tidsforbruget ved at skrive en SMS-tekst både havde større
middelværdi og større varians ved brug af tripelkodende
mobil i forhold til en smartphone.
Dette er ikke helt atypisk, når data vedrører en positiv
størrelse (her tidsforbrug). I sådanne situtioner vil der ofte
ske det, at hvis data logaritmetransformeres, vil der efterfølgende være
større lighed mellem varianserne. Lad os betegne logaritmen til tidsforbruget
med henholdsvis og
for den 'te prøve i de to grupper
(sm: smartphone, tr: tripelkodende mobil).
Vi betragter Statistisk Model 4.9.1,
her skrevet som
hvor er
middelværdien af logaritmen til tidsforbruget.
Man kan matematisk vise sammenhængen
hvor er
middelværdien af tidsforbruget.
I kodevinduet nedenfor laves der qqplots for de
logaritmetransformerede data, og disse giver ikke anledning til
at forkaste modellen. Først undersøges hypotesen om samme varians i de to grupper
for de logaritmetransformerde værdier. Beregningen er vist i
kodevinduet nedenfor: -teststørrelsen er 0.519,
og -værdien (to gange sandsynlighed for værdi mindre end 0.519)
fra en -fordeling er 0.090.
Da -værdien er over 0.05, siger vi, at data ikke strider
mod samme varians på logaritmeskalaen.I kodevinduet laves der også et 95%-konfidensinterval for
forskel i middelværdi,
under antagelsen om samme
varians. Konfidensintervallet er baseret på -fordelingen,
og bliver Vi kan oversætte dette konfidensinterval
til et konfidensinterval for forholdet mellem middelværdierne
på den oprindelige skala.
Resultat 4.13.3.
(Fra log til ikke-log)
Da vi har samme varians på
logaritmeskalaen, giver sammenhængen
at
Her står, at forholdet mellem middelværdierne på den oprindelige
skala er exponentialfunktionen taget på differensen mellem
middelværdierne på logaritmeskalaen.
Et konfidensintervsal for forholdet fås derfor ved
at tage eksponentialfunktionen på intervalendepunkterne for
konfidensintervallet for
For data omkring tidsforbruget for at skrive en
SMS-tekst giver dette intervallet
Her står, at
med 95% sikkerhed er
middelværdien for tidsforbruget med smartphone mellem
69% og 91% af middelværdien ved brug af tripelkodende mobil.