I alle eksemplerne ovenfor omkring to normalfordelte observationssæt
er de forskellige tests
lavet ved at bruge R som en lommeregner. R har dog også
indbyggede funktioner beregnet til at lave disse tests.
4.13.1 Two samples: Teste varianser ens
I Statistisk Model 4.9.1
med to normalfordelte observationssæt
kan man lave -testet for hypotesen om ens varianser med
R-funktionen var.test. Hvis data ligger i to vektorer
x1 og x2 bliver kaldet
var.test(x1,x2)
I output kan man finde -testtørrelsen (statistic),
de tilhørende frihedsgradsantal (parameter), og
-værdien (p.value). Der angives også et
95%-konfidensinterval for forholdet mellem de to
variansparametre
(dette har jeg ikke omtalt ovenfor).
Gå nu tilbage til Eksempel 4.12.3, og find
de beregnede værdier der i output fra et kald af vartest.
I output fra var.test aflæses, at der er 26 frihedsgrader i tæller og
32 frihedsgrader i nævner. Den anvendte fordeling er derfor
en -fordeling.
4.13.2 Two samples: Teste middelværdier ens
For at teste at middelværdierne er ens i to normalfordelinger,
skal man enten bruge -testet, hvis de to varianser er ens,
eller også bruge Welchs test, hvis de to varianser ikke er
ens. Begge de to tests udregnes med R-funktionen t.test.
Hvis data ligger i to vektorer
x1 og x2 bliver kaldet
t.test(x1,x2,var.equal=TRUE) hvis de to varianser er ens,
t.test(x1,x2,var.equal=FALSE) hvis de to varianser er
forskellige,
Output indeholder -tesstørrelsen (statistic),
antallet af frihedsgrader (parameter) og
-værdien (pvalue) for test af hypotesen, om
at de to middelværdier er ens. Desuden angives et
95%-konfidensinterval for forskellen i middelværdi (conf.int), det
vil sige for parameteren
Gå nu tilbage til Eksempel 4.10.2
og Eksempel 4.11.2 og gentag beregningerne
ved hjælp af t.test.
Vi aflæser her -teststørrelsen til
-værdien fra en -fordeling er 0.000064,
og et 95%-konfidensinterval for forskel i middelværdi er Vi betragter dernæst beregningerne hørende til Eksempel 4.11.2.
Vi aflæser her -teststørrelsen til
-værdien fra en -fordeling er 0.00078,
og et 95%-konfidensinterval for forskel i middelværdi er Hvordan kan du i output se, om du betragter modellen med fælles
varians i de to normalfordelinger,
eller modellen med forskellig varians ?
Output starter med enten "Two Sample t-test" eller "Welch Two Sample t-test".
4.13.3 Eksempel: log-data
I eksemplerne 4.11.2 og 4.12.3 så vi,
at tidsforbruget ved at skrive en SMS-tekst både havde større
middelværdi og større varians ved brug af tripelkodende
mobil i forhold til en smartphone.
Dette er ikke helt atypisk, når data vedrører en positiv
størrelse (her tidsforbrug). I sådanne situtioner vil der ofte
ske det, at hvis data logaritmetransformeres, vil der efterfølgende være
større lighed mellem varianserne. Lad os betegne logaritmen til tidsfrobruget
med henholdsvis og
for den 'te prøve i de to grupper
(sm: smartphone, tr: tripelkodende mobil).
Vi betragter Statistisk Model 4.9.1,
her skrevet som
hvor er
middelværdien af logaritmen til tidsforbruget.
Man kan matematisk vise sammenhængen
hvor er
middelværdien af tidsforbruget.
I kodevinduet nedenfor laves der qqplots for de
logaritmetransformerede data, og disse giver ikke anledning til
at forkaste modellen. Først undersøges hypotesen om samme varians i de to grupper
for de logaritmetransformerde værdier. Beregningen er vist i
kodevinduet nedenfor: -teststørrelsen er 0.519,
og -værdien (to gange sandsynlighed for værdi mindre end 0.519)
fra en -fordeling er 0.090.
Da -værdien er over 0.05, siger vi, at data ikke strider
mod samme varians på logaritmeskalaen.I kodevinduet laves der også et 95%-konfidensinterval for
forskel i middelværdi,
under antagelsen om samme
varians. Konfidensintervallet er baseret på -fordelingen,
og bliver Vi kan oversætte dette konfidensinterval
til et konfidensinterval for forholdet mellem middelværdierne
på den oprindelige skala.
Resultat 4.13.3.
(Fra log til ikke-log)
Da vi har samme varians på
logaritmeskalaen, giver sammenhængen
at
Her står, at forholdet mellem middelværdierne på den oprindelige
skala er exponentialfunktionen taget på differensen mellem
middelværdierne på logaritmeskalaen.
Et konfidensintervsal for forholdet fås derfor ved
at tage eksponentialfunktionen på intervalendepunkterne for
konfidensintervallet for
For data omkring tidsforbruget for at skrive en
SMS-tekst giver dette intervallet
Her står, at
med 95% sikkerhed er
middelværdien for tidsforbruget med smartphone mellem
69% og 91% af middelværdien ved brug af tripelkodende mobil.