Afsnit 4.13: Two sample tests i R

I alle eksemplerne ovenfor omkring to normalfordelte observationssæt er de forskellige tests lavet ved at bruge R som en lommeregner. R har dog også indbyggede funktioner beregnet til at lave disse tests.

4.13.1 Two samples: Teste varianser ens

I Statistisk Model 4.9.1 med to normalfordelte observationssæt kan man lave -testet for hypotesen om ens varianser med R-funktionen var.test. Hvis data ligger i to vektorer x1 og x2 bliver kaldet
var.test(x1,x2)
I output kan man finde -testtørrelsen (statistic), de tilhørende frihedsgradsantal (parameter), og -værdien (p.value). Der angives også et 95%-konfidensinterval for forholdet mellem de to variansparametre (dette har jeg ikke omtalt ovenfor). Gå nu tilbage til Eksempel 4.12.3, og find de beregnede værdier der i output fra et kald af vartest.

4.13.1 Bruge var.test til at teste to varianser ens

Vi aflæser i output at -tesstørrelsen er 0.264 og -værdien er 0.00084. Hvilken -fordeling bruges til beregningen af -værdien?

Svar: Aflæsning

I output fra var.test aflæses, at der er 26 frihedsgrader i tæller og 32 frihedsgrader i nævner. Den anvendte fordeling er derfor en -fordeling.

4.13.2 Two samples: Teste middelværdier ens

For at teste at middelværdierne er ens i to normalfordelinger, skal man enten bruge -testet, hvis de to varianser er ens, eller også bruge Welchs test, hvis de to varianser ikke er ens. Begge de to tests udregnes med R-funktionen t.test. Hvis data ligger i to vektorer x1 og x2 bliver kaldet
t.test(x1,x2,var.equal=TRUE) hvis de to varianser er ens,
t.test(x1,x2,var.equal=FALSE) hvis de to varianser er forskellige,
Output indeholder -tesstørrelsen (statistic), antallet af frihedsgrader (parameter) og -værdien (pvalue) for test af hypotesen, om at de to middelværdier er ens. Desuden angives et 95%-konfidensinterval for forskellen i middelværdi (conf.int), det vil sige for parameteren Gå nu tilbage til Eksempel 4.10.2 og Eksempel 4.11.2 og gentag beregningerne ved hjælp af t.test.

4.13.2 Bruge t.test til at teste to middelværdier ens

Se opstartskoden (til/fra)

Vi aflæser her -teststørrelsen til -værdien fra en -fordeling er 0.000064, og et 95%-konfidensinterval for forskel i middelværdi er
Vi betragter dernæst beregningerne hørende til Eksempel 4.11.2.
Vi aflæser her -teststørrelsen til -værdien fra en -fordeling er 0.00078, og et 95%-konfidensinterval for forskel i middelværdi er
Hvordan kan du i output se, om du betragter modellen med fælles varians i de to normalfordelinger, eller modellen med forskellig varians?

Svar: Aflæse fra output

Output starter med enten "Two Sample t-test" eller "Welch Two Sample t-test".

4.13.3 Eksempel: log-data

I eksemplerne 4.11.2 og 4.12.3 så vi, at tidsforbruget ved at skrive en SMS-tekst både havde større middelværdi og større varians ved brug af tripelkodende mobil i forhold til en smartphone. Dette er ikke helt atypisk, når data vedrører en positiv størrelse (her tidsforbrug). I sådanne situtioner vil der ofte ske det, at hvis data logaritmetransformeres, vil der efterfølgende være større lighed mellem varianserne.
Lad os betegne logaritmen til tidsfrobruget med henholdsvis og for den 'te prøve i de to grupper (sm: smartphone, tr: tripelkodende mobil). Vi betragter Statistisk Model 4.9.1, her skrevet som
hvor er middelværdien af logaritmen til tidsforbruget. Man kan matematisk vise sammenhængen hvor er middelværdien af tidsforbruget. I kodevinduet nedenfor laves der qqplots for de logaritmetransformerede data, og disse giver ikke anledning til at forkaste modellen.
Først undersøges hypotesen om samme varians i de to grupper for de logaritmetransformerde værdier. Beregningen er vist i kodevinduet nedenfor: -teststørrelsen er 0.519, og -værdien (to gange sandsynlighed for værdi mindre end 0.519) fra en -fordeling er 0.090. Da -værdien er over 0.05, siger vi, at data ikke strider mod samme varians på logaritmeskalaen.
I kodevinduet laves der også et 95%-konfidensinterval for forskel i middelværdi, under antagelsen om samme varians. Konfidensintervallet er baseret på -fordelingen, og bliver Vi kan oversætte dette konfidensinterval til et konfidensinterval for forholdet mellem middelværdierne på den oprindelige skala.
Resultat 4.13.3. (Fra log til ikke-log)
Da vi har samme varians på logaritmeskalaen, giver sammenhængen at
Her står, at forholdet mellem middelværdierne på den oprindelige skala er exponentialfunktionen taget på differensen mellem middelværdierne på logaritmeskalaen. Et konfidensintervsal for forholdet fås derfor ved at tage eksponentialfunktionen på intervalendepunkterne for konfidensintervallet for
For data omkring tidsforbruget for at skrive en SMS-tekst giver dette intervallet Her står, at med 95% sikkerhed er middelværdien for tidsforbruget med smartphone mellem 69% og 91% af middelværdien ved brug af tripelkodende mobil.

Beregninger i R

ForegåendeNæste