Afsnit 4.13: Two sample tests i R

I alle eksemplerne ovenfor omkring to normalfordelte observationssæt er de forskellige tests lavet ved at bruge R som en lommeregner. R har dog også indbyggede funktioner beregnet til at lave disse tests.

4.13.1 Two samples: Teste varianser ens

I Statistisk Model 4.9.1 med to normalfordelte observationssæt kan man lave FF-testet for hypotesen om ens varianser med R-funktionen var.test. Hvis data ligger i to vektorer x1 og x2 bliver kaldet
var.test(x1,x2)
I output kan man finde FF-testtørrelsen (statistic), de tilhørende frihedsgradsantal (parameter), og pp-værdien (p.value). Der angives også et 95%-konfidensinterval for forholdet mellem de to variansparametre σ12/σ22\sigma_1^2/\sigma_2^2 (dette har jeg ikke omtalt ovenfor). Gå nu tilbage til Eksempel 4.12.3, og find de beregnede værdier der i output fra et kald af vartest.

4.13.1 Bruge var.test til at teste to varianser ens

Vi aflæser i output at FF-tesstørrelsen er 0.264 og pp-værdien er 0.00084. Hvilken FF-fordeling bruges til beregningen af pp-værdien?

Svar: Aflæsning

I output fra var.test aflæses, at der er 26 frihedsgrader i tæller og 32 frihedsgrader i nævner. Den anvendte fordeling er derfor en F(26,32)F(26,32)-fordeling.

4.13.2 Two samples: Teste middelværdier ens

For at teste at middelværdierne er ens i to normalfordelinger, skal man enten bruge tt-testet, hvis de to varianser er ens, eller også bruge Welchs test, hvis de to varianser ikke er ens. Begge de to tests udregnes med R-funktionen t.test. Hvis data ligger i to vektorer x1 og x2 bliver kaldet
t.test(x1,x2,var.equal=TRUE)\quad hvis de to varianser er ens,
t.test(x1,x2,var.equal=FALSE)\quad hvis de to varianser er forskellige,
Output indeholder tt-tesstørrelsen (statistic), antallet af frihedsgrader (parameter) og pp-værdien (pvalue) for test af hypotesen, om at de to middelværdier er ens. Desuden angives et 95%-konfidensinterval for forskellen i middelværdi (conf.int), det vil sige for parameteren δ=μ1μ2.\delta=\mu_1-\mu_2. Gå nu tilbage til Eksempel 4.10.2 og Eksempel 4.11.2 og gentag beregningerne ved hjælp af t.test.

4.13.2 Bruge t.test til at teste to middelværdier ens

Se opstartskoden (til/fra)

Vi aflæser her tt-teststørrelsen til 4.18,-4.18, pp-værdien fra en t(97)t(97)-fordeling er 0.000064, og et 95%-konfidensinterval for forskel i middelværdi er [13.88,4.94].[-13.88,\,-4.94].
Vi betragter dernæst beregningerne hørende til Eksempel 4.11.2.
Vi aflæser her tt-teststørrelsen til 3.58,-3.58, pp-værdien fra en t(49.606)t(49.606)-fordeling er 0.00078, og et 95%-konfidensinterval for forskel i middelværdi er [14.7,4.1].[-14.7,\,-4.1].
Hvordan kan du i output se, om du betragter modellen med fælles varians i de to normalfordelinger, eller modellen med forskellig varians?

Svar: Aflæse fra output

Output starter med enten "Two Sample t-test" eller "Welch Two Sample t-test".

4.13.3 Eksempel: log-data

I eksemplerne 4.11.2 og 4.12.3 så vi, at tidsforbruget ved at skrive en SMS-tekst både havde større middelværdi og større varians ved brug af tripelkodende mobil i forhold til en smartphone. Dette er ikke helt atypisk, når data vedrører en positiv størrelse (her tidsforbrug). I sådanne situtioner vil der ofte ske det, at hvis data logaritmetransformeres, vil der efterfølgende være større lighed mellem varianserne.
Lad os betegne logaritmen til tidsfrobruget med henholdsvis logSMi\text{logSM}_{i} og logTRi\text{logTR}_{i} for den ii'te prøve i de to grupper (sm: smartphone, tr: tripelkodende mobil). Vi betragter Statistisk Model 4.9.1, her skrevet som
LogSMiN(ν1,τ12),i=1,,27,LogTRiN(ν2,τ22),i=1,,33,(ν1,ν2,τ1,τ2)R2×R+2,\begin{aligned} \text{LogSM}_i & \sim N(\nu_1,\tau_1^2),\enspace i=1,\ldots,27, \\ \text{LogTR}_i & \sim N(\nu_2,\tau_2^2),\enspace i=1,\ldots,33,\\ & (\nu_1,\nu_2,\tau_1,\tau_2)\in \mathbf{R}^2\times\mathbf{R}_+^2, \end{aligned}
hvor νj\nu_j er middelværdien af logaritmen til tidsforbruget. Man kan matematisk vise sammenhængen μj=exp(νj+12τj2),\mu_j=\exp(\nu_j+\frac{1}{2}\tau_j^2), hvor μj\mu_j er middelværdien af tidsforbruget. I kodevinduet nedenfor laves der qqplots for de logaritmetransformerede data, og disse giver ikke anledning til at forkaste modellen.
Først undersøges hypotesen om samme varians i de to grupper for de logaritmetransformerde værdier. Beregningen er vist i kodevinduet nedenfor: FF-teststørrelsen er 0.519, og pp-værdien (to gange sandsynlighed for værdi mindre end 0.519) fra en F(26,32)F(26,32)-fordeling er 0.090. Da pp-værdien er over 0.05, siger vi, at data ikke strider mod samme varians på logaritmeskalaen.
I kodevinduet laves der også et 95%-konfidensinterval for forskel i middelværdi, δ=νsmνtr,\delta=\nu_{\text{sm}}-\nu_{\text{tr}}, under antagelsen om samme varians. Konfidensintervallet er baseret på t(58)t(58)-fordelingen, og bliver [0.364,0.095].[-0.364,\,-0.095]. Vi kan oversætte dette konfidensinterval til et konfidensinterval for forholdet mellem middelværdierne på den oprindelige skala.
Resultat 4.13.3. (Fra log til ikke-log)
Da vi har samme varians τ12=τ22=τ2\tau_1^2=\tau_2^2=\tau^2 på logaritmeskalaen, giver sammenhængen μj=exp(νj+12τ2),\mu_j=\exp(\nu_j+\frac{1}{2}\tau^2), at
μ1μ2=exp(ν1+12τ2)exp(ν2+12τ2)=exp(ν1ν2). \frac{\mu_1}{\mu_2}= \frac{\exp(\nu_1+\frac{1}{2}\tau^2)} {\exp(\nu_2+\frac{1}{2}\tau^2)} =\exp(\nu_1-\nu_2).
Her står, at forholdet mellem middelværdierne på den oprindelige skala er exponentialfunktionen taget på differensen mellem middelværdierne på logaritmeskalaen. Et konfidensintervsal for forholdet μ1μ2\frac{\mu_1}{\mu_2} fås derfor ved at tage eksponentialfunktionen på intervalendepunkterne for konfidensintervallet for δ=ν1ν2.\delta=\nu_1-\nu_2.
For data omkring tidsforbruget for at skrive en SMS-tekst giver dette intervallet [e0.364,e0.095]=[0.69,0.91].[e^{-0.364},\,e^{-0.095}]=[0.69,\, 0.91]. Her står, at med 95% sikkerhed er middelværdien for tidsforbruget med smartphone mellem 69% og 91% af middelværdien ved brug af tripelkodende mobil.

Beregninger i R

ForegåendeNæste