Afsnit 6.5: Two sample tests i python

I alle eksemplerne ovenfor omkring to normalfordelte observationssæt er de forskellige tests lavet ved at bruge python som en lommeregner. I python laves disse test med funktionen ttest $\text{\textunderscore}$ ind fra scipy.stats-modulet. Denne funktion laver imidlertid ikke det tilhørende konfidensinterval, og jeg har derfor selv kodet en funktion ttest2. Funktionen ligger i pytFunktioner.py omtalt i afsnit 1.6.

6.5.1 Two samples: Teste varianser ens

Python har ikke en indbygget funktion til at lave

F

-testet for hypotesen om ens varianser i Statistisk Model 6.1.1 med to normalfordelte observationssæt. Jeg har derfor selv kodet en funktion med navnet vartest2. Funktionen ligger i pytFunktioner.py. Hvis data ligger i to vektorer x og y, og output placeres i fUD, bliver kaldet

\text{fUD=vartest2(x,y)}

De forskellige dele af output er som følger:

\begin{array}{lr}\hline \text{Værdi} & \text{Python} \\ \hline F\text{-teststørrelsen} & \text{fUD.fstat} \\ \text{Frihedsgrader} & \text{fUD.df1,fUD.df2} \\ P\text{-værdi} & \text{fUD.p} \\ \text{Nedre grænse} & \text{fUD.lower} \\ \text{Øvre grænse} & \text{fUD.upper} \\ \hline \end{array}

Det 95%-konfidensinterval, der angives i output, er for forholdet mellem de to variansparametre, det vil sige for

\sigma_1^2/\sigma_2^2

(dette konfidensinterval har jeg ikke omtalt ovenfor). Gå nu tilbage til Eksempel 6.4.3, og find de beregnede værdier der i output fra et kald af vartest2.

6.5.1 Teste to varianser ens

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import scipy.stats as st
import pandas as pd
​
# funktionen vartest2 defineres
def vartest2(x:"numpyarray_float",y:"numpyarray_float",
  ciLevel:"float"=0.95):
  # teste to varianser ens for data i vektorerne x og y
  df1=len(x)-1
  df2=len(y)-1
  fstat=np.var(x,ddof=1)/np.var(y,ddof=1)
  p=2*np.min([st.f.cdf(fstat,df1,df2),1-st.f.cdf(fstat,df1,df2)])
  lower=fstat/st.f.ppf(1-(1-ciLevel)/2,df1,df2)
  upper=fstat/st.f.ppf((1-ciLevel)/2,df1,df2)
  return pd.DataFrame(np.array([fstat,df1,df2,p,lower,upper]).reshape(1,-1),
    columns=['fstat','df1','df2','p','lower','upper'],index=[''])
​
print("Opstart er gennemført: funktion vartest2 er defineret")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# data indskrives    
qia=np.array([14.8,13.3,13.0,13.3,15.1,16.3,17.1,19.2,19.2,\
24.2,22.5,22.2,23.3,25.1])
tri=np.array([21.6,26.3,28.4,36.7,36.4,35.5,35.8,36.4,38.1,\
37.8,38.1,39.9,40.5,40.5,43.7,44.3,45.5,46.4,48.5,49.1])
​
# test udføres
print(vartest2(qia,tri))

Vi aflæser i output at

F

-tesstørrelsen er 0.375 og

p

-værdien er 0.075. Hvilken

F

-fordeling bruges til beregningen af

p

-værdien ?

Svar: Aflæsning

I output fra vartest2 aflæses, at der er 13 frihedsgrader i tæller og 19 frihedsgrader i nævner. Den anvendte fordeling er derfor en

F(13,19)

-fordeling.

6.5.2 Two samples: Teste middelværdier ens

For at teste at middelværdierne er ens i to normalfordelinger, skal man enten bruge

t

-testet, hvis de to varianser er ens, eller også bruge Welchs test, hvis de to varianser ikke er ens. Begge de to tests udregnes med funktionen ttest2. Hvis data ligger i to vektorer x1 og x2, bliver kaldet i tilfældet, hvor varianserne antages ens:

\text{tUD=ttest2(x1,x2,varequal=True)}

Hvis de to varianser antages forskellige skal man ændre True til False. De forskellige dele af output er som følger:

\begin{array}{lr}\hline \text{Værdi} & \text{Python} \\ \hline T\text{-teststørrelsen} & \text{tUD.tstat} \\ \text{Frihedsgrader} & \text{tUD.df} \\ P\text{-værdi} & \text{tUD.p} \\ \text{Skøn over differens} & \text{tUD.est} \\ \text{Nedre grænse} & \text{tUD.lower} \\ \text{Øvre grænse} & \text{tUD.upper} \\ \hline \end{array}

Nedre og øvre grænse er for et 95%-konfidensinterval for forskel i middelværdi mellem gruppe 1 og gruppe2, det vil sige for parameteren

\delta=\mu_1-\mu_2.

Gå nu tilbage til Eksempel 6.2.2 og Eksempel 6.3.2 og gentag beregningerne ved hjælp af ttest2.

6.5.2 Teste to middelværdier ens

Først laver vi beregningerne hørende til Eksempel 6.2.2.

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import scipy.stats as st
import pandas as pd
​
# funktionen ttest2 defineres
def ttest2(x:"numpyarray_float",y:"numpyarray_float",
  varequal:"boolean"=True,ciLevel:"float"=0.95):
  # two sample t-test for data i vektorerne x og y, metode betemt af varequal
  n1=len(x); df1=n1-1
  n2=len(y); df2=n2-1
  m1=np.mean(x); m2=np.mean(y)
  va1=np.var(x,ddof=1); va2=np.var(y,ddof=1)
  if varequal:
    df=df1+df2
    s2=(df1*va1+df2*va2)/df
    stds=np.sqrt(s2*(1/n1+1/n2))
  else:
    df=((va1/n1+va2/n2)**2)/((va1/n1)**2/df1+(va2/n2)**2/df2)
    stds=np.sqrt(va1/n1+va2/n2)
  est=m1-m2
  tstat=est/stds
  p=2*st.t.cdf(-abs(tstat),df)
  t0=st.t.ppf(1-(1-ciLevel)/2,df)
  lower=m1-m2-t0*stds
  upper=m1-m2+t0*stds
  return pd.DataFrame(np.array([tstat,df,p,est,lower,upper]).reshape(1,-1),
    columns=['tstat','df','p','est','lower','upper'],index=[''])
​
print("Opstart er gennemført: funktion ttest2 er defineret")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# data indskrives
qia=np.array([14.8,13.3,13.0,13.3,15.1,16.3,17.1,19.2,19.2,\
24.2,22.5,22.2,23.3,25.1])
tri=np.array([21.6,26.3,28.4,36.7,36.4,35.5,35.8,36.4,38.1,\
37.8,38.1,39.9,40.5,40.5,43.7,44.3,45.5,46.4,48.5,49.1])
​
# t-test beregnes
print(ttest2(qia,tri,varequal=True))

Vi aflæser her

t

-teststørrelsen til

-9.35,

p

-værdien fra en

t(32)

-fordeling er

1.1\cdot 10^{-10}

, og et 95%-konfidensinterval for forskel i middelværdi er

[-24.4,\,-15.6].

Vi betragter dernæst beregningerne hørende til Eksempel 6.3.2.

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# data indskrives
atmos=np.array([2.31017,2.30986,2.31010,2.31001,2.31024,2.31010,2.31028])
kemi=np.array([2.30143,2.29890,2.29816,2.30182,2.29869,2.29940,2.29849,2.29869])
​
# t-test beregnes
print(ttest2(atmos,kemi,varequal=False))

Vi aflæser her

t

-teststørrelsen til

21.52,

p

-værdien fra en

t(7.2)

-fordeling er

8.9\cdot 10^{-8}

, og et 95%-konfidensinterval for forskel i middelværdi er

[0.0095,\,0.0118].

6.5.3 Eksempel: log-data

I eksempel 6.2.2 så vi, at mængden af ekstraheret cell free DNA var næsten dobbelt så stor ved Triton-metoden som ved Qiagen-metoden. Den empiriske spredning ved Triton-metoden er også noget højere end den empiriske spredning ved Qiagen-metoden, selvom et formelt test for hypotesen om ens varianser vil give en

p

-værdi over 0.05. At middelværdi og spredning "følges ad" er ikke helt atypisk, når data vedrører en positiv størrelse (her mængde). I sådanne situationer vil der ofte ske det, at hvis data logaritmetransformeres, vil der efterfølgende være større lighed mellem varianserne.

Lad os betegne logaritmen til mængden af ekstraheret CFDNA med henholdsvis

\text{logQia}_{i}

\text{logTri}_{i}

for den

i

'te prøve i de to grupper. Vi betragter Statistisk Model 6.1.1, her skrevet som

\begin{aligned} \text{LogQia}_i & \sim N(\nu_1,\tau_1^2),\enspace i=1,\ldots,14, \\ \text{LogTri}_i & \sim N(\nu_2,\tau_2^2),\enspace i=1,\ldots,20,\\ & (\nu_{1},\nu_{2},\tau_{1},\tau_{2})\in \mathbf{R}^2\times\mathbf{R}_+^2, \end{aligned}

hvor

\nu_j

er middelværdien af logaritmen til mængden. Man kan matematisk vise sammenhængen

\mu_j=\exp(\nu_j+\frac{1}{2}\tau_j^2),

hvor

\mu_j

er middelværdien af mængden. I kodevinduet nedenfor laves der qqplots for de logaritmetransformerede data, og disse giver ikke anledning til at forkaste modellen.

Først undersøges hypotesen om samme varians i de to grupper for de logaritmetransformerde værdier. Beregningen er vist i kodevinduet nedenfor:

F

-teststørrelsen er 1.3427, og

p

-værdien (to gange sandsynlighed for værdi større end 1.3427) fra en

F(13,19)

-fordeling er 0.54. Da

p

-værdien er langt over 0.05, siger vi, at data ikke strider mod samme varians på logaritmeskalaen.

I kodevinduet laves der også et 95%-konfidensinterval for forskel i middelværdi mellem gruppe 1 og gruppe2,

\delta=\nu_1-\nu_2,

under antagelsen om samme varians. Konfidensintervallet er baseret på

t(32)

-fordelingen, og bliver

[-0.897,\, -0.586].

Vi kan oversætte dette konfidensinterval til et konfidensinterval for forholdet mellem middelværdierne på den oprindelige skala.

Resultat 6.5.3. (Fra log til ikke-log)

Da vi har samme varians

\tau_1^2=\tau_2^2=\tau^2

på logaritmeskalaen, giver sammenhængen

\mu_j=\exp(\nu_j+\frac{1}{2}\tau^2),

\frac{\mu_1}{\mu_2}= \frac{\exp(\nu_1+\frac{1}{2}\tau^2)} {\exp(\nu_2+\frac{1}{2}\tau^2)} =\exp(\nu_1-\nu_2).

Her står, at forholdet mellem middelværdierne på den oprindelige skala er exponentialfunktionen taget på differensen mellem middelværdierne på logaritmeskalaen. Et konfidensintervsal for forholdet

\frac{\mu_1}{\mu_2}

fås derfor ved at tage eksponentialfunktionen på intervalendepunkterne for konfidensintervallet for

\delta=\nu_1-\nu_2.

For data omkring mængden af CFDNA giver dette resultat 95%-konfidensintervallet

[e^{-0.897},\,e^{-0.586}]=[0.41,\, 0.56].

Her står, at med 95% sikkerhed er middelværdien af mængden af CFDNA ved Qiagen-metoden mellem 41% og 56% af middelværdien ved brug af Triton-metoden.

Beregninger i python

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
from scipy.stats import t, f
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.graphics.gofplots import qqplot
​
# funktionen vartest2 defineres
def vartest2(x,y,ciLevel=0.95):
  df1=len(x)-1
  df2=len(y)-1
  fstat=np.var(x,ddof=1)/np.var(y,ddof=1)
  p=2*np.min([f.cdf(fstat,df1,df2),1-f.cdf(fstat,df1,df2)])
  lower=fstat/f.ppf(1-(1-ciLevel)/2,df1,df2)
  upper=fstat/f.ppf((1-ciLevel)/2,df1,df2)
  return pd.DataFrame(np.array([fstat,df1,df2,p,lower,upper]).reshape(1,-1),
    columns=['fstat','df1','df2','p','lower','upper'],index=[''])
  
# funktionen ttest2 defineres
def ttest2(x:"numpyarray_float",y:"numpyarray_float",
  varequal:"boolean"=True,ciLevel:"float"=0.95):
  # two sample t-test for data i vektorerne x og y, metode betemt af varequal
  n1=len(x); df1=n1-1
  n2=len(y); df2=n2-1
  m1=np.mean(x); m2=np.mean(y)
  va1=np.var(x,ddof=1); va2=np.var(y,ddof=1)
  if varequal:
    df=df1+df2
    s2=(df1*va1+df2*va2)/df
    stds=np.sqrt(s2*(1/n1+1/n2))
  else:
    df=((va1/n1+va2/n2)**2)/((va1/n1)**2/df1+(va2/n2)**2/df2)
    stds=np.sqrt(va1/n1+va2/n2)
  est=m1-m2
  tstat=est/stds
  p=2*st.t.cdf(-abs(tstat),df)
  t0=st.t.ppf(1-(1-ciLevel)/2,df)
  lower=m1-m2-t0*stds
  upper=m1-m2+t0*stds
  return pd.DataFrame(np.array([tstat,df,p,est,lower,upper]).reshape(1,-1),
    columns=['tstat','df','p','est','lower','upper'],index=[''])
​
# data indskrives
qia=np.array([14.8,13.3,13.0,13.3,15.1,16.3,17.1,19.2,19.2,\
24.2,22.5,22.2,23.3,25.1])
tri=np.array([21.6,26.3,28.4,36.7,36.4,35.5,35.8,36.4,38.1,\
37.8,38.1,39.9,40.5,40.5,43.7,44.3,45.5,46.4,48.5,49.1])
print("Opstart er gennemført: qia og tri er indskrevet")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# datasæt og logaritmetransformerede
x1=qia
x2=tri
logX1=log(x1)
logX2=log(x2)
​
# qqplots dannes
ax1=plt.subplot(1,2,1) 
ax2=plt.subplot(1,2,2) 
qqplot(x1,line='r',ax=ax1)
qqplot(x2,line='r',ax=ax1,marker='+',color='r')
ax1.set_title('Ikke Log')
qqplot(logX1,line='r',ax=ax2)
qqplot(logX2,line='r',ax=ax2,marker='+',color='r')
ax2.set_title('Log')
plt.tight_layout() # mere afstand mellem de to figurer
plt.show()
​
# test udføres
print('Test for samme varians:')
print(vartest2(logX1,logX2))
print(' ')
print('Test for samme middelværdi:')
print(ttest2(logX1,logX2,varequal=True))

Foregående Næste