Afsnit 3.3: $G$ -teststørrelsen

Jeg vil nu formulere en hypotese i multinomialfordelingen generelt. Udgangspunktet er modellen

M_0:\enspace(A_1,\ldots,A_k)\sim\text{multinom}(n,(\pi_1,\ldots,\pi_k)),\enspace \pi_j\geq 0,\enspace\pi_1+\cdots+\pi_k=1.\quad \tag{3.3.1}

Hypotesen lægger begrænsninger på variationsområdet for

(\pi_1,\ldots,\pi_k),

idet

\pi_j=p_j(\theta),\enspace j=1,\ldots,k,\quad\theta\subseteq \Theta. \tag{3.3.2}

Her er

p_j(\cdot)

kendte funktioner,

\theta

er en ukendt parameter, der skal estimeres ud fra data, og

\theta

kan variere i området

\Theta,

som indeholder et åbent område af

\mathbf{R}^d.

Det sidste udtrykker vi sprogligt på den måde, at

\theta

har

d

frie parametre. Under hypotesen betegnes den statistiske model med

M_1,

og man kan enten sige, at vi ønsker at teste hypotesen, eller at vi ønsker at teste reduktion fra model

M_0

til model

M_1.

Som skøn over

\theta

bruges den værdi, der giver maksimum af likelihoodfunktionen

L_1(\theta)

L_1(\theta)=L\big(p_1(\theta),\ldots,p_k(\theta)\big),

hvor

L(\cdot)

er givet i ligning (3.1.1).

Vi kan nu beregne likelihood ratio teststørrelsen

Q,

som er forholdet mellem den maksimale værdi af likelihoodfunktionen under model

M_1

og den maksimale værdi af likelihoodfunktionen under model

M_0.

Ved samme beregning som i foregående afsnit finder vi

Q=\frac{L\big(p_1(\hat\theta),\ldots,p_k(\hat\theta)\big)} {L\big(\frac{A_1}{n},\ldots,\frac{A_k}{n}\big)} =\frac{1}{\big(\frac{A_1}{np_1(\hat\theta)}\big)^{A_1} \cdots \big(\frac{A_k}{np_k(\hat\theta)}\big)^{A_k}},

og dermed

G=-2\log(Q)=2\sum_{j=1}^k A_j\log\big(\frac{A_j}{e_j}\big),\quad e_j=np_j(\hat\theta). \tag{3.3.3}

Her kaldes

e_j

det forventede antal i kasse

j

under hypotesen (under model

M_1

En lille værdi af

Q

betyder, at data beskrives meget dårligere under model

M_1

end under model

M_0.

Jo mindre værdi af

Q

jo mere kritisk for hypotesen. Dette er det samme som, at jo større

G

er, jo mere kritisk.

P\text{-}

værdien for et test baseret på

G

er derfor sandsynligheden for ved gentagelse af eksperimentet at få en værdi af

G,

der er større end eller lig med den faktisk observerede værdi af

G.

P

-værdien kan ikke beregnes eksakt, og i stedet benyttes en approksimation baseret på ki-i-anden-fordelingen, som I kender fra calculuskurset. Hvis den stokastiske variabel

V

er ki-i-anden fordelt med

f

frihedsgrader, skriver jeg dette som

V\sim\chi^2(f).

Sandsynligheden for at

V\leq v

skrives som

\chi^2_{\text{cdf}}(v,f)

og beregnes i python med kommandoen st.chi2.cdf(v,f).

Resultat 3.3.1. (G-test)

Betragt multinomialmodellen

(A_1,\ldots,A_k)\sim\text{multinom}(n,(\pi_1,\ldots,\pi_k)),

\pi_j\geq 0,

\pi_1+\cdots+\pi_k=1

(model

M_0

) og hypotesen

\pi_j=p_j(\theta),

j=1,\ldots,k,

hvor

\theta

har

d

frie parametre (model

M_1

). Betragt teststørrelsen

G=-2\log(Q)=2\sum_{j=1}^k A_j\log\big(\frac{A_j}{e_j}\big),

e_j=np_j(\hat\theta),

og lad

G_{\text{obs}}

være den observerede værdi af teststørrelsen. Hvis alle de forventede

e_j=np_j(\hat\theta)

er større end eller lig med 5, har vi approksimativt

p\text{-værdi}=P(G\geq G_{\text{obs}})= 1-\chi^2_{\text{cdf}}(G_{\text{obs}},k-1-d).

Beviset for dette resultat er ikke nemt. Beviset bygger på den centrale grænseværdisætning (se afsnit 2.4) og en andenordens taylorudvikling af likelihoodfunktionen. På denne måde bliver teststørrelsen en sum af kvadrerede led, hvor hvert led approksimativt er normalfordelt. Antallet af frihedsgrader

k-1-d

\chi^2

-fordelingen er generelt

d(M_0)-d(M_1),

hvor

d(M_0)

d(M_1)

er antallet af frie parametre i henholdsvis model

M_0

og model

M_1.

I model

M_0

har vi bindingen, at

\pi_1+\cdots+\pi_k=1,

hvorfor antallet af frie parametre er

k-1.

Resultatet ovenfor er første gang, vi støder på

\chi^2

-fordelingen (ki-i-anden fordelingen) i dette kursus. Fordelingen optræder i sandsynlighedsdelen af jeres calculuskursus. For at I kan have en fornemmelse for denne fordeling, nævner jeg lige, at hvis

U_1,\ldots,U_f

f

uafhængige standard normalfordelte variable, så har

U_1^2+\cdots+U_f^2

\chi^2\text{-}

fordeling med

f

frihedsgrader.

Eksempel 3.3.2. (Konstant dødsrate)

Vi vender tilbage til underafsnit 3.2.1 med data omkring dødstidspunkt for zebrafisk i en opløsning med sølvnanopartikler, og laver

G

-testet for hypotesen beskrevet der. Først skal vi finde et skøn over parameteren

\theta,

hvor

\pi_j=(1-\theta)^{j-1}\theta

j\leq 4,

\pi_5=(1-\theta)^4.

Likelihoodfunktionen bliver

\begin{aligned} L_1(\theta)&=\binom{90}{33,15,9,12,21} \theta^{33} \big((1-\theta)\theta\big)^{15} \big((1-\theta)^2\theta\big)^{9} \big((1-\theta)^3\theta\big)^{12} \big((1-\theta)^4\big)^{21} \\ & =\binom{90}{33,15,9,12,21} \theta^{69} (1-\theta)^{153}. \end{aligned}

Ved sammenligning med likelihoodfunktionen i binomialmodellen i afsnit 2.1 ses, at

\hat\theta=69/(69+153)=0.3108.

Dernæst beregnes de forventede antal som

e_j=90\cdot (1-\hat\theta)^{j-1}\hat\theta

j\leq 4,

e_5=90\cdot (1-\hat\theta)^4.

Dette giver følgende tabel (forventede er afrundet til

\acute{\text{e}}

n decimal).

\begin{array}{lccccc} \hline \text{Tidsinterval} & 0-24 & 24-48 & 48-72 & 72-96 & 96- \\ \text{Antal Døde} & 33 & 15 & 9 & 12 & 21 \\ \text{Forventede} & 28.0 & 19.3 & 13.3 & 9.2 & 20.3 \\ \hline \end{array}

Da alle de forventede er større end eller lig med 5, beregner vi

G

-teststørrelsen og den approksimative

p

-værdi fra en

\chi^2

-fordeling med

5-1-1

frihedsgrader. Ved beregning af antal frihedsgrader benyttes, at multinomialmodellen her deler op i 5 kasser, og den hypotese, der testes, har 1 parameter (nemlig

\theta

). Beregningen i kodevinduet nedenfor giver

G=4.27

og en

p

-værdi på 0.234. Da

p

-værdien er noget over 0.05, siger vi, at data ikke strider mod hypotesen om samme dødsrate i perioden 0-96 timer.

3.3.3 Beregning i python af G-test

Den følgende kode er kun semi-generel. Man skal selv indskrive en datavektor (

a

), antal parametre (dpar) og beregne de forventede antal (ex).

xxxxxxxxxx
 
import numpy as np
import scipy.stats as st
​
# data indskrives
a=np.array([33,15,9,12,21])
​
# antal parametre indskrives
dpar=1
​
# parameter estimeres og forventede beregnes
th=sum(a[0:4])/(sum(a[0:4])+sum(np.array([1, 2, 3, 4])*a[1:]))
n=sum(a)
ex=n*np.array([th,th*(1-th),th*(1-th)**2,th*(1-th)**3,(1-th)**4])
​
# herfra kan kode genbruges
​
# teststørrelse og pværdi beregnes
gTest=2*sum(a*np.log(a/ex))
pval=1-st.chi2.cdf(gTest,len(a)-1-dpar)
​
# pæn udskrift
print('Gteststørrelse: ',format(gTest,'.2f'),'    Pværdi: ',format(pval,'.4f'))

$χ^{2}$ -fordelingen i python

I det følgende kodevindue tegnes tætheden for en

\chi^2(\mathit{df})

fordeling, og 95%-fraktilen markeres med en lodret streg. Fraktilen angiver punktet, hvor 95% af sandsynligheden i fordelingen ligger til venstre for punktet og 5% ligger til højre for punktet. Prøv at køre koden med forskellige valg af antallet af frihedgrader

\mathit{df}.

Prøv også i kodevinduet at beregne sandsynligheden for at ligge til højre for 5.99 i en

\chi^2

-fordeling med 2 frihedsgrader.

xxxxxxxxxx
 
import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt
​
# fordeling vælges og område for tegning beregnes
df=2
mu=df
sigma=np.sqrt(2*df)
x=np.linspace(np.max([0,mu-3*sigma]),(mu+3*sigma),1000)
​
# ki-i-anden tæthed tegnes
plt.plot(x,st.chi2.pdf(x,df),'-')
plt.axvline(st.chi2.ppf(0.95,df),color='r')
plt.ylabel('Tæthed')
plt.show()

Foregående Næste

Afsnit 3.3: GGG-teststørrelsen

Afsnit 3.3: $G$ -teststørrelsen