Afsnit 3.2: Indledning til GG-test

Hvis vi betragter Xbinom(n,p),X\sim\text{binom}(n,p), er dette et specialtilfælde af multinomialmodellen, idet (X,nX)multinom(n,(p,1p)).(X,n-X)\sim\text{multinom}(n,(p,1-p)). I afsnit 2.1 blev likelihoodfunktionen L(p)L(p) brugt til at finde et skøn over p,p, idet vi brugte den værdi p^,\hat p, der gav maksimum af likelihoodfunktionen. Dette er illustreret i følgende figur med logaritmen til likelihoodfunktionen baseret på observationen 21 fra en binom(34,p)\text{binom}(34,p)-fordeling.
I afsnit 1.2 blev holdbarheden af hypotesen p=p0p=p_0 vurderet ved at se på, hvor langt XX ligger fra det forventede np0,np_0, eller ækvivalent hermed, hvor langt p^=Xn\hat p=\frac{X}{n} ligger fra p0.p_0. Dette svarer til afstand markeret med blåt på førsteaksen i ovenstående figur. Vi kan imidlertid også bruge likelihoodfunktionen til at konstruere et test af hypotesen p=p0.p=p_0. Til dette betragtes forholdet Q=L(p0)/L(p^)Q=L(p_0)/L(\hat p) (likelihood ratio teststørrelsen). Afstanden markeret med rødt i figuren ovenfor svarer til log(Q),-\log(Q), hvor en stor værdi svarer til en lille værdi af Q,Q, og en lille værdi svarer til en værdi af QQ tæt på 1. Fordelen ved at bruge QQ er, at denne metode nemt kan generaliseres til mere komplekse situationer, hvilket vi vil gøre i næste afsnit for test af hypotese i multinomialmodellen.
Per konstruktion ligger værdien af QQ mellem 0 og 1, og små værdier er kritiske for hypotesen. En lille værdi betyder, at sandsynligheden for det observerede er meget mindre under p=p0p=p_0 end under p=p^.p=\hat p. Traditionelt transformerer man QQ til G=2log(Q),G=-2\log(Q), hvor det nu er store værdier, der er kritiske for hypotesen. Da p^=X/n,\hat p=X/n, får man
Q=(nX)p0X(1p0)nX(nX)(Xn)X(1Xn)nX=1(Xnp0)X(nXn(1p0))nX, Q=\frac{\binom{n}{X}p_0^X(1-p_0)^{n-X}} {\binom{n}{X}(\frac{X}{n})^X(1-\frac{X}{n})^{n-X}}= \frac{1} {(\frac{X}{np_0})^X(\frac{n-X}{n(1-p_0)})^{n-X}},
og dermed
G=2log(Q)=2(Xlog(Xnp0)+(nX)log(nXn(1p0))). G=-2\log(Q)=2\Big( X\log\big(\frac{X}{np_0}\big)+(n-X)\log\big(\frac{n-X}{n(1-p_0)}\big)\Big).
Idet vi tænker på (X,nX)(X,n-X) som multinomialfordelt, er np0np_0 og n(1p0)n(1-p_0) de forventede antal i de to kasser under hypotesen p=p0.p=p_0. Ovenstående udtryk for GG kan derfor læses som 2 gange summen over kasser af det observerede antal ganget med logaritmen til det observerede antal divideret med det forventede antal. I næste afsnit genfinder vi dette udtryk mere generelt.

3.2.1 Eksempel på hypotese i multinomialmodellen

Når nanopartikler bruges i produkter vil partiklerne med tiden spredes i naturen og kan påvirke økosystemer negativt. Til at undersøge betydningen af sølvnanopartikler, AgNP, har man lavet et eksperiment, hvor 90 embryoer af zebrafisk befinder sig i en opløsning med 0.4μg/ml0.4\,\mu\text{g/ml} nanopartikler. Tabellen nedenfor viser, hvor mange zebrafisk der dør i forskellige tidsintervaller (målt i timer).
Tidsinterval02424484872729696Antal Døde331591221 \begin{array}{lccccc} \hline \text{Tidsinterval} & 0-24 & 24-48 & 48-72 & 72-96 & 96- \\ \text{Antal Døde} & 33 & 15 & 9 & 12 & 21 \\ \hline \end{array}
Det er naturligt at tænke på data i tabellen som et udfald fra en multinomialmodel,
(A1,A2,A3,A4,A5)multinom(90,(π1,π2,π3,π4,π5)),πj0,π1++π5=1. (A_1,A_2,A_3,A_4,A_5)\sim \text{multinom}(90,(\pi_1,\pi_2,\pi_3,\pi_4,\pi_5)),\enspace \pi_j\geq 0,\enspace \pi_1+\cdots+\pi_5=1.
Hvis der er samme dødsrate gennem de 96 timer, hvor eksperimentet løber, er det relevant at betragte hypotesen
π1=θ,π2=(1θ)θ,π3=(1θ)2θ,π4=(1θ)3θ,π5=(1θ)4, \pi_1=\theta,\enspace \pi_2=(1-\theta)\theta,\enspace \pi_3=(1-\theta)^2\theta,\,\pi_4=(1-\theta)^3\theta,\, \pi_5=(1-\theta)^4,
hvor θ\theta er den teoretiske andel, der dør i løbet af 24 timer. For, som et eksempel, at dø i tidsintervallet 24-48 timer skal man ikke dø i de første 24 timer (sandsynlighed 1θ1-\theta) og dø i den anden tidsperiode (sandsynlighed θ\theta), hvorfor sandsynligheden er π2=(1θ)θ.\pi_2=(1-\theta)\theta. Sandsynligheden for ikke at dø i nogen af de 4 første tidsperioder er π5=(1θ)4.\pi_5=(1-\theta)^4.
Hypotesen, beskrevet her, svarer til at sige, at antal tidsperioder til og med zebrafisken dør er geometrisk fordelt. En stokastisk variabel XX siges at være geometrisk fordelt med parameter θ,\theta, hvis
P(X=x)=(1θ)x1θ,x=1,2,3,. P(X=x)=(1-\theta)^{x-1}\theta,\quad x=1,2,3,\ldots.
ForegåendeNæste