Afsnit 3.2: Indledning til $G$ -test

Hvis vi betragter

X\sim\text{binom}(n,p),

er dette et specialtilfælde af multinomialmodellen, idet

(X,n-X)\sim\text{multinom}(n,(p,1-p)).

I afsnit 2.1 blev likelihoodfunktionen

L(p)

brugt til at finde et skøn over

p,

idet vi brugte den værdi

\hat p,

der gav maksimum af likelihoodfunktionen. Dette er illustreret i følgende figur med logaritmen til likelihoodfunktionen baseret på observationen 21 fra en

\text{binom}(34,p)

-fordeling.

I afsnit 1.2 blev holdbarheden af hypotesen

p=p_0

vurderet ved at se på, hvor langt

X

ligger fra det forventede

np_0,

eller ækvivalent hermed, hvor langt

\hat p=\frac{X}{n}

ligger fra

p_0.

Dette svarer til afstand markeret med blåt på førsteaksen i ovenstående figur. Vi kan imidlertid også bruge likelihoodfunktionen til at konstruere et test af hypotesen

p=p_0.

Til dette betragtes forholdet

Q=L(p_0)/L(\hat p)

(likelihood ratio teststørrelsen). Afstanden markeret med rødt i figuren ovenfor svarer til

-\log(Q),

hvor en stor værdi svarer til en lille værdi af

Q,

og en lille værdi svarer til en værdi af

Q

tæt på 1. Fordelen ved at bruge

Q

er, at denne metode nemt kan generaliseres til mere komplekse situationer, hvilket vi vil gøre i næste afsnit for test af hypotese i multinomialmodellen.

Per konstruktion ligger værdien af

Q

mellem 0 og 1, og små værdier er kritiske for hypotesen. En lille værdi betyder, at sandsynligheden for det observerede er meget mindre under

p=p_0

end under

p=\hat p.

Traditionelt transformerer man

Q

til

G=-2\log(Q),

hvor det nu er store værdier, der er kritiske for hypotesen. Da

\hat p=X/n,

får man

Q=\frac{\binom{n}{X}p_0^X(1-p_0)^{n-X}} {\binom{n}{X}(\frac{X}{n})^X(1-\frac{X}{n})^{n-X}}= \frac{1} {(\frac{X}{np_0})^X(\frac{n-X}{n(1-p_0)})^{n-X}},

og dermed

G=-2\log(Q)=2\Big( X\log\big(\frac{X}{np_0}\big)+(n-X)\log\big(\frac{n-X}{n(1-p_0)}\big)\Big).

Idet vi tænker på

(X,n-X)

som multinomialfordelt, er

np_0

n(1-p_0)

de forventede antal i de to kasser under hypotesen

p=p_0.

Ovenstående udtryk for

G

kan derfor læses som 2 gange summen over kasser af det observerede antal ganget med logaritmen til det observerede antal divideret med det forventede antal. I næste afsnit genfinder vi dette udtryk mere generelt.

3.2.1 Eksempel på hypotese i multinomialmodellen

Når nanopartikler bruges i produkter vil partiklerne med tiden spredes i naturen og kan påvirke økosystemer negativt. Til at undersøge betydningen af sølvnanopartikler, AgNP, har man lavet et eksperiment, hvor 90 embryoer af zebrafisk befinder sig i en opløsning med

0.4\,\mu\text{g/ml}

nanopartikler. Tabellen nedenfor viser, hvor mange zebrafisk der dør i forskellige tidsintervaller (målt i timer).

\begin{array}{lccccc} \hline \text{Tidsinterval} & 0-24 & 24-48 & 48-72 & 72-96 & 96- \\ \text{Antal Døde} & 33 & 15 & 9 & 12 & 21 \\ \hline \end{array}

Det er naturligt at tænke på data i tabellen som et udfald fra en multinomialmodel,

(A_1,A_2,A_3,A_4,A_5)\sim \text{multinom}(90,(\pi_1,\pi_2,\pi_3,\pi_4,\pi_5)),\enspace \pi_j\geq 0,\enspace \pi_1+\cdots+\pi_5=1.

Hvis der er samme dødsrate gennem de 96 timer, hvor eksperimentet løber, er det relevant at betragte hypotesen

\pi_1=\theta,\enspace \pi_2=(1-\theta)\theta,\enspace \pi_3=(1-\theta)^2\theta,\,\pi_4=(1-\theta)^3\theta,\, \pi_5=(1-\theta)^4,

hvor

\theta

er den teoretiske andel, der dør i løbet af 24 timer. For, som et eksempel, at dø i tidsintervallet 24-48 timer skal man ikke dø i de første 24 timer (sandsynlighed

1-\theta

) og dø i den anden tidsperiode (sandsynlighed

\theta

), hvorfor sandsynligheden er

\pi_2=(1-\theta)\theta.

Sandsynligheden for ikke at dø i nogen af de 4 første tidsperioder er

\pi_5=(1-\theta)^4.

Hypotesen, beskrevet her, svarer til at sige, at antal tidsperioder til og med zebrafisken dør er geometrisk fordelt. En stokastisk variabel

X

siges at være geometrisk fordelt med parameter

\theta,

hvis

P(X=x)=(1-\theta)^{x-1}\theta,\quad x=1,2,3,\ldots.

Foregående Næste

Afsnit 3.2: Indledning til GGG-test

3.2.1 Eksempel på hypotese i multinomialmodellen

Afsnit 3.2: Indledning til $G$ -test