Afsnit 3.2: Indledning til G-test
Hvis vi betragter
X∼binom(n,p), er dette et specialtilfælde
af multinomialmodellen, idet
(X,n−X)∼multinom(n,(p,1−p)).
I afsnit
2.1
blev likelihoodfunktionen
L(p) brugt til at finde et
skøn over
p, idet vi brugte den værdi
p^, der gav maksimum af
likelihoodfunktionen. Dette er illustreret i følgende figur med
logaritmen til likelihoodfunktionen baseret på observationen 21 fra en
binom(34,p)-fordeling.
I afsnit
1.2
blev holdbarheden af hypotesen
p=p0 vurderet ved
at se på, hvor langt
X ligger fra det forventede
np0, eller
ækvivalent hermed, hvor langt
p^=nX ligger fra
p0.
Dette svarer til afstand markeret med blåt på førsteaksen i
ovenstående figur.
Vi kan imidlertid også bruge likelihoodfunktionen til at
konstruere et test af hypotesen
p=p0. Til dette betragtes
forholdet
Q=L(p0)/L(p^) (
likelihood ratio teststørrelsen).
Afstanden markeret med rødt i figuren ovenfor svarer til
−log(Q),
hvor en stor værdi svarer til en lille værdi af
Q, og en
lille værdi svarer til en værdi af
Q tæt på 1.
Fordelen ved at
bruge
Q er, at denne metode nemt kan generaliseres til mere
komplekse situationer, hvilket vi vil gøre i
næste afsnit for test af
hypotese i multinomialmodellen.
Per konstruktion ligger værdien af
Q
mellem 0 og 1, og små værdier er kritiske for hypotesen.
En lille værdi betyder, at sandsynligheden for det observerede er
meget mindre under
p=p0 end under
p=p^.
Traditionelt transformerer man
Q til
G=−2log(Q), hvor det nu
er store værdier, der er kritiske for hypotesen. Da
p^=X/n,
får man
Q=(Xn)(nX)X(1−nX)n−X(Xn)p0X(1−p0)n−X=(np0X)X(n(1−p0)n−X)n−X1,
og dermed
G=−2log(Q)=2(Xlog(np0X)+(n−X)log(n(1−p0)n−X)).
Idet vi tænker på
(X,n−X) som multinomialfordelt, er
np0 og
n(1−p0) de forventede antal i de to kasser under hypotesen
p=p0. Ovenstående udtryk for
G kan derfor læses som
2 gange summen over kasser af det observerede antal ganget med
logaritmen til det observerede antal divideret med det forventede antal.
I
næste afsnit genfinder vi dette udtryk mere generelt.
3.2.1 Eksempel på hypotese i multinomialmodellen
Når nanopartikler bruges i produkter vil partiklerne med tiden
spredes i naturen og kan påvirke økosystemer negativt.
Til at undersøge betydningen af sølvnanopartikler, AgNP,
har man lavet et
eksperiment,
hvor 90 embryoer af zebrafisk
befinder sig i en opløsning med
0.4μg/ml
nanopartikler. Tabellen nedenfor viser, hvor mange
zebrafisk der dør i forskellige tidsintervaller (målt i timer).
TidsintervalAntal Døde0−243324−481548−72972−961296−21
Det er naturligt at tænke på data i tabellen som et udfald fra
en multinomialmodel,
(A1,A2,A3,A4,A5)∼multinom(90,(π1,π2,π3,π4,π5)),πj≥0,π1+⋯+π5=1.
Hvis der er samme dødsrate gennem de 96 timer, hvor eksperimentet
løber, er det relevant at betragte hypotesen
π1=θ,π2=(1−θ)θ,π3=(1−θ)2θ,π4=(1−θ)3θ,π5=(1−θ)4,
hvor
θ er den teoretiske andel, der dør i løbet af 24 timer.
For, som et eksempel, at dø i tidsintervallet 24-48 timer skal
man ikke dø i de første 24 timer
(sandsynlighed
1−θ) og dø i den anden tidsperiode
(sandsynlighed
θ), hvorfor sandsynligheden
er
π2=(1−θ)θ.
Sandsynligheden for ikke at dø i nogen af de 4
første tidsperioder er
π5=(1−θ)4. Hypotesen, beskrevet her, svarer til at sige, at antal tidsperioder
til og med zebrafisken dør er geometrisk fordelt.
En stokastisk variabel
X siges at være
geometrisk fordelt
med parameter
θ, hvis
P(X=x)=(1−θ)x−1θ,x=1,2,3,…. ForegåendeNæste