Hypotesen lægger begrænsninger på variationsområdet for
(π1,…,πk), idet
πj=pj(θ),j=1,…,k,θ⊆Θ.(3.3.2)
Her er pj(⋅) kendte funktioner, θ er en ukendt parameter,
der skal estimeres ud fra data, og θ kan variere i området
Θ, som indeholder et åbent område af Rd.
Det sidste udtrykker vi sprogligt på den måde,
at θ har d frie parametre.
Under hypotesen betegnes den statistiske model med M1, og man
kan enten sige, at vi ønsker at teste hypotesen, eller at vi ønsker
at teste reduktion fra model M0 til model M1.Som skøn over θ bruges den værdi, der
giver maksimum af likelihoodfunktionen L1(θ):
L1(θ)=L(p1(θ),…,pk(θ)),
hvor L(⋅) er givet i ligning (3.1.1). Vi kan nu beregne likelihood ratio teststørrelsenQ, som er
forholdet mellem den maksimale værdi af likelihoodfunktionen
under model M1 og den maksimale værdi af likelihoodfunktionen
under model M0. Ved samme beregning som i
foregående afsnit finder
vi
Her kaldes ej det forventede antal i kasse j under hypotesen
(under model M1).En lille værdi af Q betyder, at data beskrives meget dårligere under
model M1 end under model M0. Jo mindre værdi af Q jo mere kritisk
for hypotesen. Dette er det samme som, at jo større G er, jo mere kritisk.
P-værdien for et test baseret på G er derfor sandsynligheden
for ved gentagelse af eksperimentet at få en værdi af G, der er større
end eller lig med den faktisk observerede værdi af G.P-værdien kan ikke beregnes eksakt, og i stedet benyttes
en approksimation baseret på ki-i-anden-fordelingen,
som I kender fra calculuskurset. Hvis den stokastiske variabel
V er ki-i-anden fordelt med f frihedsgrader, skriver jeg dette
som V∼χ2(f). Sandsynligheden for at V≤v
skrives som χcdf2(v,f) og beregnes i
python med kommandoen st.chi2.cdf(v,f).
Resultat 3.3.1.
(G-test)
Betragt multinomialmodellen
(A1,…,Ak)∼multinom(n,(π1,…,πk)),πj≥0,π1+⋯+πk=1 (model M0) og
hypotesen
πj=pj(θ),j=1,…,k,
hvor θ har d frie parametre (model M1).
Betragt teststørrelsen
G=−2log(Q)=2∑j=1kAjlog(ejAj),ej=npj(θ^),
og lad Gobs være den observerede værdi af
teststørrelsen.
Hvis alle de forventede ej=npj(θ^) er større end
eller lig med 5, har vi approksimativt
p-værdi=P(G≥Gobs)=1−χcdf2(Gobs,k−1−d).
Beviset for dette resultat er ikke nemt. Beviset bygger på
den centrale grænseværdisætning (se afsnit 2.4)
og en andenordens taylorudvikling
af likelihoodfunktionen. På denne måde bliver teststørrelsen en
sum af kvadrerede led, hvor hvert led approksimativt er normalfordelt.
Antallet af frihedsgrader k−1−d
i χ2-fordelingen er generelt
d(M0)−d(M1), hvor d(M0) og d(M1) er antallet af frie parametre
i henholdsvis model M0 og model M1.
I model M0 har vi bindingen, at π1+⋯+πk=1,
hvorfor antallet af frie parametre er k−1.Resultatet ovenfor er første gang, vi støder på χ2-fordelingen
(ki-i-anden fordelingen) i dette kursus. Fordelingen optræder i
sandsynlighedsdelen af
jeres calculuskursus. For at I kan have en fornemmelse
for denne fordeling, nævner jeg lige, at hvis U1,…,Uf er f
uafhængige standard normalfordelte variable, så har U12+⋯+Uf2
en χ2-fordeling med f frihedsgrader.
Eksempel 3.3.2.
(Konstant dødsrate)
Vi vender tilbage til underafsnit 3.2.1 med
data omkring dødstidspunkt for zebrafisk
i en opløsning med sølvnanopartikler,
og laver G-testet for
hypotesen beskrevet der.
Først skal vi finde et skøn over parameteren θ,
hvor πj=(1−θ)j−1θ,
j≤4, og π5=(1−θ)4.
Likelihoodfunktionen bliver
Ved sammenligning med likelihoodfunktionen i binomialmodellen
i afsnit 2.1 ses, at θ^=69/(69+153)=0.3108.
Dernæst beregnes de forventede antal som
ej=90⋅(1−θ^)j−1θ^,
j≤4, og e5=90⋅(1−θ^)4.
Dette giver følgende tabel (forventede er afrundet til
eˊn decimal).
Da alle de forventede er større end eller lig med 5,
beregner vi G-teststørrelsen og den approksimative
p-værdi fra en χ2-fordeling med
5−1−1 frihedsgrader. Ved beregning af antal frihedsgrader
benyttes, at multinomialmodellen her deler op i 5 kasser,
og den hypotese, der testes, har 1 parameter (nemlig θ).
Beregningen i kodevinduet nedenfor giver G=4.27 og
en p-værdi på 0.234. Da p-værdien er noget over 0.05,
siger vi, at data ikke strider mod hypotesen om samme
dødsrate i perioden 0-96 timer.
I det følgende kodevindue tegnes tætheden for en
χ2(df) fordeling, og 95%-fraktilen
markeres med en lodret streg. Fraktilen angiver
punktet, hvor 95% af sandsynligheden i fordelingen
ligger til venstre for punktet og 5% ligger til højre
for punktet. Prøv at køre koden med forskellige valg af
antallet af frihedgrader df.
Prøv også i kodevinduet at beregne sandsynligheden
for at ligge til højre for 5.99 i en χ2-fordeling
med 2 frihedsgrader.