Under model kan estimation foretages for hver af
de multinomialmodeller
under brug af resultatet i
underafsnit 3.1.1. Dette giver
Under model skal det fælles sæt sandsynligheder
estimeres. Opstiller man likelihoodfunktionen,
kan man indse, at estimaterne opnås ved at bruge
hvor er den
'te søjlesum og
Igen kan vi bruge
resultatet i
underafsnit 3.1.1
og får
Vi kan nu beregne de forventede under model Idet
er det forventede antal i kasse for population
er denne
Denne formel kan læses som "rækkesum gange søjlesum divideret med
den totale sum".
3.7.1 Test
For at lave et test for reduktion fra model til model
bruges igen likelihood ratio teststørrelsen på
formen hvor er forholdet mellem maksimum
af likelihoodfuktionen under de to modeller:
og dermed
I ord kan vi sige dette, som at er 2 gange sum over celler af det
observerede antal ganget med logaritmen til det observerede antal
divideret med det forventede antal. Med celler mener vi indgangene
i matricen med antallene
Resultat 3.7.1.
(Homogenitetstest)
Betragt modellerne og som beskrevet i dette afsnit. Hvis alle de
forventede er større end eller lig med 5, kan vi
approksimativt beregne værdien for test af reduktion fra
model til model baseret på den observerede værdi
af teststørrelsen ved
Antallet af frihedsgrader følger den generelle regel med antallet
af frie parametre i minus antallet af frie parametre i :
Nedenstående kode viser eksplicit beregningen af de forventede antal.
I skal ikke bruge denne kode når I regner opgaver, hvor I i stedet skal
bruge koden nedenfor i eksempel 3.7.2.
I kodevinduet her er Obs en
matriks med følgende data:
Kør koden, og forklar,
hvad de forskellige dele af output indeholder.
Vektoren rs indeholder rækkesummer, og vektoren
cs indeholder søjlesummer for matricen obs.
Matricen rscs har samme dimension som obs,
og har i den 'te indgang produktet af den
''te rækkesum og den 'te søjlesum.
Matricen ex indeholder derfor de forventede antal.
Endelig indeholder gTest og pval henholdsvis -teststørrelsen
og den tilhørende -værdi.
Eksempel 3.7.2.
(Dannelse af biofilm)
Vi fortsætter med data omkring dannelse af biofilm for to bakterier
fra Eksempel 3.6.1.Først opstilles en statistisk model for data. Lad
(Pathogenic,Faecal), (Weak, Moderate, Strong), være den stokastiske
variabel, der angiver antal eksperimenter med biofilmdannelsen i
kategori for bakterietype Vi benytter modellen
Under denne model ønsker vi at teste hypotesen om samme fordeling
af biofilmkategori for de to bakterietyper,
Først findes de forventede antal under hypotesen som
rækkesum gange søjlesum divideret med det totale antal.
Dette giver følgende tabel (afrundet til to decimaler).
Dernæst beregnes -teststørelsen,
Da alle de forventede er større end fem (den mindste er 14.29),
bruges -approksimationen til fordelingen af og vi får
Denne -værdi er langt over 0.05, hvorfor data ikke strider mod
hypotesen om samme evne til dannelse af biofilm for de to
bakterietyper. I artiklen, hvor data stammer fra, laves der
to andre eksperimenter med andre vækstmedier for bakterierne,
og her finder man en forskel mellem de to bakterietyper.
Koden nedenfor kan bruges generelt når man indskriver sin
datamatriks i variablen obs. I python indskrives hver række
indenfor kantede parenteser, og rækker er adskilt af et komma.
Output fra beregningen er en
matriks med de forventede antal, -teststørrelsen og den
tilhørende -værdi.