Kapitel 3: Multinomialmodellen

Mon ikke de fleste af os kender fornemmelsen af, at der aldrig kommer nogen seksere på terningen, når man spiller ludo. Man taler generelt om, at en terning er "ærlig", hvis de seks sider kommer op lige ofte. Hvis jeg skal teste, om min egen ludoterning er ærlig, vil jeg nok kaste den et stort antal gange og tælle op, hvor ofte side 1 kom op, hvor ofte side 2 og så videre. På denne måde får jeg seks observerede antal, der skal sammenlignes med seks ens forventede antal. Hvordan skal jeg foretage denne sammenligning?
Situationen med terningeksperimentet er en generalisation af binomialmodellen omtalt i afsnit 1.3. I binomialmodellen har hvert "kast" to mulige udfald. Vi siger, at kastet kan ramme ned i en af to "kasser". I terningesituationen kan man i hvert kast ramme ned i en af seks kasser. Modellen til at beskrive denne situation generelt hedder multinomialmodellen og beskrives i afsnit 3.1.
I eksemplet ovenfor med terningekast er hypotesen, at de seks sandsynligheder for de seks sider af terningen alle er Under hypotesen kender vi altså sandsynlighederne for at falde i de forskellige "kasser", og på denne måde ligner dette situationen med test for en given værdi af sandsynlighedsparameteren i en binomialmodel. Mere generelt kan en hypotese dog bestå i, at der lægges restriktioner på, hvordan sandsynlighederne kan variere, uden at angive sandsynlighederne med en numerisk værdi. Et eksempel på dette er, hvor en genetisk egenskab er bestemt af to alleler. Hvis de to alleler kaldes og har vi tre genotyper aa, aA og AA. Hvis en population er i Hardy-Weinberg ligevægt er sandsynlighederne for de tre genotyper og hvor er en ukendt parameter, der fortolkes som andelen af -allelen i populationen. Jeg indfører i afsnittene 3.2 og 3.3 et generelt test (likelihood ratio test) for at håndtere denne type situation. Testet indføres først i binomialmodellen for at gøre beskrivelsen mere simpel.
Testet kan blandt andet bruges til at undersøge, om en række observationer stammer fra en bestemt fordeling. Man taler i denne sammenhæng om et goodness of fit test. Dette beskrives i afsnit 3.4 og eksemplificeres yderligere i afsnit 3.5.
Kapitel 3 afsluttes med at se på situationen, hvor der er flere grupper af multinomialfordelte data, og man ønsker at sammenligne disse. For det biologiske eksempel ovenfor med en opdeling på tre genotyper aa, aA og AA, kan vi have data fra forskellige lokationer og ønsker at se, om der er samme fordeling på de tre genotyper. Dette beskrives i afsnittene 3.6 og 3.7.
ForegåendeNæste