Kapitel 3: Multinomialmodellen

Mon ikke de fleste af os kender fornemmelsen af, at der aldrig kommer nogle seksere på terningen, når man spiller ludo. Man taler generelt om, at en terning er "ærlig", hvis de seks sider kommer op lige ofte. Hvis jeg skal teste, om min egen ludoterning er ærlig, vil jeg nok kaste den et stort antal gange og tælle op, hvor ofte side 1 kom op, hvor ofte side 2 og så videre. På denne måde får jeg seks observerede antal, der skal sammenlignes med seks ens forventede antal. Hvordan skal jeg foretage denne sammenligning?
Situationen med terningeksperimentet er en generalisation af binomialmodellen omtalt i afsnit 1.2. I binomialmodellen har hvert "kast" to mulige udfald. Vi siger, at kastet kan ramme ned i en af to "kasser". I terningesituationen kan man i hvert kast ramme ned i en af seks kasser. Modellen til at beskrive denne situation generelt hedder multinomialmodellen og beskrives i afsnit 3.1.
I eksemplet ovenfor med terningekast er hypotesen, at de seks sandsynligheder for de seks sider af terningen alle er Under hypotesen kender vi altså sandsynlighederne for at falde i de forskellige "kasser", og på denne måde ligner dette situationen med test for en given værdi af sandsynlighedsparameteren i en binomialmodel. Mere generelt kan en hypotese dog bestå i, at der lægges restriktioner på, hvordan sandsynlighederne kan variere, uden at angive sandsynlighederne med en numerisk værdi. Et eksempel på dette er forekomsten af de fire nucleotider i en DNA-streng. Under Tamuras 1992 model for den evolutionære udvikling af DNA kan sandsynlighederne for de fire nukleotider skrives som hvor er en ukendt parameter. Jeg indfører i afsnittene 3.2 og 3.3 et generelt test (likelihood ratio test) for at håndtere denne type situation. Testet indføres først i binomialmodellen for at gøre beskrivelsen mere simpel.
Testet kan blandt andet bruges til at undersøge, om en række observationer stammer fra en bestemt fordeling. Man taler i denne sammenhæng om et goodness of fit test. Dette beskrives i afsnit 3.4 og eksemplificeres yderligere i afsnit 3.5.
Kapitel 3 afsluttes med at se på situationen, hvor der er flere grupper af multinomialfordelte data, og man ønsker at sammenligne disse. For det molekylærbiologiske eksempel ovenfor med forekomst af de fire nucleotider A,C,G,T, kan vi have data fra forskellige gener og ønsker at se, om der er samme fordeling på de fire nucleotider. Dette beskrives i afsnittene 3.6 og 3.7.
ForegåendeNæste