Mon ikke de fleste af os kender fornemmelsen af, at der aldrig kommer
nogle seksere på terningen, når man spiller ludo. Man taler generelt om,
at en terning er "ærlig", hvis de seks sider kommer op lige ofte.
Hvis jeg skal teste, om min egen ludoterning er ærlig,
vil jeg nok kaste den et stort
antal gange og tælle op, hvor ofte side 1 kom op, hvor ofte side 2 og
så videre. På denne måde får jeg seks observerede antal, der skal sammenlignes
med seks ens forventede antal. Hvordan skal jeg foretage denne
sammenligning
?
Situationen med terningeksperimentet er en generalisation af
binomialmodellen omtalt i afsnit
1.2. I binomialmodellen
har hvert "kast" to mulige udfald. Vi siger, at kastet
kan ramme ned i en af to "kasser". I terningesituationen kan man
i hvert kast ramme ned i en af seks kasser. Modellen til at beskrive
denne situation generelt hedder
multinomialmodellen og beskrives
i afsnit
3.1.
I eksemplet ovenfor med terningekast er hypotesen,
at de seks sandsynligheder for de seks sider af
terningen alle er
61. Under hypotesen kender vi altså
sandsynlighederne for at falde i de forskellige "kasser", og på
denne måde ligner dette situationen med test for en given
værdi af sandsynlighedsparameteren i en binomialmodel.
Mere generelt kan en hypotese dog bestå i, at der lægges restriktioner
på, hvordan sandsynlighederne kan variere, uden at angive
sandsynlighederne med en numerisk værdi.
Et eksempel på dette er forekomsten af de fire nucleotider
A,C,G,T i en
DNA-streng. Under
Tamuras 1992 model
for den evolutionære udvikling af DNA kan sandsynlighederne
for de fire nukleotider skrives som
((1−θ)/2,θ/2,θ/2,(1−θ)/2),
hvor
θ, 0≤θ≤1, er en ukendt parameter.
Jeg indfører i afsnittene
3.2 og
3.3 et generelt test
(likelihood ratio test) for at håndtere
denne type situation. Testet indføres først i binomialmodellen
for at gøre beskrivelsen mere simpel.
Testet kan blandt andet bruges til at undersøge, om
en række observationer
x1,…,xn
stammer fra en bestemt fordeling. Man taler i denne sammenhæng
om et
goodness of fit test. Dette beskrives i
afsnit
3.4 og eksemplificeres yderligere i
afsnit
3.5.
Kapitel 3 afsluttes med at se på situationen, hvor der er
flere grupper af multinomialfordelte data, og man ønsker at
sammenligne disse. For det molekylærbiologiske eksempel ovenfor med
forekomst af de fire nucleotider
A,C,G,T, kan vi have
data fra forskellige gener og ønsker at se, om der er samme fordeling
på de fire nucleotider. Dette beskrives i afsnittene
3.6 og
3.7.
ForegåendeNæste