Afsnit 3.8: Diverse

I de forskellige -tests i dette kapitel blev -værdien beregnet fra en -fordeling under en antagelse om, at alle de forventede antal er større end eller lig med 5. Hvis dette krav ikke er opfyldt, bruges sommetider en svagere regel, der siger, at de forventede skal alle være større end 1 og højst 20% må være under 5. Reglen må kun bruges, hvis antallet af frihedsgrader er større end 1. Dette kaldes Cochran regel.
Hvis heller ikke Cochran regel er opfyldt i forbindelse med homogenitetstestet, kan man benytte et andet test, der kaldes Fishers eksakte test. Jeg vil ikke beskrive testet her, men blot nævne, at for en tabel er testet implementeret både python.

Chi-square test i stedet for G-test

Før -testet, baseret på et likelihood ratio test, blev indført, benyttede man et andet test kaldet chi-squared test. Hvis vi kalder teststørrelsen for er de to teststørrelser
-teststørrelsen vurderes i den samme -fordeling som -teststørrelsen og med samme krav om, at de forventede antal skal være større end eller lig med 5.
Chi-squared testet benyttes stadigt meget, men jeg foretrækker, at I bruger -testet på grund af dets forbindelse til generelle metoder. I python beregnes -testet med st.chi2contingency.

3.8.1 Andre hypoteser for flere multinomialmodeller

I afsnit 3.7 betragtede jeg homogenitetshypotesen i statistisk model 3.6.2 for data fra flere multinomialfordelinger. Andre hypoteser kan også være af interesse, men princippet for test af disse er det samme. Teststørrelsen bliver som i (3.7.1) hvor de forventede skal beregnes under den relevante hypotese. Antallet af frihedsgrader bliver
hvor vi betragter multinomialmodeller, der hver inddeler i kasser, og angiver antallet af parametre i den hypotese der testes.
Et eksempel er den logistiske dosis-respons model, hvor , og hypotesen er
hvor -erne er kendte tal (dosis, typisk på en log-skala). I denne hypotese er der parametre. Skønnene over de to parametre kan ikke opskrives eksplicit og må findes ved en numerisk søgerutine.

3.8.2 Test for uafhængighed

Når man inddeler observationer efter to inddelingskriterier, hvor det ene inddeler i kasser og det andet i kasser, betragter man multinomialmodellen med i alt kasser, som vi for overskuelighedens skyld kalder celler. Det vil være naturligt at bruge et dobbeltindeks, således at angiver antallet, der falder i kasse med hensyn til det første inddelingskriterie og i kasse med hensyn til det andet inddelingskriterie, altså dem der falder i celle . Sandsynligheden for at falde i celle kalder vi , .
Lad nu , , være sandsynligheden for, at en observation falder i kasse med hensyn til det første inddelingskriterie, og lad , , være sandsynligheden for, at en observation falder i kasse med hensyn til det andet inddelingskriterie,
Hypotesen om uafhængige inddelingskriterier siger, at
Man kan vise matematisk, at likelihood ratio teststørrelsen på formen er identisk med -teststørrelsen (3.7.1) for homogenitetstestet i multinomialfordelinger. Man kan derfor bruge Resultat 3.7.1 også i situationen beskrevet her.

3.8.3 Sammenligne poissonfordelinger via multinomialmodel

Som beskrevet i afsnit 2.5 bruges poissonmodellen ofte til at beskrive antallet af hændelser over et tidsrum, hvor hændelserne kommer tilfældigt i tid. Hvis vi har to "kilder", der hver sender hændelser ud, kan vi være interesseret i at undersøge, om den forventede rate af hændelser er den samme for de to kilder.
Hvis vi forestiller os, at de to kilder er skjulte for os, og at vi blot har to kasser (kasse 1 og 2), hvor der en gang imellem kommer en hændelse i den ene kasse og og en gang imellem i den anden kasse, så vil en given ankomst være i kasse 1 med sandsynlighed og i kasse 2 med sandsynlighed , hvor og er de to rater. Dette ligner en binomialsituation, hvor man i hvert kast kan lande enten i kasse 1 eller kasse 2. Hvis vi derfor laver det tankeeksperiment, at vi holder det samlede antal hændelser fast, lad os sige , så vil fordelingen af i dette tankeeksperiment være med En hypotese om samme rate vil nu svare til hypotesen i binomialmodellen. Dette bruger vi i praksis: hvis vi vil sammenligne raterne i flere poissonfordelinger overfører vi dette til et test om sandsynlighederne i en multinomialmodel. Den generelle formulering følger her.
Resultat 3.8.1. (Sammenligne poissonrater)
Betragt modellen med uafhængige poissonfordelte variable , , hvor er kendte konstanter, og , , er ukendte parametre. For at teste hypotesen om samme rate , kan man bruge modellen
hvor , og teste hypotesen
-teststørrelsne vurderes i en -fordeling med frihedsgrader.
I specialtilfældet med tester vi således hypotesen om ligelig fordeling på de kasser, For at lave testet i multinomialmodellen bruger vi Resultat 3.3.1 med
I specialtilfældet med poissonrater og , og , kan vi overføre et konfidensinterval for til et konfidensinterval for forholdet mellem de to rateparametre. Hvis konfidensintervallet for er bliver konfidensintervallet for ,
ForegåendeNæste