I de forskellige -tests i dette kapitel blev -værdien beregnet
fra en -fordeling under en antagelse om, at alle de
forventede antal er større end eller lig med 5.
Hvis dette krav
ikke er opfyldt, bruges sommetider en svagere regel, der siger, at
de forventede skal alle være større end 1 og højst 20% må være under 5.
Reglen må kun bruges, hvis antallet af frihedsgrader er større end 1.
Dette kaldes
Cochran regel.Hvis heller ikke Cochran regel er opfyldt i forbindelse med
homogenitetstestet, kan man benytte et andet
test, der kaldes
Fishers eksakte test.
Jeg vil ikke beskrive
testet her, men blot nævne, at for en tabel er testet implementeret
både python.
Før -testet, baseret på et likelihood ratio test, blev indført,
benyttede man et andet test kaldet
chi-squared test.
Hvis vi kalder teststørrelsen for er de to teststørrelser
-teststørrelsen vurderes i den samme -fordeling
som -teststørrelsen og med samme krav om, at de forventede antal
skal være større end eller lig med 5. Chi-squared testet benyttes stadigt meget, men jeg foretrækker,
at I bruger -testet på grund af dets forbindelse til generelle metoder.
I python beregnes -testet med
st.chi2contingency.
3.8.1 Andre hypoteser for flere multinomialmodeller
I afsnit 3.7 betragtede jeg homogenitetshypotesen i
statistisk model 3.6.2
for data fra flere multinomialfordelinger. Andre hypoteser
kan også være af interesse, men princippet for test af disse er det samme.
Teststørrelsen bliver som i (3.7.1) hvor de forventede skal
beregnes under den relevante hypotese. Antallet af frihedsgrader bliver
hvor vi betragter multinomialmodeller, der hver inddeler i kasser,
og angiver antallet af parametre i den hypotese der testes. Et eksempel er den logistiske dosis-respons model, hvor , og
hypotesen er
hvor -erne er kendte tal (dosis, typisk på en log-skala).
I denne hypotese er der parametre. Skønnene
over de to parametre kan ikke opskrives eksplicit og må findes ved
en numerisk søgerutine.
3.8.2 Test for uafhængighed
Når man inddeler observationer efter to inddelingskriterier,
hvor det ene inddeler i kasser og det andet i kasser,
betragter man multinomialmodellen med i alt kasser,
som vi for overskuelighedens skyld kalder celler.
Det vil være naturligt at bruge et dobbeltindeks, således at
angiver antallet, der falder i kasse med hensyn
til det første inddelingskriterie og i kasse med hensyn
til det andet inddelingskriterie, altså dem der falder i celle
.
Sandsynligheden for at falde i
celle kalder vi ,
. Lad nu , , være sandsynligheden for, at
en observation falder i kasse med hensyn til det første
inddelingskriterie, og lad
, , være sandsynligheden for, at
en observation falder i kasse med hensyn til det andet
inddelingskriterie,
Hypotesen om uafhængige inddelingskriterier siger, at
Man kan vise matematisk, at likelihood ratio teststørrelsen på
formen er identisk med -teststørrelsen (3.7.1)
for homogenitetstestet i multinomialfordelinger.
Man kan derfor bruge
Resultat 3.7.1 også i situationen beskrevet her.
3.8.3 Sammenligne poissonfordelinger via multinomialmodel
Som beskrevet i afsnit 2.5
bruges poissonmodellen ofte til at beskrive antallet af hændelser
over et tidsrum, hvor hændelserne kommer tilfældigt i tid.
Hvis vi har to "kilder", der hver sender hændelser ud, kan vi være
interesseret i at undersøge, om den forventede rate af
hændelser er den samme for de to kilder. Hvis vi forestiller os, at de to kilder er skjulte for os, og at
vi blot har to kasser (kasse 1 og 2),
hvor der en gang imellem kommer en hændelse i
den ene kasse og og en gang imellem i den anden kasse,
så vil en given ankomst være i kasse 1 med sandsynlighed
og i kasse 2 med sandsynlighed
,
hvor og er de to rater. Dette ligner en
binomialsituation, hvor man i hvert kast kan lande enten i
kasse 1 eller kasse 2. Hvis vi derfor laver det tankeeksperiment,
at vi holder det samlede antal hændelser fast, lad os sige
, så vil fordelingen af i dette tankeeksperiment være
med
En hypotese om samme rate vil nu svare til
hypotesen i binomialmodellen. Dette bruger vi i praksis:
hvis vi vil sammenligne raterne i flere poissonfordelinger overfører
vi dette til et test om sandsynlighederne i en multinomialmodel.
Den generelle formulering følger her.
Resultat 3.8.1.
(Sammenligne poissonrater)
Betragt modellen med uafhængige poissonfordelte variable
, , hvor
er kendte konstanter, og ,
, er ukendte parametre. For at teste hypotesen om
samme rate , kan man bruge modellen
hvor , og teste hypotesen
-teststørrelsne vurderes i en -fordeling med frihedsgrader.
I specialtilfældet med tester vi således hypotesen om
ligelig fordeling på de kasser,
For at lave testet i multinomialmodellen bruger vi Resultat
3.3.1 med I specialtilfældet med poissonrater og
, og
,
kan vi overføre et
konfidensinterval for til et konfidensinterval for forholdet
mellem de to rateparametre. Hvis
konfidensintervallet for er bliver konfidensintervallet
for ,
ForegåendeNæste