I de forskellige G-tests i dette kapitel blev p-værdien beregnet
fra en χ2-fordeling under en antagelse om, at alle de
forventede antal er større end eller lig med 5.
Hvis dette krav
ikke er opfyldt, bruges sommetider en svagere regel, der siger, at
de forventede skal alle være større end 1 og højst 20% må være under 5.
Reglen må kun bruges, hvis antallet af frihedsgrader er større end 1.
Dette kaldes
Cochran regel.Hvis heller ikke Cochran regel er opfyldt i forbindelse med
homogenitetstestet, kan man benytte et andet
test, der kaldes
Fishers eksakte test.
Jeg vil ikke beskrive
testet her, men blot nævne, at det er implementeret i R i
funktionen fisher.test.
Før G-testet, baseret på et likelihood ratio test, blev indført,
benyttede man et andet test kaldet
chi-squared test.
Hvis vi kalder teststørrelsen for C, er de to teststørrelser
C-teststørrelsen vurderes i den samme χ2-fordeling
som G-teststørrelsen og med samme krav om, at de forventede antal
skal være større end eller lig med 5. Chi-squared testet benyttes stadigt meget, men jeg foretrækker,
at I bruger G-testet på grund af dets forbindelse til generelle metoder.
De indbyggede funktioner i R bruger også som standard
C-testet.
3.8.1 Test for uafhængighed
Når man inddeler n observationer efter to inddelingskriterier,
hvor det ene inddeler i r kasser og det andet i k kasser,
betragter man multinomialmodellen med i alt r⋅k kasser,
som vi for overskuelighedens skyld kalder celler.
Det vil være naturligt at bruge et dobbeltindeks, således at
Aij angiver antallet, der falder i kasse i med hensyn
til det første inddelingskriterie og i kasse j med hensyn
til det andet inddelingskriterie, altså dem der falder i celle
(i,j).
Sandsynligheden for at falde i
celle (i,j) kalder vi γij, γij≥0,∑i,jγij=1. Lad nu αi, i=1,…,r, være sandsynligheden for, at
en observation falder i kasse i med hensyn til det første
inddelingskriterie, og lad
βj, j=1,…,k, være sandsynligheden for, at
en observation falder i kasse j med hensyn til det andet
inddelingskriterie,
αi≥0,i=1∑rαi=1,βj≥0,j=1∑kβj=1.
Hypotesen om uafhængige inddelingskriterier siger, at
γij=αiβj,1=1,…,r,j=1,…,k.
Man kan vise matematisk, at likelihood ratio teststørrelsen på
formen G=−2log(Q) er identisk med G-teststørrelsen (3.7.1)
for homogenitetstestet i r multinomialfordelinger.
Man kan derfor bruge
Resultat 3.7.1 også i situationen beskrevet her.
3.8.2 Sammenligne poissonfordelinger via multinomialmodel
Som beskrevet i afsnit 2.5
bruges poissonmodellen ofte til at beskrive antallet af hændelser
over et tidsrum, hvor hændelserne kommer tilfældigt i tid.
Hvis vi har to "kilder", der hver sender hændelser ud, kan vi være
interesseret i at undersøge, om den forventede rate af
hændelser er den samme for de to kilder. Hvis vi forestiller os, at de to kilder er skjulte for os, og at
vi blot har to kasser (kasse 1 og 2),
hvor der en gang imellem kommer en hændelse i
den ene kasse og og en gang imellem i den anden kasse,
så vil en given ankomst være i kasse 1 med sandsynlighed
λ1/(λ1+λ2) og i kasse 2 med sandsynlighed
λ2/(λ1+λ2),
hvor λ1 og λ2 er de to rater. Dette ligner en
binomialsituation, hvor man i hvert kast kan lande enten i
kasse 1 eller kasse 2. Hvis vi derfor laver det tankeeksperiment,
at vi holder det samlede antal hændelser fast, lad os sige
A1+A2=n, så vil fordelingen af A1 i dette tankeeksperiment være
A1∼binom(n,p), med p=λ1/(λ1+λ2).
En hypotese om samme rate λ1=λ2 vil nu svare til
hypotesen p=21 i binomialmodellen. Dette bruger vi i praksis:
hvis vi vil sammenligne raterne i flere poissonfordelinger overfører
vi dette til et test om sandsynlighederne i en multinomialmodel.
Den generelle formulering følger her.
Resultat 3.8.1.
(Sammenligne poissonrater)
Betragt modellen med k uafhængige poissonfordelte variable
Xi∼poisson(tiλi), i=1,…,k, hvor
t1,…,tk er kendte konstanter, og λi≥0,
i=1,…,k, er ukendte parametre. For at teste hypotesen om
samme rate λ1=λ2=⋯=λk, kan man bruge modellen
G-teststørrelsne vurderes i en χ2-fordeling med k−1−0 frihedsgrader.
I specialtilfældet med t1=⋯=tk=1 tester vi således hypotesen om
ligelig fordeling på de k kasser, πi=k1,i=1,…,k.
For at lave testet i multinomialmodellen bruger vi Resultat
3.3.1 med d=0.I specialtilfældet med k=2 poissonrater og
X1∼binom(n,p), n=X1+X2 og
p=t1λ1/(t1λ1+t2λ2)=t1/(t1+t2λ2/λ1),
kan vi overføre et
konfidensinterval for p til et konfidensinterval for forholdet
θ=λ2/λ1 mellem de to rateparametre. Hvis
konfidensintervallet for p er [p−,p+] bliver konfidensintervallet
for θ,