Afsnit 3.8: Diverse

I de forskellige GG-tests i dette kapitel blev pp-værdien beregnet fra en χ2\chi^2-fordeling under en antagelse om, at alle de forventede antal er større end eller lig med 5. Hvis dette krav ikke er opfyldt, bruges sommetider en svagere regel, der siger, at de forventede skal alle være større end 1 og højst 20% må være under 5. Reglen må kun bruges, hvis antallet af frihedsgrader er større end 1. Dette kaldes Cochran regel.
Hvis heller ikke Cochran regel er opfyldt i forbindelse med homogenitetstestet, kan man benytte et andet test, der kaldes Fishers eksakte test. Jeg vil ikke beskrive testet her, men blot nævne, at det er implementeret i R i funktionen fisher.test.

Chi-square test i stedet for G-test

Før GG-testet, baseret på et likelihood ratio test, blev indført, benyttede man et andet test kaldet chi-squared test. Hvis vi kalder teststørrelsen for C,C, er de to teststørrelser
G=2observeretlog(observeretforventet)ogC=(observeretforventet)2forventet. G=2\sum \text{observeret}\cdot\log\Big(\frac{\text{observeret}}{\text{forventet}}\Big)\quad\text{og}\quad C=\sum \frac{\big(\text{observeret}-\text{forventet}\big)^2}{\text{forventet}}.
CC-teststørrelsen vurderes i den samme χ2\chi^2-fordeling som GG-teststørrelsen og med samme krav om, at de forventede antal skal være større end eller lig med 5.
Chi-squared testet benyttes stadigt meget, men jeg foretrækker, at I bruger GG-testet på grund af dets forbindelse til generelle metoder. De indbyggede funktioner i R bruger også som standard CC-testet.

3.8.1 Test for uafhængighed

Når man inddeler nn observationer efter to inddelingskriterier, hvor det ene inddeler i rr kasser og det andet i kk kasser, betragter man multinomialmodellen med i alt rkr\cdot k kasser, som vi for overskuelighedens skyld kalder celler. Det vil være naturligt at bruge et dobbeltindeks, således at AijA_{ij} angiver antallet, der falder i kasse ii med hensyn til det første inddelingskriterie og i kasse jj med hensyn til det andet inddelingskriterie, altså dem der falder i celle (i,j)(i,j). Sandsynligheden for at falde i celle (i,j)(i,j) kalder vi γij\gamma_{ij}, γij0,\gamma_{ij}\geq 0, i,jγij=1\sum_{i,j}\gamma_{ij}=1.
Lad nu αi\alpha_i, i=1,,ri=1,\ldots,r, være sandsynligheden for, at en observation falder i kasse ii med hensyn til det første inddelingskriterie, og lad βj\beta_j, j=1,,kj=1,\ldots,k, være sandsynligheden for, at en observation falder i kasse jj med hensyn til det andet inddelingskriterie,
αi0,  i=1rαi=1,βj0,  j=1kβj=1. \alpha_i\geq 0,\,\,\sum_{i=1}^r\alpha_i=1,\quad \beta_j\geq 0,\,\,\sum_{j=1}^k\beta_j=1.
Hypotesen om uafhængige inddelingskriterier siger, at
γij=αiβj,  1=1,,r,  j=1,,k. \gamma_{ij}=\alpha_i\beta_j,\,\, 1=1,\ldots,r,\,\, j=1,\ldots,k.
Man kan vise matematisk, at likelihood ratio teststørrelsen på formen G=2log(Q)G=-2\log(Q) er identisk med GG-teststørrelsen (3.7.1) for homogenitetstestet i rr multinomialfordelinger. Man kan derfor bruge Resultat 3.7.1 også i situationen beskrevet her.

3.8.2 Sammenligne poissonfordelinger via multinomialmodel

Som beskrevet i afsnit 2.5 bruges poissonmodellen ofte til at beskrive antallet af hændelser over et tidsrum, hvor hændelserne kommer tilfældigt i tid. Hvis vi har to "kilder", der hver sender hændelser ud, kan vi være interesseret i at undersøge, om den forventede rate af hændelser er den samme for de to kilder.
Hvis vi forestiller os, at de to kilder er skjulte for os, og at vi blot har to kasser (kasse 1 og 2), hvor der en gang imellem kommer en hændelse i den ene kasse og og en gang imellem i den anden kasse, så vil en given ankomst være i kasse 1 med sandsynlighed λ1/(λ1+λ2)\lambda_1/(\lambda_1+\lambda_2) og i kasse 2 med sandsynlighed λ2/(λ1+λ2)\lambda_2/(\lambda_1+\lambda_2), hvor λ1\lambda_1 og λ2\lambda_2 er de to rater. Dette ligner en binomialsituation, hvor man i hvert kast kan lande enten i kasse 1 eller kasse 2. Hvis vi derfor laver det tankeeksperiment, at vi holder det samlede antal hændelser fast, lad os sige A1+A2=nA_1+A_2=n, så vil fordelingen af A1A_1 i dette tankeeksperiment være A1binom(n,p),A_1\sim\text{binom}(n,p), med p=λ1/(λ1+λ2).p=\lambda_1/(\lambda_1+\lambda_2). En hypotese om samme rate λ1=λ2\lambda_1=\lambda_2 vil nu svare til hypotesen p=12p=\frac{1}{2} i binomialmodellen. Dette bruger vi i praksis: hvis vi vil sammenligne raterne i flere poissonfordelinger overfører vi dette til et test om sandsynlighederne i en multinomialmodel. Den generelle formulering følger her.
Resultat 3.8.1. (Sammenligne poissonrater)
Betragt modellen med kk uafhængige poissonfordelte variable Xipoisson(tiλi)X_i\sim\text{poisson}(t_i\lambda_i), i=1,,ki=1,\ldots,k, hvor t1,,tkt_1,\ldots,t_k er kendte konstanter, og λi0\lambda_i\geq 0, i=1,,ki=1,\ldots,k, er ukendte parametre. For at teste hypotesen om samme rate λ1=λ2==λk\lambda_1=\lambda_2=\cdots =\lambda_k, kan man bruge modellen
(X1,,Xk)multinom(n,(π1,,πk)),πj0,π1++πk=1, (X_1,\ldots,X_k)\sim\text{multinom}(n,(\pi_1,\ldots,\pi_k)), \enspace \pi_j\geq 0,\enspace \pi_1+\cdots+\pi_k=1,
hvor n=X1++Xkn=X_1+\cdots+ X_k, og teste hypotesen
(π1,,πk)=(t1t,,tkt),t=t1++tk. (\pi_1,\ldots,\pi_k)=\big(\frac{t_1}{t_\bullet}, \ldots,\frac{t_k}{t_\bullet}\big), \enspace t_\bullet=t_1+\cdots+t_k.
GG-teststørrelsne vurderes i en χ2\chi^2-fordeling med k10k-1-0 frihedsgrader.
I specialtilfældet med t1==tk=1t_1=\cdots=t_k=1 tester vi således hypotesen om ligelig fordeling på de kk kasser, πi=1k,\pi_i=\frac{1}{k}, i=1,,k.i=1,\ldots,k. For at lave testet i multinomialmodellen bruger vi Resultat 3.3.1 med d=0.d=0.
I specialtilfældet med k=2k=2 poissonrater og X1binom(n,p)X_1\sim\text{binom}(n,p), n=X1+X2n=X_1+X_2 og p=t1λ1/(t1λ1+t2λ2)=t1/(t1+t2λ2/λ1)p=t_1\lambda_1/(t_1\lambda_1+t_2\lambda_2)=t_1/(t_1+t_2\lambda_2/\lambda_1), kan vi overføre et konfidensinterval for pp til et konfidensinterval for forholdet θ=λ2/λ1\theta=\lambda_2/\lambda_1 mellem de to rateparametre. Hvis konfidensintervallet for pp er [p,p+][p_-,p_+] bliver konfidensintervallet for θ\theta,
[(1p+)t1p+t2,(1p)t1pt2]. \Big[ \frac{(1-p_+)t_1}{p_+ t_2},\, \frac{(1-p_-)t_1}{p_- t_2} \Big].
ForegåendeNæste