Afsnit 1.8: Permutationstest og Fishers eksakte test

Hvis vi prøver at lave uafhængighedstestet for data fra Homers Illiade, finder man, at $G$ -teststørrelsen er 14.0, og de forventede antal er

$\begin{array}{lcc} \text{Sted} & \text{Død} & \text{Ikke Død} \\ \hline \text{Hånd} & 1.5 & 2.5 \\ \text{Arm} & 3.4 & 5.6 \\ \text{Skulder} & 4.6 & 7.4 \\ \text{Ben} & 3.4 & 5.6 \\ \hline \end{array}$ Vi kan se her, at de forventede antal er ikke alle større end eller lig med 5, og vi kan ikke umiddelbart bruge Resultat 1.7.1. Ofte bruger man et mindre restriktivt krav, der kendes under betegnelsen Cochran regel. Denne regel siger, at alle de forventede skal være større end eller lig med 1, og højst 20 procent må være under 5. I eksemplet ovenfor med data fra Homers Illiade er der 5 ud af 8 forventede antal, der er under 5, hvilket er langt over grænsen på de 20 procent. Vi bør derfor ikke bruge $\chi^2$ -fordelingen til at beregne en approksimativ $p$ -værdi (hvis vi gør det alligevel, bliver $p$ -værdien 0.0029).

Jeg vil nu beskrive en måde til at simulere en $p$ -værdi for test af uafhængighedshypotesen $M_{I1}$ fra (1.7.1). De underliggende data består af kategorierne $(H_u,M_u)$ for $n$ elementer $u=1,\ldots,n,$ hvor $H_u$ er kategorien efter det første kriterie, og $M_u$ er kategorien efter det andet kriterie. Nedenfor viser jeg, at under uafhængighedshypotesen $M_{I1}$ vil $(H_1,M_1),\ldots,(H_n,M_n)$ være uniformt fordelt i den betingede fordeling givet rækkesummerne $A_{1\bullet},\ldots,A_{r\bullet}$ og søjlesummerne $A_{\bullet 1},\ldots,A_{\bullet k}.$ Lad $h_1^0,\ldots,h_n^0$ være en fast følge, hvor antallet i de forskellige kategorier efter det første inddelingskriterie er $a_{1\bullet},\ldots,a_{r\bullet},$ og lad $m_1^0,\ldots,m_n^0$ være en fast følge, hvor antallet i de forskellige kategorier efter det andet inddelingskriterie er $a_{\bullet 1},\ldots,a_{\bullet k}.$ Så siger resultatet, at alle mulige ombytninger af $h_1^0,\ldots,h_n^0$ og alle mulige ombytninger af $m_1^0,\ldots,m_n^0$ er lige sandsynlige i den betingede fordeling givet rækkesummer og søjlesummer. En simuleret $p$ -værdi kan nu findes ved for hver simuleret ombytning at finde antallene $A_{ij}$ i de $r\cdot k$ celler af tabellen, beregne $G$ -teststørrelsen og se, hvor ofte vi får en værdi, der ligger over $G$ -teststørrelsen for de oprindelige data, $G_{\text{obs}}.$

Resultat 1.8.1. Permutationstest for uafhængighedshypotesen

Lad $V=(V_1,\ldots,V_n)$ være en tilfældig permutation af tallene $1,\ldots,n,$ og lad $h_i^V=h_{V_i}^0$ være de ombyttede $h^0$ -værdier. Dan ud fra data $(h_1^V,m_1^0),\ldots,(h_n^V,m_n^0)$ en tabel $A^V$ med antallene i de $r\cdot k$ celler, og dan ud fra denne tabel $G$ -teststørrelsen betegnet med $G^V$ . Så gælder, at

$P\big(G\geq G_{\text{obs}}| (A_{\star\bullet},A_{\bullet\star})\big)= P\big(G^V\geq G_{\text{obs}}\big).$

1.8.2 Beregning i R af permutations p-værdi

En tilfældig ombytning (permutation) af elementerne i en vektor $v$ kan i R simuleres ved kommandoen sample(v). I det følgende kodevindue simuleres $p$ -værdien for uafhængighedstestet for data fra Homers Illiade.

Her følger en række spørgsmål til forståelsen af koden.

Hvad beregnes i Gfct ?
Hvad er formålet med A1 inde i Gfct ?
Hvad tror du funktionen table laver ?

Svar

Gfct beregner $G$ -tesstørrelsen baseret på en matriks $A$ med antallene i de forskellige kategorier.
I $G$ -teststørrelsen vil vi få et problem, hvis det observerede antal i et af leddene er nul, idet R ikke kan beregne $0\cdot\log(0)$ . For at få den rigtige værdi, nemlig nul, skriver vi i stedet $0\cdot\log(1)$ .
Funktionen table laver matricen med de observerede antal i kategorierne $(i,j)$ , $i=1,\ldots,r$ og $j=1,\ldots,k.$

Betingede sandsynlighed

Under uafhængighedshypotesen betragtes den betingede fordeling af $(H_1,M_1),\ldots,(H_n,M_n)$ givet rækkesummerne $(A_{1\bullet},\ldots,A_{r\bullet})$ og søjlesummerne $(A_{\bullet 1},\ldots,A_{\bullet k}).$ For at finde den betingede fordeling bruges at

$P\big( (H_1,M_1)=(h_1,m_1),\ldots, (H_n,M_n)=(h_n,m_n) \big) =\prod_u\alpha_{h_u}\beta_{m_u}= \Big\{ \prod_i\alpha_i^{a_{i\bullet}} \Big\} \Big\{ \prod_j\beta_j^{a_{\bullet j}} \Big\}.$ Idet rækkesummer og søjlesummer er uafhængige (se skjulte punkt i foregående afsnit), kan den betingede sandsynlighed nu skrives som

$\frac{ \prod_u\alpha_{h_u}\beta_{m_u} } { \Big\{ \binom{n}{a_{*\bullet}}\prod_i\alpha_i^{a_{i\bullet}} \Big\} \Big\{ \binom{n}{a_{\bullet *}}\prod_j\beta_j^{a_{\bullet j}} \Big\} } = \frac{ 1 } {\binom{n}{a_{\star\bullet}} \binom{n}{a_{\bullet\star}}} .$ Da denne sandsynlighed ikke afhænger af $(h_1,m_1),\ldots,(h_n,m_n)$ , har alle værdier af disse, der opfylder at rækkesummerne er $a_{1\bullet},\ldots,a_{r\bullet}$ og søjlesummerne er $a_{\bullet 1},\ldots,a_{\bullet k},$ lige stor sandsynlighed.

1.8.1 Fishers eksakte test

Den betingede fordeling, der simuleres i permutationstestet ovenfor, kan beregnes direkte i en $2\times 2$ tabel. Når vi betinger med de to rækkesummer og de to søjlesummer, er der kun $\acute{\text{e}}$ n indgang tilbage i $2\times 2$ matricen $A$ , der kan variere frit. Lad $A_{1\bullet}=b$ , $A_{2\bullet}=c$ , $A_{\bullet 1}=d$ og $A_{\bullet 2}=e,$ så kan vi skrive $A$ som

$\begin{array}{cc|c} x & b-x & b \\ d-x & x+c-d & c \\ \hline d & e & n \end{array} \qquad \max\{0,d-c\}\leq x\leq \min\{b,d\}.$ Den betingede sandsynlighed $h(x,b,c,d)$ kan beregnes som

$\begin{aligned} h(x,b,c,d)& = \frac{P\big(A_{11}=x,A_{12}=b-x,A_{21}=d-x,A_{22}=x+c-d\big)} {P\big(A_{1\bullet}=b,A_{2\bullet}=c\big) P\big(A_{\bullet 1}=d,A_{\bullet 2}=b+c-d\big)} \\ &= \frac{ \binom{n}{x,b-x,d-x,x+c-d}(\alpha_1\beta_1)^x (\alpha_1\beta_2)^{b-x}(\alpha_2\beta_1)^{d-x}(\alpha_2\beta_2)^{x+c-d} } { \binom{n}{b}\binom{n}{d}\alpha_1^b\alpha_2^c\beta_1^d\beta_2^{b+c-d} } \\ & = \frac{n!b!c!}{x!(b-x)!(d-x)!(x+c-d)!\binom{n}{d}} =\frac{\binom{b}{x}\binom{c}{d-x}}{\binom{b+c}{d}}. \end{aligned}$ Fordelingen, der optræder her, kendes under navnet den hypergeometriske fordeling. For enhver mulig værdi af $x$ beregner vi $G$ -teststørrelsen, $G(x),$ og beregner $p$ -værdien for uafhænighedstestet som

$p\text{-værdi}=\sum_{x:G(x)\geq G_{\text{obs}}} h(x,b,c,d). \tag{1.8.1}$ Testet baseret på den betingede fordeling kaldes Fishers eksakte test. I R er dette test implementeret i funktionen fisher.test, men her beregnes $p$ -værdien lidt anderledes end i (1.8.1). Når vi bruger (1.8.1), rangordnes de forskellige udfald $x,$ det vil sige $(1,1)$ -indgangen i $A$ matricen, ud fra $G$ -teststørrelsen. I fisher.test rangordnes udfaldene efter værdien af den betingede sandsynlighed $h(x,b,c,d),$ således at $p$ -værdien er

$p\text{-værdi}_{\text{fisher.test}}= \sum_{x:h(x,b,c,d)\leq h(x_{\text{obs}},b,c,d)} h(x,b,c,d). \tag{1.8.2}$

Eksempel 1.8.3. Homers Illiade

Vi betragter igen data fra Homers Illiade, men benytter kun data fra 13 hændelser, hvor skaden er på enten hånd eller arm:

$\begin{array}{ccc|c} \text{Sted} & \text{Død} & \text{Ikke Død} & \text{Rækkesum}\\ \hline \text{Hånd} & 0 & 4 & 4 \\ \text{Arm} & 3 & 6 & 9 \\ \hline \text{Søjlesum} & 3 & 10 & 13 \end{array}$ De forventde antal under hypotesen om uafhængighed mellem sted på kroppen og dødelighed er 0.9 og 3.1 i første række og 2.1 og 6.9 i anden række. Disse opfylder ikke Cochrans regel, og man kan derfor ikke stole på $p$ -værdien beregnet fra en $\chi^2$ -fordeling. Gennemfører vi beregningerne, fås $G_{\text{obs}}=2.59$ og $1-\chi^2_{\text{cdf}}(2.59,1)=0.11.$ I det næste kodevindue beregner jeg det eksakte test baseret på den betingede fordeling givet rækkesummer og søjlesummer. Det betingede test baseret på $G$ -teststørrelsen giver en $p$ -værdi på 0.31, hvorimod det betingede test baseret på (1.8.2) giver en $p$ -værdi på 0.50. I begge tilfælde en noget højere $p$ -værdi end den approksimative fra $\chi^2$ -fordelingen. Forskellen mellem de to betingede tests ligger i, at den sidste $p$ -værdi er beregnet ud fra de tre udfald 0, 2 og 3 for antallet af døde, hvor skaden er i hånden, i forhold til $p$ -værdien baseret på $G$ , hvor kun udfaldene 0 og 3 medtages.

Bruge R-funktionen fisher.test

Sammenligne eksakte tests

Her følger en række spørgsmål til forståelsen af koden.

Hvad indeholder vektoren xvek ?
Hvad tror du hxvek indeholder ?
Lav et test for uafhængighed mellem sted og dødelighed, når du kun betragter hændelser i Homers Illiade, hvor skaden er på enten skulder eller ben.

Svar: Eksakt test

Vektoren xvek indeholder de mulige værdier af $(1,1)$ -indgangen i datamatricen $A,$ når rækkesummer og søjlesummer holdes fast. I det konkrete eksempel bliver dette værdierne 0, 1, 2 og 3.
Funktionen dhyper beregner de betingede sandsynligheder $h(x,b,c,d)$ .
Kodevinduet køres igen med Aobs=rbind(c(9,3),c(1,8)). Den betingede $p$ -værdi bliver 0.0075.

Foregående Næste