Afsnit 1.7: Test for uafhængighed

I artiklen Upper Extremity Injuries in Homer's Iliad har forfatterne læst Homers Illiade og registreret 146 personskader i kampene omkring Troja. Skaderne er delt op efter området på kroppen og om personen dør eller ikke dør. Her vil jeg nøjes med at se på skader, der vedrører arme og ben.

$\begin{array}{lcc} \text{Sted} & \text{Død} & \text{Ikke Død} \\ \hline \text{Hånd} & 0 & 4 \\ \text{Arm} & 3 & 6 \\ \text{Skulder} & 9 & 3 \\ \text{Ben} & 1 & 8 \\ \hline \end{array}$ Er der uafhængighed mellem, hvor man får en skade, og om man overlever ? Kunne de gamle grækere ved at bruge statistik have fået viden om, hvor de skulle forbedre kampuniformen ?

I en generel formulering betragter jeg $n$ individer, der inddeles efter to kriterier. De oprindelige data skrives på formen $(H_u,M_u)$ , $u=1,\ldots,n,$ hvor $H_u$ er kategorien efter det første kriterie (med $r$ katagorier) for observation nummer $u,$ og $M_u$ er kategorien efter det anden kriterie (med $k$ katagorier). Fra disse data dannes en $r\times k$ tabel med antal $A_{ij},$ hvor $A_{ij}$ tæller op antallet af observationer, hvor $H_u=i$ og $M_u=j.$ Som startmodel bruger vi

$\begin{aligned} M_{I0}:\enspace & (A_{11},A_{12},\ldots,A_{rk})\sim\text{multinom}\big( n,(\pi_{11},\pi_{12},\ldots,\pi_{rk})\big), \\ & \pi_{ij}\geq 0,\enspace \pi_{11}+\pi_{12}+\cdots+\pi_{rk}=1. \end{aligned}$ Hypotesen om uafhængighed siger, at sandsynligheden for at falde i den $(i,j)$ 'te celle, $\pi_{ij},$ kan skrives som produktet af en sandsynlighed (kaldet $\alpha_i$ nedenfor) for at falde i kasse $i$ med hensyn til det første kriterie og en sandsynlighed (kaldet $\beta_j$ nedenfor) for at falde i kasse $j$ med hensyn til det andet kriterie. Dette giver modellen

$\begin{aligned} M_{I1}:\enspace & \pi_{ij}=\pi_{ij}(\alpha,\beta)= \alpha_i\beta_j,\enspace i=1,\ldots,r,\enspace j=1,\ldots,k, \\ & \alpha_i\geq 0,\,\, \alpha_1+\cdots+\alpha_r=1,\enspace \beta_j\geq 0,\,\, \beta_1+\cdots+\beta_k=1. \end{aligned}\tag{1.7.1}$ Lad os starte med lidt notation. Vektoren med alle antallene $A_{ij}$ kaldes $A$ , og tilsvarende er $\pi$ vektoren med alle indgangene $\pi_{ij}$ . Den $i$ 'te rækkesum er $A_{i\bullet}=A_{i1}+\cdots+A_{ik},$ og den $j$ 'te søjlesum er $A_{\bullet j}=A_{1j}+\cdots+A_{rj},$ og vektorerne med disse summer betegnes $A_{\star\bullet}$ og $A_{{\bullet}\star}.$ Bemærk, at da rækkesummerne svarer til, at vi kun inddeler data efter det første kriterie, vil vektoren $A_{\star\bullet}$ med disse summer være multinomialfordelt. Det samme gælder for søjlesummerne.

Resultat 1.7.1. Uafhængighedstest

Et test for uafhængighedshypotesen $M_{I1}$ foretages ved at beregne $G$ -teststørrelsen fra (1.6.1) og beregne $p$ -værdi som beskrevet i Resultat 1.6.1.

For at lave inferens om parameteren $\alpha$ under uafhængighedsmodellen $M_{I1}$ benyttes multinomialmodellen for rækkesummerne, $A_{\star\bullet}\sim\text{multinom}(n,\alpha),$ og for at lave inferens om $\beta$ benyttes $A_{\bullet\star}\sim\text{multinom}(n,\beta).$

Likelihoodfunktionen under model $M_{I0}$ er $L(\pi)=\binom{n}{A}\prod_{ij}\pi_{ij}^{A_{ij}},$ og likelihoodfunktionen under uafhængighedshypotesen er

$L(\pi(\alpha,\beta))=\binom{n}{A} \prod_{ij}(\alpha_i\beta_j)^{A_{ij}} = \binom{n}{A} \Big\{ \prod_i\alpha_i^{A_{i\bullet}} \Big\} \Big\{ \prod_j\beta_j^{A_{\bullet j}} \Big\}.$ De to led i krøllede parenteser har samme struktur som likelihoodfunktionen fra en multinomialmodel, hvorfor vi umiddelbart har

$\hat\alpha_i=\frac{A_{i\bullet}}{n},\,\, i=1,\ldots,r,\quad \text{og}\quad \hat\beta_j=\frac{A_{\bullet j}}{n},\,\, j=1,\ldots,k.$ Ved simpel indsættelse kan man nu se, at likelihood ratio tesstørrelsen $Q$ vil være som i afsnit 1.6 for homogenitetstestet. I det næste skjulte punkt gives en dybere forklaring på, at de to test er ens.

Betingning

Vi starter med at lave en omparametrisering af model $M_{I0},$ idet vi skriver

$\begin{aligned} & \pi_{ij}=\alpha_i\gamma_{ij},\enspace \alpha_i\geq 0,\,\,\alpha_1+\cdots+\alpha_r=1, \\ & \gamma_{ij}\geq 0,\,\, \gamma_{i1}+\cdots+\gamma_{ik}=1,\,\, i=1,\ldots,r, \end{aligned}$ og alle parametrene kan variere uafhængigt af hinanden. Dette kan se lidt voldsomt ud, men her står blot, at $\alpha_i$ er sandsynligheden for at falde i kategori $i$ med hensyn til det første kriterie, og givet dette, er sandsynligheden for at falde i kategori $j$ med hensyn til det andet kriterie givet som $\gamma_{ij}.$ Hypotesen om uafhængighed, $\pi_{ij}=\alpha_i\beta_j,$ bliver i denne formulering

$(\gamma_{11},\ldots,\gamma_{1k})=(\gamma_{21},\ldots,\gamma_{2k})= \cdots=(\gamma_{r1},\ldots,\gamma_{rk}), \tag{1.7.2}$ hvor den fælles værdi af disse sandsynlighedsvektorer svarer til $(\beta_1,\ldots,\beta_k).$

Den betingede sandsynlighed for hele tabellen $A,$ givet rækkesummerne $A_{\star\bullet},$ er

$\begin{aligned} & \frac{P(A=a)}{P(A_{\star\bullet}=a_{\star\bullet})} =\frac{\binom{n}{a}\prod_{i,j}(\alpha_i\gamma_{ij})^{a_{ij}} } { \binom{n}{a_{\star\bullet}}\prod_{i}\alpha_{ij}^{a_{i\bullet}} } \\ & = \prod_{i=1}^r\Big\{ \binom{a_{i\bullet}}{a_{i1},\ldots,a_{ik}} \prod_{j}\gamma_{ij}^{a_{ij}}\Big\}. \end{aligned}$ Her står to ting. For det første, at rækkerne er uafhængige givet rækkesummerne (på grund af produktstrukturen), og for det andet, at den $i$ 'te række givet rækkesummen er multinomialfordelt med antalsværdi $a_{i\bullet}$ og sandsynlighedsvektor $(\gamma_{i1},\ldots,\gamma_{ik}).$ Sammenfattende har vi, at givet rækkesummerne svarer uafhængighedshypotesen (1.7.2) til hypotesen om homogenitet af $r$ multinomialfordelinger fra afsnit 1.6.

Hvis man mere direkte skriver likelihood ratio teststørrelsen $Q$ op for reduktion fra model $M_{I0}$ til model $M_{I1},$ vil man se, at maksimum af leddet svarende til multinomialfordelingen for rækkesummerne forkorter ud, og tilbage er der produktet af multinomialfordelingerne for rækkerne givet rækkesummerne, og derfor bliver $Q$ identisk med likelihood ratio tesstørrelsen udregnet i underafsnit 1.6.1.

På tilsvarende vis vil man finde, at likelihoodratio teststørrelsen for en hypotese om $\alpha$ , under uafhængighedsmodellen $M_{I1},$ kun afhænger af rækkesummerne $A_{\star\bullet}.$ Dette er baggrunden for, at der i Resultat 1.7.1 siges, at inferens om $\alpha$ baseres på multinomialmodellen for rækkesummerne.

Under uafhængighedshypotesen har vi, at den $i$ 'te række $(A_{i1},\ldots,A_{ik})$ givet rækkesummerne $A_{\star\bullet}$ er multinomialfordelt med antalsværdi $A_{i\bullet}$ og sandsynlighedsvektor $\beta.$ Da der er samme sandsynlighedsvektor for $i=1,\ldots,r,$ bliver summen af rækkerne, som netop er vektoren $A_{\bullet\star}$ af søjlesummer, multinomialfordelt med antalværdi $n$ og sandsynlighedsvektor $\beta$ . Dette er fordelingen givet rækkesummerne $A_{\star\bullet},$ men da denne betingede fordeling ikke afhænger af rækkesummerne, får vi udsagnet, at rækkesummer og søjlesummer er stokastisk uafhængige under uafhængighedshypotesen. Dette resultat vil jeg bruge i næste afsnit.

Chi-square test i stedet for $G$-test

Før $G$ -testet, baseret på et likelihood ratio test, blev indført, benyttede man et andet test kaldet chi-squared test. Hvis vi kalder teststørrelsen for $C,$ er de to teststørrelser

$G=2\sum \text{observeret}\cdot\log\Big(\frac{\text{observeret}}{\text{forventet}}\Big)\quad\text{og}\quad C=\sum \frac{\big(\text{observeret}-\text{forventet}\big)^2}{\text{forventet}}.$ $C$ -teststørrelsen vurderes i den samme $\chi^2$ -fordeling som $G$ -teststørrelsen og med samme krav om, at de forventede antal skal være større end eller lig med 5.

Chi-squared testet benyttes stadigt meget, men jeg foretrækker, at I bruger $G$ -testet på grund af dets forbindelse til generelle metoder. I MSRR kapitel 10 benyttes næsten udelukkende $C$ -testet, og dette er også standard i forskellige R-funktioner.

Foregående Næste