Afsnit 1.7: Test for uafhængighed

I artiklen Upper Extremity Injuries in Homer's Iliad har forfatterne læst Homers Illiade og registreret 146 personskader i kampene omkring Troja. Skaderne er delt op efter området på kroppen og om personen dør eller ikke dør. Her vil jeg nøjes med at se på skader, der vedrører arme og ben.
Er der uafhængighed mellem, hvor man får en skade, og om man overlever? Kunne de gamle grækere ved at bruge statistik have fået viden om, hvor de skulle forbedre kampuniformen?
I en generel formulering betragter jeg individer, der inddeles efter to kriterier. De oprindelige data skrives på formen , hvor er kategorien efter det første kriterie (med katagorier) for observation nummer og er kategorien efter det anden kriterie (med katagorier). Fra disse data dannes en tabel med antal hvor tæller op antallet af observationer, hvor og Som startmodel bruger vi
Hypotesen om uafhængighed siger, at sandsynligheden for at falde i den 'te celle, kan skrives som produktet af en sandsynlighed (kaldet nedenfor) for at falde i kasse med hensyn til det første kriterie og en sandsynlighed (kaldet nedenfor) for at falde i kasse med hensyn til det andet kriterie. Dette giver modellen
Lad os starte med lidt notation. Vektoren med alle antallene kaldes , og tilsvarende er vektoren med alle indgangene . Den 'te rækkesum er og den 'te søjlesum er og vektorerne med disse summer betegnes og Bemærk, at da rækkesummerne svarer til, at vi kun inddeler data efter det første kriterie, vil vektoren med disse summer være multinomialfordelt. Det samme gælder for søjlesummerne.
Resultat 1.7.1. Uafhængighedstest
Et test for uafhængighedshypotesen foretages ved at beregne -teststørrelsen fra (1.6.1) og beregne -værdi som beskrevet i Resultat 1.6.1.
For at lave inferens om parameteren under uafhængighedsmodellen benyttes multinomialmodellen for rækkesummerne, og for at lave inferens om benyttes
Likelihoodfunktionen under model er og likelihoodfunktionen under uafhængighedshypotesen er
De to led i krøllede parenteser har samme struktur som likelihoodfunktionen fra en multinomialmodel, hvorfor vi umiddelbart har
Ved simpel indsættelse kan man nu se, at likelihood ratio tesstørrelsen vil være som i afsnit 1.6 for homogenitetstestet. I det næste skjulte punkt gives en dybere forklaring på, at de to test er ens.

Betingning

Vi starter med at lave en omparametrisering af model idet vi skriver
og alle parametrene kan variere uafhængigt af hinanden. Dette kan se lidt voldsomt ud, men her står blot, at er sandsynligheden for at falde i kategori med hensyn til det første kriterie, og givet dette, er sandsynligheden for at falde i kategori med hensyn til det andet kriterie givet som Hypotesen om uafhængighed, bliver i denne formulering
hvor den fælles værdi af disse sandsynlighedsvektorer svarer til
Den betingede sandsynlighed for hele tabellen givet rækkesummerne er
Her står to ting. For det første, at rækkerne er uafhængige givet rækkesummerne (på grund af produktstrukturen), og for det andet, at den 'te række givet rækkesummen er multinomialfordelt med antalsværdi og sandsynlighedsvektor Sammenfattende har vi, at givet rækkesummerne svarer uafhængighedshypotesen (1.7.2) til hypotesen om homogenitet af multinomialfordelinger fra afsnit 1.6.
Hvis man mere direkte skriver likelihood ratio teststørrelsen op for reduktion fra model til model vil man se, at maksimum af leddet svarende til multinomialfordelingen for rækkesummerne forkorter ud, og tilbage er der produktet af multinomialfordelingerne for rækkerne givet rækkesummerne, og derfor bliver identisk med likelihood ratio tesstørrelsen udregnet i underafsnit 1.6.1.
På tilsvarende vis vil man finde, at likelihoodratio teststørrelsen for en hypotese om , under uafhængighedsmodellen kun afhænger af rækkesummerne Dette er baggrunden for, at der i Resultat 1.7.1 siges, at inferens om baseres på multinomialmodellen for rækkesummerne.
Under uafhængighedshypotesen har vi, at den 'te række givet rækkesummerne er multinomialfordelt med antalsværdi og sandsynlighedsvektor Da der er samme sandsynlighedsvektor for bliver summen af rækkerne, som netop er vektoren af søjlesummer, multinomialfordelt med antalværdi og sandsynlighedsvektor . Dette er fordelingen givet rækkesummerne men da denne betingede fordeling ikke afhænger af rækkesummerne, får vi udsagnet, at rækkesummer og søjlesummer er stokastisk uafhængige under uafhængighedshypotesen. Dette resultat vil jeg bruge i næste afsnit.

Chi-square test i stedet for $G$-test

Før -testet, baseret på et likelihood ratio test, blev indført, benyttede man et andet test kaldet chi-squared test. Hvis vi kalder teststørrelsen for er de to teststørrelser
-teststørrelsen vurderes i den samme -fordeling som -teststørrelsen og med samme krav om, at de forventede antal skal være større end eller lig med 5.
Chi-squared testet benyttes stadigt meget, men jeg foretrækker, at I bruger -testet på grund af dets forbindelse til generelle metoder. I MSRR kapitel 10 benyttes næsten udelukkende -testet, og dette er også standard i forskellige R-funktioner.

ForegåendeNæste