I artiklen Upper Extremity Injuries in Homer's Iliad
har forfatterne læst Homers Illiade og registreret 146 personskader
i kampene omkring Troja. Skaderne er delt op efter området på
kroppen og om personen dør eller ikke dør. Her vil jeg nøjes med
at se på skader, der vedrører arme og ben.
Er der uafhængighed mellem, hvor man får en skade, og om man
overlever ? Kunne de gamle grækere ved at bruge statistik
have fået viden om, hvor de skulle forbedre kampuniformen ? I en generel formulering betragter jeg individer,
der inddeles efter to kriterier. De
oprindelige data skrives på formen ,
hvor er kategorien efter det første kriterie
(med katagorier) for observation nummer
og er kategorien efter det anden kriterie
(med katagorier). Fra disse data
dannes en tabel med antal hvor
tæller op antallet af observationer, hvor
og Som startmodel bruger vi
Hypotesen om uafhængighed siger, at sandsynligheden for at
falde i den 'te celle, kan skrives
som produktet af en
sandsynlighed (kaldet nedenfor) for at falde i kasse med hensyn til det første
kriterie og en sandsynlighed (kaldet nedenfor) for at
falde i kasse med hensyn til det andet kriterie. Dette giver modellen
Lad os starte med lidt notation. Vektoren med alle antallene
kaldes , og tilsvarende er vektoren med alle
indgangene . Den 'te rækkesum er
og den 'te søjlesum er
og vektorerne med disse
summer betegnes og Bemærk, at da
rækkesummerne svarer til, at vi kun inddeler data efter det
første kriterie, vil vektoren med disse
summer være multinomialfordelt. Det samme gælder for
søjlesummerne.
Resultat 1.7.1.
Uafhængighedstest
Et test for uafhængighedshypotesen foretages ved at beregne
-teststørrelsen fra (1.6.1) og beregne -værdi som beskrevet
i Resultat 1.6.1. For at lave inferens om parameteren under
uafhængighedsmodellen benyttes multinomialmodellen
for rækkesummerne,
og for at lave inferens om benyttes
Likelihoodfunktionen under model er
og likelihoodfunktionen
under uafhængighedshypotesen er
De to led i krøllede parenteser har samme struktur som
likelihoodfunktionen fra en multinomialmodel, hvorfor vi
umiddelbart har
Ved simpel indsættelse kan man nu se, at likelihood ratio
tesstørrelsen vil være som i afsnit 1.6
for homogenitetstestet. I det næste skjulte punkt
gives en dybere forklaring på, at de to test er ens.
Vi starter med at lave en omparametrisering af model idet
vi skriver
og alle parametrene kan variere uafhængigt af hinanden. Dette kan se
lidt voldsomt ud, men her står blot, at er sandsynligheden
for at falde i kategori med hensyn til det første kriterie, og
givet dette, er sandsynligheden for at falde i kategori med
hensyn til det andet kriterie givet som
Hypotesen om uafhængighed,
bliver i denne formulering
hvor den fælles værdi af disse sandsynlighedsvektorer svarer til
Den betingede sandsynlighed
for hele tabellen givet rækkesummerne er
Her står to ting. For det første, at rækkerne er uafhængige
givet rækkesummerne (på grund af produktstrukturen), og
for det andet, at den
'te række givet rækkesummen er multinomialfordelt med
antalsværdi og sandsynlighedsvektor
Sammenfattende har vi, at givet rækkesummerne svarer
uafhængighedshypotesen (1.7.2) til hypotesen om homogenitet
af multinomialfordelinger fra afsnit 1.6. Hvis man mere direkte skriver likelihood ratio teststørrelsen op
for reduktion fra model til model vil man se, at
maksimum af leddet svarende til multinomialfordelingen for
rækkesummerne forkorter ud, og tilbage er der produktet
af multinomialfordelingerne for rækkerne givet rækkesummerne, og
derfor bliver identisk med likelihood ratio tesstørrelsen
udregnet i underafsnit 1.6.1.På tilsvarende vis vil man finde, at likelihoodratio teststørrelsen
for en hypotese om , under uafhængighedsmodellen
kun afhænger af rækkesummerne Dette er
baggrunden for, at der i Resultat 1.7.1 siges, at
inferens om baseres på multinomialmodellen for
rækkesummerne. Under uafhængighedshypotesen har vi, at den 'te række
givet rækkesummerne
er multinomialfordelt med antalsværdi
og sandsynlighedsvektor Da der er samme
sandsynlighedsvektor for bliver summen af
rækkerne, som netop er vektoren af søjlesummer,
multinomialfordelt med antalværdi og sandsynlighedsvektor
. Dette er fordelingen givet rækkesummerne
men da denne betingede fordeling ikke afhænger af rækkesummerne,
får vi udsagnet, at rækkesummer og søjlesummer er stokastisk
uafhængige under uafhængighedshypotesen. Dette resultat vil
jeg bruge i næste afsnit.
Før -testet, baseret på et likelihood ratio test, blev indført,
benyttede man et andet test kaldet
chi-squared test.
Hvis vi kalder teststørrelsen for er de to teststørrelser
-teststørrelsen vurderes i den samme -fordeling
som -teststørrelsen og med samme krav om, at de forventede antal
skal være større end eller lig med 5. Chi-squared testet benyttes stadigt meget, men jeg foretrækker,
at I bruger -testet på grund af dets forbindelse til generelle metoder.
I MSRR kapitel 10 benyttes næsten udelukkende -testet, og
dette er også standard i forskellige R-funktioner.