Jeg vil nu formulere en hypotese i multinomialfordelingen generelt.
Udgangspunktet er modellen
Hypotesen lægger begrænsninger på variationsområdet for
idet
Her er kendte funktioner, er en ukendt parameter,
der skal estimeres ud fra data, og kan variere i området
som indeholder et åbent område af
Det sidste udtrykker vi sprogligt på den måde,
at har frie parametre.
Under hypotesen betegnes den statistiske model med og man
kan enten sige, at vi ønsker at teste hypotesen, eller at vi ønsker
at teste reduktion fra model til model Som skøn over bruges den værdi, der
giver maksimum af likelihoodfunktionen :
hvor er givet i ligning (1.1.1). Vi kan nu beregne likelihoodratio teststørrelsen som er
forholdet mellem den maksimale værdi af likelihoodfunktionen
under model og den maksimale værdi af likelihoodfunktionen
under model Ved samme beregning som i
foregående afsnit finder
vi
og dermed
Her kaldes det forventede antal i kasse under hypotesen
(under model ).En lille værdi af betyder, at data beskrives meget dårligere under
model end under model Jo mindre værdi af jo mere kritisk
for hypotesen. Dette er det samme som, at jo større er, jo mere kritisk.
værdien for et test baseret på er derfor sandsynligheden
for ved gentagelse af eksperimentet at få en værdi af der er større
end eller lig med den faktisk observerede værdi af
Til beregning af -værdien har vi følgende resultat.
Resultat 1.3.1.
(G-test)
Betragt multinomialmodellen
(model ) og
hypotesen
hvor har frie parametre (model ).
Betragt teststørrelsen
og lad være den observerede værdi af
teststørrelsen.
Hvis alle de forventede er større end
eller lig med 5, har vi approksimativt
Beviset for dette resultat er ikke nemt. Intuitivt bygger det på
den centrale grænseværdisætning (se afsnit 4.3 i MSRR)
og en andenordens taylorudvikling
af likelihoodfunktionen. Antallet af frihedsgrader
i -fordelingen er generelt
hvor er antallet af frie parametre i
model I model har vi bindingen, at
hvorfor antallet af frie parametre er Sandsynligheden for at ligge til venstre for punktet i en
fordeling med frihedsgrader,
beregnes i R med kommandoen pchisq(z,f).
Her følger en generel definition på likelihoodratio teststørrelsen,
når man vil teste en reduktion fra model til model Vi
betragter en statistisk model med likelihoodfunktion
hvor er en parameter, og er data.
Under model kan variere i og under
model i
Så er likelihoodratio teststørrelsen givet ved
Da er det klart, at hvorfor
loglikelihoodratio teststørrelsen
er større end eller lig med 0, og små værdier af
svarer til store værdier af . Hvis data stammer fra uafhængige og identisk fordelte stokastiske
variable , gælder der ofte, at fordelingen af
kan approksimeres med en -fordeling, i grænsen hvor
går mod uendelig. Antallet af frihedsgrader i -fordelingen
er , hvor og er antallet af frie parametre i
henholdsvis model og model Hvis
, og indeholder en åben mængde, siger
man, at har frie parametre. I nogle situationer vil likelihoodratio testet (testet, hvor vi
forkaster for store værdier af ) være det "bedste" test, man
kan lave. Dette skal forstås på den måde, at likelihoodratio testet har
den største styrke blandt test med et niveau, der er mindre
end eller lig med niveauet for likelihoodratio testet
(Neyman-Pearson lemma side 273 i MSRR).
Eksempel 1.3.2.
(Tid indtil graviditet)
Vi vender tilbage til data omkring antal forsøg for at
blive gravid i foregående afsnit, og laver -testet
for hypotesen beskrevet der. Først skal vi finde et skøn over
parameteren hvor
og Likelihoodfunktionen bliver
Ved sammenligning med likelihoodfunktionen i binomialmodellen
(side 152 i MSRR)
ses, at Dernæst beregnes de forventede antal som
og
Dette giver følgende tabel
(forventede er afrundet til n decimal).
Da alle de forventede er større end eller lig med 5, beregner
vi teststørrelsen og den approksimative -værdi fra en
-fordeling med frihedsgrader. Ved beregning af
antal frihedsgrader benyttes, at multinomialmodellen her
deler op i 7 kasser, og den hypotese, der testes, har 1 parameter
(nemlig ). Beregningen i kodevinduet nedenfor giver
og en -værdi på 0.024. Da -værdien er lille,
er vi skeptiske over for holdbarheden af vores hypotese.
En mulig forklaring på dette er, at hver kvinde har sin egen
værdi af parameteren altså hver kvinde
har sin egen sandsynlighed for at blive gravid i et
enkelt forsøg. I så fald vil data repræsentere en blanding,
der ikke kan beskrives på samme måde som den enkelte kvinde.
I det følgende kodevindue tegnes tætheden for en
fordeling, og 95%-fraktilen
markeres med en lodret streg. Fraktilen angiver
punktet, hvor 95% af sandsynligheden i fordelingen
ligger til venstre for punktet og 5% ligger til højre
for punktet. Prøv at køre koden med forskellige valg af
antallet af frihedgrader
Prøv også i kodevinduet at beregne sandsynligheden
for at ligge til højre for 5.99 i en -fordeling
med 2 frihedsgrader.