Afsnit 3.3: G-teststørrelsen

Jeg vil nu formulere en hypotese i multinomialfordelingen generelt. Udgangspunktet er modellen
Hypotesen lægger begrænsninger på variationsområdet for idet
Her er kendte funktioner, er en ukendt parameter, der skal estimeres ud fra data, og kan variere i området som indeholder et åbent område af Det sidste udtrykker vi sprogligt på den måde, at har frie parametre. Under hypotesen betegnes den statistiske model med og man kan enten sige, at vi ønsker at teste hypotesen, eller at vi ønsker at teste reduktion fra model til model
Som skøn over bruges den værdi, der giver maksimum af likelihoodfunktionen :
hvor er givet i ligning (3.1.1).
Vi kan nu beregne likelihood ratio teststørrelsen som er forholdet mellem den maksimale værdi af likelihoodfunktionen under model og den maksimale værdi af likelihoodfunktionen under model Ved samme beregning som i foregående afsnit finder vi
og dermed
Her kaldes det forventede antal i kasse under hypotesen (under model ).
En lille værdi af betyder, at data beskrives meget dårligere under model end under model Jo mindre værdi af jo mere kritisk for hypotesen. Dette er det samme som, at jo større er, jo mere kritisk. værdien for et test baseret på er derfor sandsynligheden for ved gentagelse af eksperimentet at få en værdi af der er større end eller lig med den faktisk observerede værdi af -værdien kan ikke beregnes eksakt, og i stedet benyttes en approksimation baseret på ki-i-anden-fordelingen, som I kender fra calculuskurset. Hvis den stokastiske variabel er ki-i-anden fordelt med frihedsgrader, skriver jeg dette som . Sandsynligheden for at skrives som og beregnes i R med kommandoen pchisq(z,f).
Resultat 3.3.1. (G-test)
Betragt multinomialmodellen (model ) og hypotesen hvor har frie parametre (model ). Betragt teststørrelsen og lad være den observerede værdi af teststørrelsen. Hvis alle de forventede er større end eller lig med 5, har vi approksimativt
Beviset for dette resultat er ikke nemt. Intuitivt bygger det på den centrale grænseværdisætning (se afsnit 2.4) og en andenordens taylorudvikling af likelihoodfunktionen. Antallet af frihedsgrader i -fordelingen er generelt hvor og er antallet af frie parametre i henholddsvis model og model I model har vi bindingen, at hvorfor antallet af frie parametre er
Resultatet ovenfor er første gang, vi støder på -fordelingen i dette kursus. For at I kan have en fornemmelse for denne fordeling, nævner jeg lige, at hvis er uafhængige standard normalfordelte variable, så har en fordeling med frihedsgrader.
Eksempel 3.3.2. (Potenslov for kraterstørrelse)
Vi vender tilbage til data omkring størrelsen af kratere på Mars i foregående afsnit, og laver -testet for hypotesen om en potenslov beskrevet der.
Først skal vi finde et skøn over parameteren hvor Likelihoodfunktionen for multinomialmodellen med som angivet bliver
For at finde hvor denne funktion har maksimum, skal man løse en tredjegradsligning, eller benytte en numerisk søgerutine. I det følgende skjulte kodevindue laves fire figurer med logaritmen til likelihoodfunktionen, og ud fra disse kan vi se, at maksimum opnås for omkring

Figur med likelihoodfunktion

I det følgende kodevindue vises funktionen , hvor variationsområdet for snævres ind fra den ene figur til den næste.

Nu beregnes de forventede antal som Dette giver følgende tabel (forventede er afrundet til n decimal).
Da alle de forventede er større end eller lig med 5, beregner vi teststørrelsen og den approksimative -værdi fra en -fordeling med frihedsgrader. Ved beregning af antal frihedsgrader benyttes, at multinomialmodellen her deler op i 4 kasser, og den hypotese, der testes, har 1 parameter (nemlig ). Beregningen i kodevinduet nedenfor giver og en -værdi på 0.66. Da -værdien er langt over , konkluderer vi, at disse data ikke strider mod hypotesen om en potenslov til beskrivelse af størrelsesfordelingen af kratere på Mars.

3.3.3 Beregning i R af G-test

$\chi^2$-fordelingen i R

I det følgende kodevindue tegnes tætheden for en fordeling, og 95%-fraktilen markeres med en lodret streg. Fraktilen angiver punktet, hvor 95% af sandsynligheden i fordelingen ligger til venstre for punktet og 5% ligger til højre for punktet. Prøv at køre koden med forskellige valg af antallet af frihedgrader Prøv også i kodevinduet at beregne sandsynligheden for at ligge til højre for 5.99 i en -fordeling med 2 frihedsgrader.

ForegåendeNæste