Afsnit 1.3: $G$ -teststørrelsen

Jeg vil nu formulere en hypotese i multinomialfordelingen generelt. Udgangspunktet er modellen

$M_0:\enspace(A_1,\ldots,A_k)\sim\text{multinom}(n,(\pi_1,\ldots,\pi_k)),\enspace \pi_j\geq 0,\enspace\pi_1+\cdots+\pi_k=1. \tag{1.3.1}$ Hypotesen lægger begrænsninger på variationsområdet for $(\pi_1,\ldots,\pi_k),$ idet

$\pi_j=p_j(\theta),\enspace j=1,\ldots,k,\quad\theta\subseteq \Theta. \tag{1.3.2}$ Her er $p_j(\cdot)$ kendte funktioner, $\theta$ er en ukendt parameter, der skal estimeres ud fra data, og $\theta$ kan variere i området $\Theta,$ som indeholder et åbent område af $\mathbf{R}^d.$ Det sidste udtrykker vi sprogligt på den måde, at $\theta$ har $d$ frie parametre. Under hypotesen betegnes den statistiske model med $M_1,$ og man kan enten sige, at vi ønsker at teste hypotesen, eller at vi ønsker at teste reduktion fra model $M_0$ til model $M_1.$

Som skøn over $\theta$ bruges den værdi, der giver maksimum af likelihoodfunktionen $L_1(\theta)$ :

$L_1(\theta)=L\big(p_1(\theta),\ldots,p_k(\theta)\big),$ hvor $L(\cdot)$ er givet i ligning (1.1.1).

Vi kan nu beregne likelihoodratio teststørrelsen $Q,$ som er forholdet mellem den maksimale værdi af likelihoodfunktionen under model $M_1$ og den maksimale værdi af likelihoodfunktionen under model $M_0.$ Ved samme beregning som i foregående afsnit finder vi

$Q=\frac{\binom{n}{A_1,\ldots,A_k} p_1(\hat\theta)^{A_1} \cdots p_k(\hat\theta)^{A_k}} {\binom{n}{A_1,\ldots,A_k}\big(\frac{A_1}{n}\big)^{A_1} \cdots \big(\frac{A_k}{n}\big)^{A_k} } =\frac{1}{\big(\frac{A_1}{np_1(\hat\theta)}\big)^{A_1} \cdots \big(\frac{A_k}{np_k(\hat\theta)}\big)^{A_k}},$ og dermed

$G=-2\log(Q)=2\sum_{j=1}^k A_j\log\big(\frac{A_j}{e_j}\big),\quad e_j=np_j(\hat\theta). \tag{1.3.3}$ Her kaldes $e_j$ det forventede antal i kasse $j$ under hypotesen (under model $M_1$ ).

En lille værdi af $Q$ betyder, at data beskrives meget dårligere under model $M_1$ end under model $M_0.$ Jo mindre værdi af $Q$ jo mere kritisk for hypotesen. Dette er det samme som, at jo større $G$ er, jo mere kritisk. $P\text{-}$ værdien for et test baseret på $G$ er derfor sandsynligheden for ved gentagelse af eksperimentet at få en værdi af $G,$ der er større end eller lig med den faktisk observerede værdi af $G.$ Til beregning af $p$ -værdien har vi følgende resultat.

Resultat 1.3.1. (G-test)

Betragt multinomialmodellen $(A_1,\ldots,A_k)\sim\text{multinom}(n,(\pi_1,\ldots,\pi_k)),$ $\pi_j\geq 0,$ $\pi_1+\cdots+\pi_k=1$ (model $M_0$ ) og hypotesen $\pi_j=p_j(\theta),$ $j=1,\ldots,k,$ hvor $\theta$ har $d$ frie parametre (model $M_1$ ). Betragt teststørrelsen $G=-2\log(Q)=2\sum_{j=1}^k A_j\log\big(\frac{A_j}{e_j}\big),$ $e_j=np_j(\hat\theta),$ og lad $G_{\text{obs}}$ være den observerede værdi af teststørrelsen. Hvis alle de forventede $e_j=np_j(\hat\theta)$ er større end eller lig med 5, har vi approksimativt

$p\text{-værdi}=P(G\geq G_{\text{obs}})= 1-\chi^2_{\text{cdf}}(G_{\text{obs}},k-1-d).$

Beviset for dette resultat er ikke nemt. Intuitivt bygger det på den centrale grænseværdisætning (se afsnit 4.3 i MSRR) og en andenordens taylorudvikling af likelihoodfunktionen. Antallet af frihedsgrader $k-1-d$ i $\chi^2$ -fordelingen er generelt $d(M_0)-d(M_1),$ hvor $d(M_j)$ er antallet af frie parametre i model $M_j.$ I model $M_0$ har vi bindingen, at $\pi_1+\cdots+\pi_k=1,$ hvorfor antallet af frie parametre er $k-1.$

Sandsynligheden for at ligge til venstre for punktet $z$ i en $\chi^2\text{-}$ fordeling med $f$ frihedsgrader, $\chi^2_{\text{cdf}}(z,f),$ beregnes i R med kommandoen pchisq(z,f).

Likelihoodratio test

Her følger en generel definition på likelihoodratio teststørrelsen, når man vil teste en reduktion fra model $M_1$ til model $M_2.$ Vi betragter en statistisk model med likelihoodfunktion $L(\theta;x),$ hvor $\theta$ er en parameter, og $x$ er data. Under model $M_1$ kan $\theta$ variere i $\Theta_1$ og under model $M_2$ i $\Theta_2\subset\Theta_1.$ Så er likelihoodratio teststørrelsen $Q$ givet ved

$Q=\frac{ \max_{\theta\in\Theta_2}L(\theta;x) } { \max_{\theta\in\Theta_1}L(\theta;x) }.$ Da $\Theta_2\subset\Theta_1,$ er det klart, at $Q\leq 1,$ hvorfor loglikelihoodratio teststørrelsen

$G=-2\log(Q)=2\Big\{\max_{\theta\in\Theta_1}\log(L(\theta;x))- \max_{\theta\in\Theta_2}\log(L(\theta;x))\Big\}$ er større end eller lig med 0, og små værdier af $Q$ svarer til store værdier af $G$ .

Hvis data stammer fra uafhængige og identisk fordelte stokastiske variable $X_1,\ldots,X_n$ , gælder der ofte, at fordelingen af $G$ kan approksimeres med en $\chi^2$ -fordeling, i grænsen hvor $n$ går mod uendelig. Antallet af frihedsgrader i $\chi^2$ -fordelingen er $d_1-d_2$ , hvor $d_1$ og $d_2$ er antallet af frie parametre i henholdsvis model $M_1$ og model $M_2.$ Hvis $\Theta\subseteq R^d$ , og $\Theta$ indeholder en åben mængde, siger man, at $\theta\in\Theta$ har $d$ frie parametre.

I nogle situationer vil likelihoodratio testet (testet, hvor vi forkaster for store værdier af $G$ ) være det "bedste" test, man kan lave. Dette skal forstås på den måde, at likelihoodratio testet har den største styrke blandt test med et niveau, der er mindre end eller lig med niveauet for likelihoodratio testet (Neyman-Pearson lemma side 273 i MSRR).

Eksempel 1.3.2. (Tid indtil graviditet)

Vi vender tilbage til data omkring antal forsøg for at blive gravid i foregående afsnit, og laver $G$ -testet for hypotesen beskrevet der.

Først skal vi finde et skøn over parameteren $\theta,$ hvor $\pi_j=(1-\theta)^{j-1}\theta,$ $j\leq 6,$ og $\pi_7=(1-\theta)^6.$ Likelihoodfunktionen bliver

$\begin{aligned} L_1(\theta)&=\binom{100}{29,\ldots,18} \theta^{29} \big((1-\theta)\theta\big)^{16} \big((1-\theta)^2\theta\big)^{17} \big((1-\theta)^3\theta\big)^{4} \big((1-\theta)^4\theta\big)^{3} \big((1-\theta)^5\theta\big)^{9} \big((1-\theta)^6\big)^{22} \\ & = \binom{100}{29,\ldots,22}\theta^{78}(1-\theta)^{251}. \end{aligned}$ Ved sammenligning med likelihoodfunktionen i binomialmodellen (side 152 i MSRR) ses, at $\hat\theta=78/(78+251)=0.2371.$

Dernæst beregnes de forventede antal som $e_j=100\cdot (1-\hat\theta)^{j-1}\hat\theta,$ $j\leq 6,$ og $e_7=100\cdot (1-\hat\theta)^6.$ Dette giver følgende tabel (forventede er afrundet til $\acute{\text{e}}$ n decimal).

$\begin{array}{lccccccc}\hline \text{Cykelnummer} & 1 & 2 & 3 & 4 & 5 & 6 & \geq 7 \\ \text{Antal kvinder} & 29 & 16 & 17 & 4 & 3 & 9 & 22 \\ \text{Forventede} & 23.7 & 18.1 & 13.8 & 10.5 & 8.0 & 6.1 & 19.7 \\ \hline \end{array}$ Da alle de forventede er større end eller lig med 5, beregner vi $G\text{-}$ teststørrelsen og den approksimative $p$ -værdi fra en $\chi^2$ -fordeling med $7-1-1$ frihedsgrader. Ved beregning af antal frihedsgrader benyttes, at multinomialmodellen her deler op i 7 kasser, og den hypotese, der testes, har 1 parameter (nemlig $\theta$ ). Beregningen i kodevinduet nedenfor giver $G=12.9$ og en $p$ -værdi på 0.024. Da $p$ -værdien er lille, er vi skeptiske over for holdbarheden af vores hypotese. En mulig forklaring på dette er, at hver kvinde har sin egen værdi af parameteren $\theta,$ altså hver kvinde har sin egen sandsynlighed for at blive gravid i et enkelt forsøg. I så fald vil data repræsentere en blanding, der ikke kan beskrives på samme måde som den enkelte kvinde.

1.3.3 Beregning i R af G-test

$\chi^2$-fordelingen i R

I det følgende kodevindue tegnes tætheden for en $\chi^2(\mathit{df})$ fordeling, og 95%-fraktilen markeres med en lodret streg. Fraktilen angiver punktet, hvor 95% af sandsynligheden i fordelingen ligger til venstre for punktet og 5% ligger til højre for punktet. Prøv at køre koden med forskellige valg af antallet af frihedgrader $\mathit{df}.$ Prøv også i kodevinduet at beregne sandsynligheden for at ligge til højre for 5.99 i en $\chi^2$ -fordeling med 2 frihedsgrader.

Foregående Næste

Afsnit 1.3: G-teststørrelsen

Afsnit 1.3: $G$ -teststørrelsen