Afsnit 1.6: Estimation og Test

Under model $M_0$ kan estimation foretages for hver af de $r$ multinomialmodeller under brug af resultatet i underafsnit 1.1.1. Dette giver

$M_0:\quad \hat\pi_{ij}=\frac{A_{ij}}{n_i},\enspace j=1,\ldots,k,\enspace i=1,\ldots,r.$ Under model $M_1$ skal det fælles sæt sandsynligheder $(\pi_1,\ldots,\pi_k)$ estimeres. Opstiller man likelihoodfunktionen, kan man indse, at estimaterne opnås ved at bruge

$(A_{\bullet 1},A_{\bullet 2},\ldots,A_{\bullet k}) \sim\text{multinom}(n_\bullet,(\pi_{1},\ldots,\pi_{k})),$ hvor $A_{\bullet j}=A_{1j}+A_{2j}+\cdots+A_{rj}$ er den $j$ 'te søjlesum og $n_\bullet=n_1+n_2+\cdots+n_r.$ Igen kan vi bruge resultatet i underafsnit 1.1.1 og får

$M_1:\quad \hat\pi_{j}=\frac{A_{\bullet j}}{n_\bullet},\enspace j=1,\ldots,k.$ Vi kan nu beregne de forventede under model $M_1.$ Idet $e_{ij}$ er det forventede antal i kasse $j$ for population $i,$ er denne

$e_{ij}=n_i\hat\pi_j=\frac{n_iA_{\bullet j}}{n_\bullet}, \enspace j=1,\ldots,k,\enspace i=1,\ldots,r.$ Denne formel kan læses som "rækkesum gange søjlesum divideret med den totale sum".

1.6.1 Test

For at lave et test for reduktion fra model $M_0$ til model $M_1$ bruges igen likelihood ratio teststørrelsen på formen $G=-2\log(Q),$ hvor $Q$ er forholdet mellem maksimum af likelihoodfuktionen under de to modeller:

$\begin{aligned} Q & = \frac{\max_{M_1}L}{\max_{M_0}L}=\prod_i\prod_j \frac{ \hat\pi_j^{A_{ij}} }{ \hat\pi_{ij}^{A_{ij}} } = \prod_i\prod_j \frac{1}{ \big( \frac{A_{ij}}{(n_iA_{\bullet j})/n_\bullet} \big)^{A_{ij}} }, \end{aligned}$ og dermed

$G=2\sum_{i=1}^r\sum_{j=1}^k A_{ij} \log\Big(\frac{A_{ij}}{e_{ij}}\Big). \tag{1.6.1}$ I ord kan vi sige dette, som at $G$ er 2 gange sum over celler af det observerede antal ganget med logaritmen til det observerede antal divideret med det forventede antal. Med celler mener vi indgangene i $r\times k$ matricen med antallene $A_{ij}.$

Resultat 1.6.1. (Homogenitetstest)

Betragt modellerne $M_0$ og $M_1$ som beskrevet i dette afsnit. Hvis alle de forventede er større end eller lig med 5, $e_{ij}\geq 5,$ kan vi approksimativt beregne $p\text{-}$ værdien for test af reduktion fra model $M_0$ til model $M_1$ baseret på den observerede værdi $G_{\text{obs}}$ af teststørrelsen $G$ ved

$p\text{-værdi}=P(G\geq G_{\text{obs}})= 1-\chi^2_{\text{cdf}}(G_{\text{obs}},(r-1)(k-1)).$

Antallet af frihedsgrader følger den generelle regel med antallet af frie parametre i $M_0$ minus antallet af frie parametre i $M_1$ :

$\big(r(k-1)\big)-(k-1)=(r-1)(k-1).$

Illustration gennem R

Nedenstående kode viser eksplicit beregningen af de forventede antal. I eksempel 1.6.2 nedenfor er vist en kortere version a koden. I nedenstående kodevindue er Obs en $3\times 2$ matriks med følgende data:

$\begin{array}{l|cc|c|} & 1 & 2 & \text{Sum} \\ \hline 1 & 10 & 10 & 20 \\ 2 & 10 & 30 & 40 \\ 3 & 20 & 20 & 40 \\ \hline \text{Sum} & 40 & 60 & 100 \\ \hline \end{array}$ Kør koden, og forklar, hvad de forskellige dele af output indeholder.

Svar: Homogenitetstest

Funktionen rowSums beregner rækkesummer, og giver derfor en vektor af længde 3. Funktionen colSums beregner søjlesummer, og giver derfor en vektor af længde 2. Funktionen outer tager to vektorer som input og danner en matriks, hvor den $(i,j)$ 'te indgang er den $i$ 'te indgang i den første vektor ganget med den $j$ 'te indgang i den anden vektor, hvorfor ex bliver matricen med de forventede antal. Endelig indeholder $G$ og pval henholdsvis $G$ -teststørrelsen og den tilhørende $p$ -værdi. Koden i linjerne 2-5 kan skrives samlet som ex=outer(rowSums(Obs),colSums(Obs))/ sum(Obs).

Eksempel 1.6.2. (Aktivitet af delfingrupper)

Vi fortsætter med data omkring aktivitetsmønster for grupper af delfiner fra Eksempel 1.5.1.

Først opstilles en statistisk model for data. Lad $\text{Delf}_{ij},$ $i=M,A$ (Morgen,Aften), $j=R,S,L$ (Rejse,Spise,Leg), være den stokastiske variabel, der angiver antal grupper i aktivitetskategori $j$ til tidspunkt $i.$ Vi benytter modellen

$\begin{aligned} & (\text{Delf}_{MR},\text{Delf}_{MS},\text{Delf}_{ML})\sim\text{multinom}(72, (\pi_{MR},\pi_{MS},\pi_{ML})),\enspace \pi_{Mj}\geq 0, \pi_{MR}+\pi_{MS}+\pi_{ML}=1, \\ & (\text{Delf}_{AR},\text{Delf}_{AS},\text{Delf}_{AL}) \sim\text{multinom}(79, (\pi_{AR},\pi_{AS},\pi_{AL})),\enspace \pi_{Aj}\geq 0, \pi_{AR}+\pi_{AS}+\pi_{AL}=1. \end{aligned}$ Under denne model ønsker vi at teste hypotesen om samme fordeling af aktivitet på de to tidspunkter,

$(\pi_{MR},\pi_{MS},\pi_{ML})=(\pi_{AR},\pi_{AS},\pi_{AL}).$ Først findes de forventede antal under hypotesen som rækkesum gange søjlesum divideret med det totale antal. Dette giver følgende tabel (afrundet til to decimaler).

$\begin{array}{lcccc} & \text{Rejse} & \text{Spise} & \text{Leg} & \text{Total} \\ \hline \text{Morgen} & 9.06 & 40.05 & 22.89 & 72 \\ \text{Aften} & 9.94 & 43.95 & 25.11 & 79 \\ \hline \end{array}$ Dernæst beregnes $G$ -teststørelsen,

$G=2\Big\{6\cdot\log\big(\frac{6}{9.06}\big)+\cdots+ 10\cdot\log\big(\frac{10}{25.11}\big)\Big\}=29.25.$ Da alle de forventede er større end fem (den mindste er 9.06), bruges $\chi^2$ -approksimationen til fordelingen af $G,$ og vi får

$p\text{-værdi}=1-\chi^2_{\text{cdf}}\big(29.25,(2-1)(3-1)\big)= 4.5\cdot 10^{-7}.$ Denne $p$ -værdi er meget lille, hvorfor data strider mod hypotesen om samme aktivitetsmønster på de to tidspunkter. Data tyder i grove træk på, at om morgenen spiser og leger grupperne, hvorimod grupperne er fokuseret på at spise om aftenen. Beregningerne er lavet i R som vist nedenfor.

1.6.3 Beregning i R af homogenitetstest

Foregående Næste