Afsnit 3.7: Estimation og Test

Under model $M_0$ kan estimation foretages for hver af de $r$ multinomialmodeller under brug af resultatet i underafsnit 3.1.1. Dette giver

$M_0:\quad \hat\pi_{ij}=\frac{A_{ij}}{n_i},\enspace j=1,\ldots,k,\enspace i=1,\ldots,r.$ Under model $M_1$ skal det fælles sæt sandsynligheder $(\pi_1,\ldots,\pi_k)$ estimeres. Opstiller man likelihoodfunktionen, kan man indse, at estimaterne opnås ved at bruge

$(A_{\bullet 1},A_{\bullet 2},\ldots,A_{\bullet k}) \sim\text{multinom}(n_\bullet,(\pi_{1},\ldots,\pi_{k})),$ hvor $A_{\bullet j}=A_{1j}+A_{2j}+\cdots+A_{rj}$ er den $j$ 'te søjlesum og $n_\bullet=n_1+n_2+\cdots+n_r.$ Igen kan vi bruge resultatet i underafsnit 3.1.1 og får

$M_1:\quad \hat\pi_{j}=\frac{A_{\bullet j}}{n_\bullet},\enspace j=1,\ldots,k.$ Vi kan nu beregne de forventede under model $M_1.$ Idet $e_{ij}$ er det forventede antal i kasse $j$ for population $i,$ er denne

$e_{ij}=n_i\hat\pi_j=\frac{n_iA_{\bullet j}}{n_\bullet}, \enspace j=1,\ldots,k,\enspace i=1,\ldots,r.$ Denne formel kan læses som "rækkesum gange søjlesum divideret med den totale sum".

3.7.1 Test

For at lave et test for reduktion fra model $M_0$ til model $M_1$ bruges igen likelihood ratio teststørrelsen på formen $G=-2\log(Q),$ hvor $Q$ er forholdet mellem maksimum af likelihoodfuktionen under de to modeller:

$\begin{aligned} Q & = \frac{\max_{M_1}L}{\max_{M_0}L}=\prod_i\prod_j \frac{ \hat\pi_j^{A_{ij}} }{ \hat\pi_{ij}^{A_{ij}} } = \prod_i\prod_j \frac{1}{ \big( \frac{A_{ij}}{(n_iA_{\bullet j})/n_\bullet} \big)^{A_{ij}} }, \end{aligned}$ og dermed

$G=2\sum_{i=1}^r\sum_{j=1}^k A_{ij} \log\Big(\frac{A_{ij}}{e_{ij}}\Big). \tag{3.7.1}$ I ord kan vi sige dette, som at $G$ er 2 gange sum over celler af det observerede antal ganget med logaritmen til det observerede antal divideret med det forventede antal. Med celler mener vi indgangene i $r\times k$ matricen med antallene $A_{ij}.$

Resultat 3.7.1. (Homogenitetstest)

Betragt modellerne $M_0$ og $M_1$ som beskrevet i dette afsnit. Hvis alle de forventede er større end eller lig med 5, $e_{ij}\geq 5,$ kan vi approksimativt beregne $p\text{-}$ værdien for test af reduktion fra model $M_0$ til model $M_1$ baseret på den observerede værdi $G_{\text{obs}}$ af teststørrelsen $G$ ved

$p\text{-værdi}=P(G\geq G_{\text{obs}})= 1-\chi^2_{\text{cdf}}(G_{\text{obs}},(r-1)(k-1)).$

Antallet af frihedsgrader følger den generelle regel med antallet af frie parametre i $M_0$ minus antallet af frie parametre i $M_1$ :

$\big(r(k-1)\big)-(k-1)=(r-1)(k-1).$

Illustration gennem python

Nedenstående kode viser eksplicit beregningen af de forventede antal. I skal ikke bruge denne kode når I regner opgaver, hvor I i stedet skal bruge koden nedenfor i eksempel 3.7.2. I kodevinduet her er Obs en $3\times 2$ matriks med følgende data:

$\begin{array}{l|cc|c|} & 1 & 2 & \text{Sum} \\ \hline 1 & 10 & 10 & 20 \\ 2 & 10 & 30 & 40 \\ 3 & 20 & 20 & 40 \\ \hline \text{Sum} & 40 & 60 & 100 \\ \hline \end{array}$ Kør koden, og forklar, hvad de forskellige dele af output indeholder.

Svar: Homogenitetstest

Vektoren rs indeholder rækkesummer, og vektoren cs indeholder søjlesummer for matricen obs. Matricen rscs har samme dimension som obs, og har i den $(i,j)$ 'te indgang produktet af den ' $i$ 'te rækkesum og den $j$ 'te søjlesum. Matricen ex indeholder derfor de forventede antal. Endelig indeholder gTest og pval henholdsvis $G$ -teststørrelsen og den tilhørende $p$ -værdi.

Eksempel 3.7.2. (Dannelse af biofilm)

Vi fortsætter med data omkring dannelse af biofilm for to bakterier fra Eksempel 3.6.1.

Først opstilles en statistisk model for data. Lad $\text{BioF}_{ij},$ $i=P,F$ (Pathogenic,Faecal), $j=W,M,S$ (Weak, Moderate, Strong), være den stokastiske variabel, der angiver antal eksperimenter med biofilmdannelsen i kategori $j$ for bakterietype $i.$ Vi benytter modellen

$\begin{aligned} & (\text{BioF}_{PW},\text{BioF}_{PM},\text{BioF}_{PS})\sim\text{multinom}(105, (\pi_{PW},\pi_{PM},\pi_{PS})),\enspace \pi_{Pj}\geq 0, \pi_{PW}+\pi_{PM}+\pi_{PS}=1, \\ & (\text{BioF}_{FW},\text{BioF}_{FM},\text{BioF}_{FS}) \sim\text{multinom}(103, (\pi_{FW},\pi_{FM},\pi_{FS})),\enspace \pi_{Fj}\geq 0, \pi_{FW}+\pi_{FM}+\pi_{FS}=1. \end{aligned}$ Under denne model ønsker vi at teste hypotesen om samme fordeling af biofilmkategori for de to bakterietyper,

$(\pi_{PW},\pi_{PM},\pi_{PS})=(\pi_{FW},\pi_{FM},\pi_{FS}).$ Først findes de forventede antal under hypotesen som rækkesum gange søjlesum divideret med det totale antal. Dette giver følgende tabel (afrundet til to decimaler).

$\begin{array}{lcccc} & \text{Weak} & \text{Moderate} & \text{Strong} & \text{Total} \\ \hline \text{Pathogenic} & 57.83 & 14.71 & 32.46 & 105 \\ \text{Faecal} & 56.17 & 14.29 & 31.54 & 103 \\ \hline \end{array}$ Dernæst beregnes $G$ -teststørelsen,

$G=2\Big\{56\cdot\log\big(\frac{56}{57.83}\big)+\cdots+ 31\cdot\log\big(\frac{31}{31.54}\big)\Big\}=0.37.$ Da alle de forventede er større end fem (den mindste er 14.29), bruges $\chi^2$ -approksimationen til fordelingen af $G,$ og vi får

$p\text{-værdi}=1-\chi^2_{\text{cdf}}\big(0.37,(2-1)(3-1)\big)= 0.83.$ Denne $p$ -værdi er langt over 0.05, hvorfor data ikke strider mod hypotesen om samme evne til dannelse af biofilm for de to bakterietyper. I artiklen, hvor data stammer fra, laves der to andre eksperimenter med andre vækstmedier for bakterierne, og her finder man en forskel mellem de to bakterietyper.

3.7.3 Beregning i python af homogenitetstest

Koden nedenfor kan bruges generelt når man indskriver sin datamatriks i variablen obs. I python indskrives hver række indenfor kantede parenteser, og rækker er adskilt af et komma. Output fra beregningen er en matriks med de forventede antal, $G$ -teststørrelsen og den tilhørende $p$ -værdi.

Foregående Næste