Afsnit 3.6: Homogenitetstest: hypotesen

Indtil nu har vi i dette kapitel udelukkende set på observationer fra eˊ\acute{\text{e}}n multinomialfordeling. Ofte vil man have observationer fra flere "populationer" og ønsker at sammenligne disse for at se, om der er samme forhold i populationerne. Her skal population forstås bredt. Det kan være biologiske populationer, men kan også være undersøgelser lavet på forskellige tidspunkter, eller for eksempel eksperimenter der gentages.
Eksempel 3.6.1. (Tillægge robotter menneskelignende egenskaber)
Hvornår tillægger vi robotter menneskelignende egenskaber? I artiklen Anthropomorphic language in online forums about Roomba, AIBO and the iPad forsøges dette belyst ved at sammenligne indlæg på tre diskussionsfora, der vedrører henholdsvis iPad'en, en robotstøvsuger Roomba og en robot legehund Aibo.
Hvert indlæg (egentligt delindlæg eftersom lange indlæg deles op i delindlæg) klassificeret som indeholdende (antropomorft) eller ikke indeholdende menneskelignende ud fra 6 beskrevne muligheder. Tabellen nedenfor indeholder det samlede antal indlæg og antallet med antropomorft indhold for de tre fora.
ApperatAntropomorftIkke AntropomorftTotaliPad10441451Roomba47355402Aibo201154355 \begin{array}{lccc} \text{Apperat} & \text{Antropomorft} & \text{Ikke Antropomorft} & \text{Total} \\ \hline \text{iPad} & 10 & 441 & 451 \\ \text{Roomba} & 47 & 355 & 402 \\ \text{Aibo} & 201 & 154 & 355 \\ \hline \end{array}
I artiklen laves der et test for, om der er samme frekvens af antropmorfe indlæg i de tre fora. Dette test beskrives generelt i det følgende.
Jeg formulerer nu situationen generelt.
Statistisk Model 3.6.2. (Flere Multinomialfordelinger)
Vi betragter rr populationer, og i den ii'te er der i alt nin_i observationer. For hver population kategoriseres data i kk kasser, og antallene i disse kasser tælles: (Ai1,Ai2,,Aik)(A_{i1},A_{i2},\ldots,A_{ik}) er antallene i den ii'te population, Ai1+Ai2++Aik=ni.A_{i1}+A_{i2}+\cdots+A_{ik}=n_i. Som statistisk model benyttes
(Ai1,,Aik)multinom(ni,(πi1,,πik)),πij0,πi1++πik=1,i=1,,r,\begin{aligned} &(A_{i1},\ldots,A_{ik})\sim\text{multinom}(n_i,(\pi_{i1},\ldots,\pi_{ik})), \\ &\pi_{ij}\geq 0,\enspace \pi_{i1}+\cdots+\pi_{ik}=1,\enspace i=1,\ldots,r, \end{aligned}
og de rr populationer er uafhængige. Nedenfor vil jeg betegne denne model med M0.M_0.
Vi ønsker at teste hypotesen, at der er samme forhold i de rr populationer. Med dette menes, at sandsynligheden for at falde i kasse jj er den samme i de rr populationer, og dette gælder for alle kasser j=1,,k.j=1,\ldots,k. Dette kan skrives formelt som en ny model M1,M_1, hvorunder der findes et sæt sandsynligheder π1,,πk,\pi_1,\ldots,\pi_k, πj0,\pi_j\geq 0, π1++πk=1,\pi_1+\cdots+\pi_k=1, således at
M1:πij=πj,i=1,,rfor allej=1,,k. M_1:\quad \pi_{ij}=\pi_j,\enspace i=1,\ldots,r\quad\text{for alle}\enspace j=1,\ldots,k.
Hvis vi samler alle sandsynligheder i en r×kr\times k matriks, kan hypotesen skrives på formen
12k1π11π12π1k2π21π22π2krπr1πr2πrk=12k1π1π2πk2π1π2πkrπ1π2πk \begin{array}{l|cccc|} & 1 & 2 & \cdots & k \\ \hline 1 & \pi_{11} & \pi_{12} & \cdots & \pi_{1k} \\ 2 & \pi_{21} & \pi_{22} & \cdots & \pi_{2k} \\ \vdots & \vdots & & & \vdots \\ r &\pi_{r1} & \pi_{r2} & \cdots & \pi_{rk} \\ \hline \end{array} \quad\quad=\quad\quad \begin{array}{l|cccc|} & 1 & 2 & \cdots & k \\ \hline 1 & \pi_{1} & \pi_{2} & \cdots & \pi_{k} \\ 2 & \pi_{1} & \pi_{2} & \cdots & \pi_{k} \\ \vdots & \vdots & & & \vdots \\ r & \pi_{1} & \pi_{2} & \cdots & \pi_{k} \\ \hline \end{array}
Hypotesen kaldes homogenitetshypotesen for kategoriske data.
ForegåendeNæste