Afsnit 3.6: Homogenitetstest: hypotesen
Indtil nu har vi i dette kapitel udelukkende set på
observationer fra
eˊn multinomialfordeling. Ofte vil man
have observationer fra flere "populationer" og ønsker at
sammenligne disse for at se, om der er samme forhold i
populationerne.
Her skal population forstås bredt. Det kan være biologiske
populationer, men kan også være undersøgelser lavet på
forskellige tidspunkter, eller for eksempel eksperimenter der
gentages.
Eksempel 3.6.1.
(Tillægge robotter menneskelignende egenskaber)
Hvornår tillægger vi robotter menneskelignende egenskaber
?
I artiklen
Anthropomorphic language in online forums about Roomba,
AIBO and the iPad
forsøges dette belyst ved at sammenligne indlæg på tre
diskussionsfora, der vedrører henholdsvis iPad'en, en robotstøvsuger
Roomba og en robot legehund Aibo.
Hvert indlæg (egentligt
delindlæg eftersom lange indlæg
deles op i delindlæg) klassificeret som indeholdende
(antropomorft)
eller ikke indeholdende menneskelignende ud fra 6 beskrevne
muligheder. Tabellen nedenfor indeholder det samlede antal
indlæg og antallet med antropomorft indhold for de tre
fora.
ApperatiPadRoombaAiboAntropomorft1047201Ikke Antropomorft441355154Total451402355
I artiklen laves der et test for, om der er samme
frekvens af antropmorfe indlæg i de tre fora. Dette test
beskrives generelt i det følgende.
Jeg formulerer nu situationen generelt.
Statistisk Model 3.6.2.
(Flere Multinomialfordelinger)
Vi betragter
r
populationer, og i den
i'te er der i alt
ni observationer.
For hver population kategoriseres data i
k kasser, og
antallene i disse kasser tælles:
(Ai1,Ai2,…,Aik) er antallene i den
i'te
population,
Ai1+Ai2+⋯+Aik=ni. Som statistisk model benyttes
(Ai1,…,Aik)∼multinom(ni,(πi1,…,πik)),πij≥0,πi1+⋯+πik=1,i=1,…,r,
og de
r populationer er uafhængige. Nedenfor vil jeg
betegne denne model med
M0.
Vi ønsker at teste hypotesen, at der er samme forhold i de
r
populationer. Med dette menes, at sandsynligheden for at falde
i kasse
j er den samme i de
r populationer, og dette gælder
for alle kasser
j=1,…,k. Dette kan skrives formelt som
en ny model
M1, hvorunder der findes et sæt sandsynligheder
π1,…,πk, πj≥0, π1+⋯+πk=1, således at
M1:πij=πj,i=1,…,rfor allej=1,…,k.
Hvis vi samler alle sandsynligheder i en
r×k matriks,
kan hypotesen skrives på formen
12⋮r1π11π21⋮πr12π12π22πr2⋯⋯⋯⋯kπ1kπ2k⋮πrk=12⋮r1π1π1⋮π12π2π2π2⋯⋯⋯⋯kπkπk⋮πk
Hypotesen kaldes
homogenitetshypotesen for kategoriske data.
ForegåendeNæste