I denne uges øvelse skal I blive fortrolige med multinomialfordelte data og
test af hypoteser om sandsynlighedsparametrene.
Specielt skal I se metoden brugt til at lave goodness of fit test.
Til sidst skal I sammenligne data fra flere multinomialfordelinger.
I et eksperiment er der dannet CdSe nanostrukturer på en overflade
belagt med guld. Nanostrukturerne er delt op i tre kategorier
nanosaws, nanowires og nanobelts.
Efter dannelsen kategoriseres 180 strukturer ud fra et
scanning elektronmikroskopi-billede. Resultatet fremgår af følgende
tabel (data fra
Statistical Modeling and Analysis for Robust Synthesis of Nanostructures).
Antal strukturernanosaws77nanowires47nanobelts56Total180
Opstil en statistisk model for data, og angiv med modellen
parametre hypotesen, at der er samme sandsynlighed for dannelsen af
de tre forskellige nanostrukturer.
Lav et test for hypotesen om samme sandsynlighed for
dannelsen af de tre strukturer.
Denne opgave vedrører det samme eksperiment som i opgave
1.7.
I stedet for at se på hvor mange molekyler der kommer i et tidsrum,
ser vi på tiden, der går mellem to ankomster. Blandt
234 ventetider er der 87, der ligger mellem 0 og 1 sekund, 72
mellem 1 og 2 sekunder, 33 mellem 2 og 3 sekunder, 21 mellem
3 og 4 sekunder og 21, der er over 4 sekunder (disse data er
en grov aflæsning fra figur 3 i artikel, der henvises til i opgave
1.7).
Hvis molekylerne kommer tilfældigt i tid, forventer vi, at ventetiden mellem
2 molekyler følger en såkaldt eksponentialfordeling.
Dette har som konsekvens, at sandsynlighederne for, at en ventetid falder
i et af intervallerne brugt ovenfor, kan skrives på
samme form som i eksempel 3.2.1.
Fortolkningen er som følger. Hvis θ er sandsynligheden for en
ankomst i et tidsinterval af længde 1 sekund, kan for eksempel
sandsynligheden for en ventetid mellem 3 og 4 sekunder skrives som
(1−θ)3θ. Dette skal tolkes som sandsynligheden for
ingen ankomst i 0-1, ganget med sandsynligheden for ingen
ankomst i 1-2, ganget med sandsynligheden for ingen
ankomst i 2-3, og ganget med sandsynlighed for ankomst i intervallet
3-4. Hvis et skøn over θ findes som beskrevet i afsnit 3.3,
baseret på antallene i ovenstående tabel, får man
θ^=0.4277.
Opstil en statistisk model for data, og angiv med modellens
parametre hypotesen om tilfældig ankomst som beskrevet ovenfor.
Lav et test for hypotesen om tilfældig ankomst (angiv resultat i
bogen, der bruges til testet, angiv om betingelse for at bruge G-test
er opfyldt, og forklar antallet af frihedsgrader i den χ2-fordeling
der bruges).
Data i denne opgave tager udgangspunkt i forsøg med
bakterieceller, hvor man ofte har behov
for at tælle, hvor mange af
disse man har i en given opløsning. Dette gøres ved at udtage en
mindre del af opløsningen og tage billede af denne i et mikroskop, hvor
bakterierne så kan tælles. Et eksempel på et sådant billede er vist
nedenfor, hvor de små sorte områder er
enkelte
E. coli
bakterier. De store områder i midten af billedet er
hver på 50×50μm2, og her inden for tælles antallet
af bakterier.
For at sikre konsistens
tælles en bakteriecelle, der ligger ind over en kant, kun med hvis det er
den venstre eller den øverste kant, der berøres.
I filen CelleData.txt ligger
data fra optælling fra
14 sådanne billeder, hver med 16 områder. Data er indsamlet
med henblik på opgaven her og stillet til rådighed af
Morten Bormann Nielsen.
Læs de 224 kvadrattællinger ind i en vektor
nColi (se indlæsningskommandoer i afsnit
1.6). Lav et antalshistogram af data med intervalendepunkter
givet ved vektoren
Indsæt titler på akserne i figuren. Beregn antallene (a1,a2…,a9) af observationer i de 9
intervaller med endepunkter i endePkt (svaret er
gengivet i tabel nedenfor).
Opstil en statistisk model for de stokastiske variable
(A1,…,A9) svarende til observerede antal
(a1,…,a9).
Det antages ofte, at tælletal af typen i denne opgave er poissonfordelte
(tælletallene her er de 224 tal svarende til antallet af bakterier
i de 224 kvadrater). Opskriv, i modellen fra foregående spørgsmål,
hypotesen om, at de underliggende 224 tælletal er udfald
fra en poissonfordeling med parameter λ.
Hvis et skøn over λ findes som beskrevet i afsnit 3.3,
baseret på antallene (a1,…,a9), får man
λ^=14.799
De forventede værdier i de 9 kasser (intervaller) kan ses i følgende tabel.
Beregn det forventede antal i kasse 6 med fire decimaler.
Udfør G-testet for hypotesen om, at tælletallene kan
beskrives med en poissonfordeling (hypotesen om, at
antal bakterier i et kvadrat er poissonfordelt).
Hvad bliver konklusionen af dit goodness of fit test?
Kan du komme med en formodning om, hvad der ligger bag ved resultatet?
Konklusionen af ovenstående analyse er, at poissonfordelingen ikke er
en særlig god beskrivelse af data. Man kan indse, at de 224 tællingerne
viser større spredning, end hvad man forventer i en poissonfordeling.
Fortolkningen af dette er, at bakterierne ikke er tilfældigt spredt ud
over området, nogle områder har større intensitet af bakterier end
andre områder (bakterierne klumper).
I dambrug kan vandet indeholde smags- og duftforbindelser
(taste and odor compound: TOC), der optages i
fisken og nedsætter dens værdi. Det er omkostningsfyldt at analysere
en fisk både ved en kemisk analyse og ved sensorisk måling (vurdering af
et smagspanel). Omvendt er det nemmere at analysere vandet i dambruget,
og det er derfor af interesse, om der er en klar forbindelse mellem
indholdet af TOC i vandet og fiskens tilstand.
Tabellen nedenfor viser resultatet af en sensorisk analyse for
fisk fra dambrug med forskelligt indhold af geosmin
(organisk forbindelse med en jordlugt) i vandet.
Smagspanelet vurderer
fisken på en såkaldt muddy-skala, og i tabellen er angivet antallet af
fisk under og over 3 på denne skala.
Der er undersøgt 50 fisk fra dambrug med et lavt indhold af
geosmin (<10ng/L), 74 fisk fra dambrug med et
middelindhold af geosmin (10−20ng/L), og
25 fisk med et højt indhold af geosmin (>20ng/L).
Data stammer fra
Chemical and sensory quantification of geosmin and 2-methylisoborneol in Rainbow Trout (Oncorhynchus mykiss) from Recirculated Aquacultures in Relation to Concentrations in Basin Water..
Her er først en multiple choice opgave. Nedenfor er der 1 eller 2
korrekte svar. Find disse.
Homogenitetshypotesen er ikke relevant her, da der kun er to søjler (to
kategorier for opdeling af data).
For at vurdere om vi har tiltro til homogenitetshypotesen bruges
Resultat 3.7.1.
Homogenitetshypotesen er ikke relevant her, da der er flere end 2
rækker i tabellen.
Hvis der er 2 forventede værdier under 5 bruger vi ikke G-testet.
Her følger nu spørgsmål til en analyse af data.
Opstil en statistisk model for tælletallene fra de
tre grupper af dambrug.
Angiv, inden for den opstillede model, hypotesen at der er samme
fordeling på kategorierne Under og Over for de tre grupper af
dambrug.
Undersøg, om data er i overensstemmelse med
hypotesen formuleret i foregående spørgsmål.
Beregn også den alternative teststørrelse
C=∑((observeret−forventet)2/forventet.
Bliver p-værdien fra denne teststørrelse større eller mindre end
p-værdien fra foregående spørgsmål?
I afsnit 1.3 er det nævnt, at selvom en hypotese er sand, så
vil vi i cirka 5 procent af tilfældene få en p-værdi mindre end eller
lig med 0.05. Mere generelt gælder der, at når hypotesen er sand, så
vil p-værdien, betragtet som stokastisk variabel,
approksimativt fordele sig uniformt over
intervallet fra 0 til 1. Dette skal I grafisk
se på i denne opgave baseret på
simulerede data. I kodevinduet nedenfor simuleres nSimp-værdier
i en binomialmodel, og der laves et tæthedshistogram med inddeling
i intervallerne 0.00−0.05, 0.05−0.1, 0.1−0.2, 0.2−0.5, og
0.5−1. Hvis p-værdierne fordeler sig uniformt, vil højden af
kasserne i tæthedshistogrammet ligge omkring 1.
xxxxxxxxxx
1
importnumpyasnp
2
importscipy.statsasst
3
importmatplotlib.pyplotasplt
4
5
# Definere opsætning
6
n=33
7
p0=0.70# simulerer fra binom(n,p0)
8
pHyp=0.7# tester hypotesen p=pHyp
9
nSim=1000
10
11
# nSim værdier simuleres og for hver beregnes p-værdi
Hvilken binomialfordeling simuleres der fra?
Hvilken hypotese testes?
Kør koden nogle gange. Er resultaterne som forventet,
specielt for intervallet 0.00−0.05?
Ændr nu det simulerede antal fra 1000 til 100000, og kør koden
nogle gange.
Ændr dernæst n=33 til n=330. Kommenter på figuren.
Ændr pHyp=0.7 til
pHyp=0.5, og kør først tilfældet med n=33 og dernæst n=330. Sandsynligheden for at få en p-værdi under 0.05, når hypotesen der
testes ikke er sand, kaldes styrken af testet.
Højden af kassen i histogrammet i intervallet 0.00−0.05 afspejler
styrken, når der testes p=0.5, og den sande værdi af p er 0.70.
Et laboratorie er inddelt i to grupper af medarbejdere. I den første
gruppe er der 12 medarbejdere og i anden gruppe er der 8 medarbejdere.
I løbet af et år er der 39 pipetteglas der er gået i stykker i gruppe
1 og 18 i gruppe 2.
Antal medarbejdereAntal pipetteglasGruppe 11239Gruppe 2818Total2057
Opstil en poissonmodel til beskrivelse af eksperimentet,
hvor rateparametrene λ1 og λ2
for de to grupper angiver det
forventede antal (i et år) per medarbejder.
Opskriv hypotesen, at der ikke er forskel mellem de to grupper.
Lav et test for hypotesen, at der er samme rate i de to grupper
(se Resultat 3.8.1).Hvad bliver konklusionen af dette test?
Ved at analysere indhold af forskellige duftmolekyler i
en persons udåndingsluft kan man muligvis påvise forskellige sygdomme.
I artiklen
Determination of volatile organic compounds as potential markers of lung cancer by gas chromatography–mass spectrometry versus trained dogs
bruges en gaskoromotograf og et massespektrometer til at analyse
inholdet af duftmolekylerne. I ovenstående artikel sammenlignes
detekteringen af lungekræft ud fra indholdet af duftmolekyler med
en optrænet hunds evne til at reagere på udåndingsluften fra en person.
Ud af 107 personer med lungekræft reagerer hunden ved 95 prøver, og ud
af 121 raske personer reagerer hunden ikke ved 97 prøver. Data er vist
i den følgende tabel.
I forbindelse med besvarelsen af denne opgave skal du downloade filen
svarAflevering1.txt fra kursushjemmesiden og indsætte nogle tal
fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din
pdf-fil med besvarelsen.I et eksperiment dannes der enten nanosaws eller nanowires
på en overflade belagt med guld. Ud af 180 nanostrukturer der er undersøgt
på overfladen er de 74 nanosaws og de resterende er nanowires
(data fra
Statistical Modeling and Analysis for Robust Synthesis of Nanostructures).Her er først en multiple choice opgave. Nedenfor er der 1 eller 2
korrekte svar. Find disse. Du skal også indskrive svaret
i filen svarAflevering1.txt under "multiple choice" del
De 74 nanosaws er tilfældigt fordelt på guldoverfladen, og er derfor
et udfald fra en poissonfordeling.
Hver af de 180 undersøgte strukturer kan enten være
nanosaws eller nanowires, og de 74 nanosaws er derfor
et udfald fra en binomialfordeling.
For at undersøge hypotesen at der er lige stor sandsynlighed
for at få en nanosaw som en nanowire, bruges resultat 3.7.1
Da 74 er mindre end 21⋅180=90, forkastes hypotesen,
at sandsynligheden for en nanosaw er 21.
Hvis p-værdien er mindre end 0.05, for et test af hypotesen at
sandsynligheden for en nanosaw er 21, forkastes hypotesen.
Her følger nu spørgsmål til en analyse af data.
Opstil en statistisk model til beskrivelse af
observationen 74 nanosaws. Overfør bogens Statistisk Model nummer
til svarAflevering1.txt.
Undersøg, om data er i overensstemmelse med
hypotesen, at sandsynligheden for en nanosaw er 21.
Overfør p-værdien fra dit test, med fire decimaler, til
svarAflevering1.txt.
Lav et 95%-konfidensinterval for sandsynligheden for
en nanosaw. Overfør den øvre grænse i konfidensintervallet,
med fire decimaler,
til svarAflevering1.txt.
I et dosis-respons eksperiment testes effekten af et stof ved
forskellige doser. For hver dosis ti
testes ni individer, og
der registreres, at xi af disse reagerer. Den relevante model er
binomialmodellen (samme som multinomialmodellen med k=2 kasser)
Xi∼binom(ni,pi),i=1,…,r,
hvor r er antallet af forskellige doser der testes. Tabellen nedenfor viser resultatet af et eksperiment med r=4
forskellige doser.
Dosis (t)−1.0−0.50.51.0Antal testede (n)68607684Antal der reagerer (x)14294762
Lav for hver dosis et 95%-konfidensinterval for pi.
Oversæt de fundne konfidensintervaller til konfidensintervaller for
parameteren θ=log(1−pp) (kaldes log-odds).
Lav en figur, hvor skøn θ^i afsættes mod dosis ti. Indsæt i figuren lodrette linjestykker, svarende til
konfidensintervallet for log-odds for hver dosis.
Beskriv den sammenhæng, du ser i figuren mellem log-odds og dosis.
Betragt situation og data som i foregående opgave (opgave 2.9).
Idet binomialmodellen er ækvivalent med multinomialmodellen med k=2 kasser
kan vi skrive data som
Antal der reagerer (x)14294762Antal der ikke reagerer (n−x)54312922
De forventede i den logistiske dosis-responsmodel er
Antal jordskælv af en given styrke inden for et givet tidsrum og
et givet geografisk område beskrives ofte med en poissonmodel.
I tabellen nedenfor er jordskælv i New Zealand i perioden 1930-2015
(i alt 86 år)
for tre styrkeintervaller på Richterskalaen.
Lav for hvert styrkeinterval et 95%-konfidensinterval for
raten λ af jordskælv per år.
Oversæt de fundne konfidensintervaller til konfidensintervaller for
logaritmen til raten per år, det vil sige
parameteren θ=log(λ).
Lav en figur, hvor skøn θ^i,i=1,2,3,
afsættes mod midtpunktet af styrkeintervallet. Indsæt i figuren lodrette linjestykker, svarende til
konfidensintervallet for logaritmen til raten for hvert styrkeinterval.
Beskriv den sammenhæng, du ser i figuren mellem
logaritmen til raten og midtpunktet af styrkeintervallet.
Dette er en fortsættelse af opgave 2.12. Det samlede antal jordskælv
i de tre styrkeintervaller er 138. Hvis vi forestiller os, at vi holder
det samlede antal fast på 138, kan vi (og det skal I i denne opgave)
betragte de observerede antal (75,41,25) som et udfald fra en
multinomialfordeling med n=138 kast af en generel tresidet terning. Hvis λi,i=1,2,3, er raterne fra opgave 2.12, og zi er
midtpunktet for det i'te interval, er vi interesseret i at teste en
lineær sammenhæng,
λi=exp(α+βzi),(α,β)∈R2.
I multinomialmodellen, der opstår, når vi holder n=138 fast, svarer dette
til hypotesen
πi=eβz1+eβz2+eβz3eβzi,i=1,2,3,β∈R.
Den bedste værdi af β til beskrivelse af data er
β^=−1.865.
Lav, i multinomialmodellen, et test af denne hypotese.