I denne uges øvelse skal I blive fortrolige med multinomialfordelte data og
test af hypoteser om sandsynlighedsparametrene.
Specielt skal I se metoden brugt til at lave goodness of fit test.
Til sidst skal I sammenligne data fra flere multinomialfordelinger.
I et eksperiment er der dannet CdSe nanostrukturer på en overflade
belagt med guld. Nanostrukturerne er delt op i tre kategorier
nanosaws, nanowires og nanobelts.
Efter dannelsen kategoriseres 180 strukturer ud fra et
scanning elektronmikroskopi-billede. Resultatet fremgår af følgende
tabel (data fra
Statistical Modeling and Analysis for Robust Synthesis of Nanostructures).
Opstil en statistisk model for data, og angiv med modellen
parametre hypotesen, at der er samme sandsynlighed for dannelsen af
de tre forskellige nanostrukturer.
Lav et test for hypotesen om samme sandsynlighed for
dannelsen af de tre strukturer.
Denne opgave vedrører det samme eksperiment som i opgave
1.7.
I stedet for at se på hvor mange molekyler der kommer i et tidsrum,
ser vi på tiden, der går mellem to ankomster. Blandt
234 ventetider er der 87, der ligger mellem 0 og 1 sekund, 72
mellem 1 og 2 sekunder, 33 mellem 2 og 3 sekunder, 21 mellem
3 og 4 sekunder og 21, der er over 4 sekunder (disse data er
en grov aflæsning fra figur 3 i artikel, der henvises til i opgave
1.7).
Hvis molekylerne kommer tilfældigt i tid, forventer vi, at ventetiden mellem
2 molekyler følger en såkaldt eksponentialfordeling.
Dette har som konsekvens, at sandsynlighederne for, at en ventetid falder
i et af intervallerne brugt ovenfor, kan skrives på
samme form som i eksempel 3.2.1.
Fortolkningen er som følger. Hvis er sandsynligheden for en
ankomst i et tidsinterval af længde 1 sekund, kan for eksempel
sandsynligheden for en ventetid mellem 3 og 4 sekunder skrives som
Dette skal tolkes som sandsynligheden for
ingen ankomst i 0-1, ganget med sandsynligheden for ingen
ankomst i 1-2, ganget med sandsynligheden for ingen
ankomst i 2-3, og ganget med sandsynlighed for ankomst i intervallet
3-4. Hvis et skøn over findes som beskrevet i afsnit 3.3,
baseret på antallene i ovenstående tabel, får man
Opstil en statistisk model for data, og angiv med modellens
parametre hypotesen om tilfældig ankomst som beskrevet ovenfor.
Lav et test for hypotesen om tilfældig ankomst (angiv resultat i
bogen, der bruges til testet, angiv om betingelse for at bruge -test
er opfyldt, og forklar antallet af frihedsgrader i den -fordeling
der bruges).
Data i denne opgave tager udgangspunkt i forsøg med
bakterieceller, hvor man ofte har behov
for at tælle, hvor mange af
disse man har i en given opløsning. Dette gøres ved at udtage en
mindre del af opløsningen og tage billede af denne i et mikroskop, hvor
bakterierne så kan tælles. Et eksempel på et sådant billede er vist
nedenfor, hvor de små sorte områder er
enkelte
E. coli
bakterier. De store områder i midten af billedet er
hver på og her inden for tælles antallet
af bakterier.
For at sikre konsistens
tælles en bakteriecelle, der ligger ind over en kant, kun med hvis det er
den venstre eller den øverste kant, der berøres.
I filen CelleData.txt ligger
data fra optælling fra
14 sådanne billeder, hver med 16 områder. Data er indsamlet
med henblik på opgaven her og stillet til rådighed af
Morten Bormann Nielsen.
Læs de 224 kvadrattællinger ind i en vektor
nColi (se indlæsningskommandoer i afsnit
1.6). Lav et antalshistogram af data med intervalendepunkter
givet ved vektoren
Indsæt titler på akserne i figuren. Beregn antallene af observationer i de 9
intervaller med endepunkter i endePkt (svaret er
gengivet i tabel nedenfor).
Opstil en statistisk model for de stokastiske variable
svarende til observerede antal
Det antages ofte, at tælletal af typen i denne opgave er poissonfordelte
(tælletallene her er de 224 tal svarende til antallet af bakterier
i de 224 kvadrater). Opskriv, i modellen fra foregående spørgsmål,
hypotesen om, at de underliggende 224 tælletal er udfald
fra en poissonfordeling med parameter
Hvis et skøn over findes som beskrevet i afsnit 3.3,
baseret på antallene får man
De forventede værdier i de 9 kasser (intervaller) kan ses i følgende tabel.
Beregn det forventede antal i kasse 6 med fire decimaler.
Udfør -testet for hypotesen om, at tælletallene kan
beskrives med en poissonfordeling (hypotesen om, at
antal bakterier i et kvadrat er poissonfordelt).
Hvad bliver konklusionen af dit goodness of fit test ?
Kan du komme med en formodning om, hvad der ligger bag ved resultatet ?
Konklusionen af ovenstående analyse er, at poissonfordelingen ikke er
en særlig god beskrivelse af data. Man kan indse, at de 224 tællingerne
viser større spredning, end hvad man forventer i en poissonfordeling.
Fortolkningen af dette er, at bakterierne ikke er tilfældigt spredt ud
over området, nogle områder har større intensitet af bakterier end
andre områder (bakterierne klumper).
I dambrug kan vandet indeholde smags- og duftforbindelser
(taste and odor compound: TOC), der optages i
fisken og nedsætter dens værdi. Det er omkostningsfyldt at analysere
en fisk både ved en kemisk analyse og ved sensorisk måling (vurdering af
et smagspanel). Omvendt er det nemmere at analysere vandet i dambruget,
og det er derfor af interesse, om der er en klar forbindelse mellem
indholdet af TOC i vandet og fiskens tilstand.
Tabellen nedenfor viser resultatet af en sensorisk analyse for
fisk fra dambrug med forskelligt indhold af geosmin
(organisk forbindelse med en jordlugt) i vandet.
Smagspanelet vurderer
fisken på en såkaldt muddy-skala, og i tabellen er angivet antallet af
fisk under og over 3 på denne skala.
Der er undersøgt 50 fisk fra dambrug med et lavt indhold af
geosmin (), 74 fisk fra dambrug med et
middelindhold af geosmin (), og
25 fisk med et højt indhold af geosmin ().
Data stammer fra
Chemical and sensory quantification of geosmin and 2-methylisoborneol in Rainbow Trout (Oncorhynchus mykiss) from Recirculated Aquacultures in Relation to Concentrations in Basin Water..
Her er først en multiple choice opgave. Nedenfor er der 1 eller 2
korrekte svar. Find disse.
Homogenitetshypotesen er ikke relevant her, da der kun er to søjler (to
kategorier for opdeling af data).
For at vurdere om vi har tiltro til homogenitetshypotesen bruges
Resultat 3.7.1.
Homogenitetshypotesen er ikke relevant her, da der er flere end 2
rækker i tabellen.
Hvis der er 2 forventede værdier under 5 bruger vi ikke -testet.
Her følger nu spørgsmål til en analyse af data.
Opstil en statistisk model for tælletallene fra de
tre grupper af dambrug.
Angiv, inden for den opstillede model, hypotesen at der er samme
fordeling på kategorierne Under og Over for de tre grupper af
dambrug.
Undersøg, om data er i overensstemmelse med
hypotesen formuleret i foregående spørgsmål.
Beregn også den alternative teststørrelse
Bliver -værdien fra denne teststørrelse større eller mindre end
-værdien fra foregående spørgsmål ?
I afsnit 1.3 er det nævnt, at selvom en hypotese er sand, så
vil vi i cirka 5 procent af tilfældene få en -værdi mindre end eller
lig med 0.05. Mere generelt gælder der, at når hypotesen er sand, så
vil -værdien, betragtet som stokastisk variabel,
approksimativt fordele sig uniformt over
intervallet fra 0 til 1. Dette skal I grafisk
se på i denne opgave baseret på
simulerede data. I kodevinduet nedenfor simuleres nSim -værdier
i en binomialmodel, og der laves et tæthedshistogram med inddeling
i intervallerne , , , og
Hvis -værdierne fordeler sig uniformt, vil højden af
kasserne i tæthedshistogrammet ligge omkring 1.
Hvilken binomialfordeling simuleres der fra ?
Hvilken hypotese testes ?
Kør koden nogle gange. Er resultaterne som forventet,
specielt for intervallet  ?
Ændr nu det simulerede antal fra 1000 til 100000, og kør koden
nogle gange.
Ændr dernæst til . Kommenter på figuren.
Ændr pHyp=0.7 til
pHyp=0.5, og kør først tilfældet med og dernæst Sandsynligheden for at få en -værdi under 0.05, når hypotesen der
testes ikke er sand, kaldes styrken af testet.
Højden af kassen i histogrammet i intervallet afspejler
styrken, når der testes , og den sande værdi af er 0.70.
Et laboratorie er inddelt i to grupper af medarbejdere. I den første
gruppe er der 12 medarbejdere og i anden gruppe er der 8 medarbejdere.
I løbet af et år er der 39 pipetteglas der er gået i stykker i gruppe
1 og 18 i gruppe 2.
Opstil en poissonmodel til beskrivelse af eksperimentet,
hvor rateparametrene og
for de to grupper angiver det
forventede antal (i et år) per medarbejder.
Opskriv hypotesen, at der ikke er forskel mellem de to grupper.
Lav et test for hypotesen, at der er samme rate i de to grupper
(se Resultat 3.8.1).Hvad bliver konklusionen af dette test ?
Ved at analysere indhold af forskellige duftmolekyler i
en persons udåndingsluft kan man muligvis påvise forskellige sygdomme.
I artiklen
Determination of volatile organic compounds as potential markers of lung cancer by gas chromatography–mass spectrometry versus trained dogs
bruges en gaskoromotograf og et massespektrometer til at analyse
inholdet af duftmolekylerne. I ovenstående artikel sammenlignes
detekteringen af lungekræft ud fra indholdet af duftmolekyler med
en optrænet hunds evne til at reagere på udåndingsluften fra en person.
Ud af 107 personer med lungekræft reagerer hunden ved 95 prøver, og ud
af 121 raske personer reagerer hunden ikke ved 97 prøver. Data er vist
i den følgende tabel.Her er først en multiple choice opgave. Nedenfor er der 1 eller 2
korrekte svar. Find disse.
P-værdien kan ikke beregnes, da den ene af de forventede
værdier er over 5.
Hvis -værdien for test af homogenitet er over 1, har vi tiltro til
hypotesen.
Frihedsgradsantallet for den approksimative -fordeling
for -teststørrelsen for test af homogenitet er .
Hvis -værdien for test af homogenitet er under 1, har vi tiltro til
hypotesen.
Her følger nu spørgsmål til en analyse af data.
Opstil en statistisk model for tælletallene fra de
to grupper af personer (husk, at angive det "Statistisk Model" nummer
der bruges).
Undersøg, om data er i overensstemmelse med
hypotesen om samme sandsynlighed, for at hunden reagerer korrekt
i de to gruppper af personer.
Anvend nu data fra rækken "Samlet" i ovenstående tabel, og lav
et 95%-konfidensinterval for sandsynligheden for, at hunden reagerer korrekt.
I forbindelse med besvarelsen af denne opgave skal du downloade filen
svarAflevering1.txt fra kursushjemmesiden og indsætte nogle tal
fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din
pdf-fil med besvarelsen.I et eksperiment dannes der enten nanosaws eller nanowires
på en overflade belagt med guld. Ud af 180 nanostrukturer der er undersøgt
på overfladen er de 74 nanosaws og de resterende er nanowires
(data fra
Statistical Modeling and Analysis for Robust Synthesis of Nanostructures).Her er først en multiple choice opgave. Nedenfor er der 1 eller 2
korrekte svar. Find disse. Du skal også indskrive svaret
i filen svarAflevering1.txt under "multiple choice" del
De 74 nanosaws er tilfældigt fordelt på guldoverfladen, og er derfor
et udfald fra en poissonfordeling.
Hver af de 180 undersøgte strukturer kan enten være
nanosaws eller nanowires, og de 74 nanosaws er derfor
et udfald fra en binomialfordeling.
For at undersøge hypotesen at der er lige stor sandsynlighed
for at få en nanosaw som en nanowire, bruges resultat 3.7.1
Da 74 er mindre end , forkastes hypotesen,
at sandsynligheden for en nanosaw er .
Hvis -værdien er mindre end , for et test af hypotesen at
sandsynligheden for en nanosaw er , forkastes hypotesen.
Her følger nu spørgsmål til en analyse af data.
Opstil en statistisk model til beskrivelse af
observationen 74 nanosaws. Overfør bogens Statistisk Model nummer
til svarAflevering1.txt.
Undersøg, om data er i overensstemmelse med
hypotesen, at sandsynligheden for en nanosaw er
Overfør -værdien fra dit test, med fire decimaler, til
svarAflevering1.txt.
Lav et 95%-konfidensinterval for sandsynligheden for
en nanosaw. Overfør den øvre grænse i konfidensintervallet,
med fire decimaler,
til svarAflevering1.txt.
I et dosis-respons eksperiment testes effekten af et stof ved
forskellige doser. For hver dosis
testes individer, og
der registreres, at af disse reagerer. Den relevante model er
binomialmodellen (samme som multinomialmodellen med kasser)
hvor er antallet af forskellige doser der testes. Tabellen nedenfor viser resultatet af et eksperiment med
forskellige doser.
Lav for hver dosis et 95%-konfidensinterval for
Oversæt de fundne konfidensintervaller til konfidensintervaller for
parameteren (kaldes log-odds).
Lav en figur, hvor skøn afsættes mod dosis Indsæt i figuren lodrette linjestykker, svarende til
konfidensintervallet for log-odds for hver dosis.
Beskriv den sammenhæng, du ser i figuren mellem log-odds og dosis.
Betragt situation og data som i foregående opgave (opgave 2.9).
Idet binomialmodellen er ækvivalent med multinomialmodellen med kasser
kan vi skrive data som
De forventede i den logistiske dosis-responsmodel er
for
Hvis man fitter den logistiske
dosis-responsmodel til data, bliver skøn over de to parametre
Lav et test for at data kan beskrives med den logistiske
dosis-responsmodel (se afsnit 3.8.1 for metoden).
Antal jordskælv af en given styrke inden for et givet tidsrum og
et givet geografisk område beskrives ofte med en poissonmodel.
I tabellen nedenfor er jordskælv i New Zealand i perioden 1930-2015
(i alt 86 år)
for tre styrkeintervaller på Richterskalaen.
Lav for hvert styrkeinterval et 95%-konfidensinterval for
raten af jordskælv per år.
Oversæt de fundne konfidensintervaller til konfidensintervaller for
logaritmen til raten per år, det vil sige
parameteren
Lav en figur, hvor skøn
afsættes mod midtpunktet af styrkeintervallet. Indsæt i figuren lodrette linjestykker, svarende til
konfidensintervallet for logaritmen til raten for hvert styrkeinterval.
Beskriv den sammenhæng, du ser i figuren mellem
logaritmen til raten og midtpunktet af styrkeintervallet.
Dette er en fortsættelse af opgave 2.12. Det samlede antal jordskælv
i de tre styrkeintervaller er 138. Hvis vi forestiller os, at vi holder
det samlede antal fast på 138, kan vi (og det skal I i denne opgave)
betragte de observerede antal som et udfald fra en
multinomialfordeling med kast af en generel tresidet terning. Hvis er raterne fra opgave 2.12, og er
midtpunktet for det 'te interval, er vi interesseret i at teste en
lineær sammenhæng,
I multinomialmodellen, der opstår, når vi holder fast, svarer dette
til hypotesen
Den bedste værdi af til beskrivelse af data er
Lav, i multinomialmodellen, et test af denne hypotese.