I denne uges øvelse skal I blive fortrolige med multinomialfordelte data og
test af hypoteser om sandsynlighedsparametrene.
Specielt skal I se metoden brugt til at lave goodness of fit test.
Til sidst skal I sammenligne data fra flere multinomialfordelinger.
Data i denne opgave er opdigtede, men repræsenterer et eksperiment I kan
lave i laboratoriet. Fire Geiger-Muller tællere er placeret i samme
afstand fra en kilde. (Kilden består af 137Cs, der henfalder til
137 plus beta-minus plus antineutrino.
Dernæst overgår 137 til grundtilstanden ved udsendelse
af 661.6 keV -kvant. Det er denne, der detekteres i eksperimentet.)
Teorien siger, at raten af hændelser i hver af de fire
tællere er den samme. Betragt et eksperiment, hvor der i de fire tællere
i alt er registreret 508 hændelser.
I skal i opgaven her betragte tallet 508 som fast, og se på hvordan
disse fordeles ud på de fire tællere.
Fordelingen på de fire tællere er vist i følgende tabel.
Opstil en statistisk model for fordelingen af de 508 hændelser på
de fire tællere.
Angiv, med modellens
parametre, hypotesen, at der er samme sandsynlighed for
en hændelse i de fire tællere.
Lav et test for hypotesen om samme sandsynlighed for
en hændelse i de fire tællere.
En anden version af metoden ovenfor kunne være en undersøgelse af,
at raten aftager omvendt proportionalt med kvadratet på afstanden til kilden.
Hvis vi igen har fire detektorer, og disse er i afstandene
fra kilden, vil man teste hypotesen, at sandsynligheden
for at en hændelse rammer den 'te detektor er
Denne opgave vedrører registrering af enkelte molekyler ved hjælp af
en nanopore sensor. I opgaven skal I betragte ventetiden på
ankomst af et molekyle. Data er ventetiden for 261 molekyler
fordelt på intervallerne , , ,
og større end 4 (sekunder). Af de 261 ventetider er der 104
med en værdi mellem 0 og 1,
som vist i tabellen nedenfor.
Data er fundet ved en aflæsning fra figur 3 i
Calibration-Free Nanopore Digital Counting of Single Molecules
(tallet 261 er ikke opgivet, men fundet ved at bruge en opgivet usikkerhed).
I artiklen bruger forfatterne ventetiderne som tjek på, at molekylerne
kommer tilfældigt i tid. Hvis dette er tilfældet,
forventer vi, at ventetiden mellem
2 molekyler følger en såkaldt eksponentialfordeling,
og det er dette, der illustreres i figur 3 i artiklen.
Eksponentialfordelingen er beskrevet ved en parameter således at
sandsynligheden for en ventetid mellem og er
og sandsynligheden for en
ventetid større end er Hvis et skøn over findes som beskrevet i afsnit 3.3,
baseret på antallene i ovenstående tabel, får man
Opstil en statistisk model for data i tabellen ovenfor,
og angiv med modellens
parametre hypotesen om, at ventetiderne kan beskrives med
eksponentialfordelingen.
Lav et test for hypotesen om eksponentialfordelte ventetider
(angiv resultat i
bogen, der bruges til testet, angiv forventede, og angiv
om betingelse for at bruge -test
er opfyldt, og forklar antallet af frihedsgrader i den -fordeling
der bruges).
Hvordan er fordelingen af galakser i rummet ?
For at undersøge dette ser vi på data, hvor man har talt antallet
af galakser i forskellige lige store dele af rummet.
Data i denne opgave er dannet ud fra tabel XIV i artiklen
The distribution of extra-galactic nebulae
af Edwin Hubble fra 1934. Der er 587 tælletal
som kan findes i filen HubbleGalaxyCounts.txt. En naturlig første tanke er, at galakser er uniformt fordelt i rummet,
hvilket fører til, at antallet af galakser i et givet område er
poissonfordelt. Figuren nedenfor viser et tæthedshistogram af
galakseantallene med tætheden for en poissonfordeling tegnet ind.
Raten i poissonfordelingen er valgt til gennemsnittet af de 587 tælletal.
Det ses tydeligt, at poissonfordelingen ikke kan beskrive data,
galakseantallene spreder sig mere, end hvad vi forventer under
en poissonfordeling.
Man bruger ofte ordet overspredning for at beskrive situationen.
En måde at tænke på dette på er, at hvert galakseantal er poissonfordelt,
men raten varierer fra område til område i rummet.
Læs de 587 galakseantal ind i en vektor
nGal (se indlæsningskommandoer i afsnit
1.6). Lav et tæthedshistogram af data med intervalendepunkter
givet ved vektoren
Indsæt titler på akserne i figuren. Beregn antallene af observationer i de 14
intervaller med endepunkter i endePkt (svaret er
gengivet i tabel nedenfor).
Opstil en statistisk model for de stokastiske variable
svarende til de observerede antal
Når tælletal som her viser overspredning, prøver man ofte at beskrive data
med den
negative binomialfordeling.
Denne fordeling har to parametre, en sandsynlighedsparameter og
en formparameter og er givet ved
hvor brøken er lig med 1 når
I python udregnes fordelingsfunktionen
(sandsynlighden for en værdi mindre end
eller lig med ) med kommandoen st.nbinom.cdf(x,kappa,p).Opskriv, i modellen fra foregående spørgsmål,
hypotesen om, at de underliggende 587 tælletal er udfald
fra en negativ binomialfordeling med parametre og
Hvis et skøn over findes som beskrevet i
afsnit 3.3,
baseret på antallene får man
og
De forventede værdier i de 14 intervaller kan ses i følgende tabel.
Beregn det forventede antal i intervallet fra og med 101 til og med 110
med fire decimaler. Indtegn i dit tæthedshistogram kurven
hvor løber fra 1 til 300. Udfør -testet for hypotesen om, at tælletallene kan
beskrives med en negativ binomialfordeling (hypotesen om, at
antal galakser i et område er negativ binomialfordelt).
De forventede antal er skrevet ind i kodevinduet nedenfor, hvorfra
du kan kopiere dem over i dit eget pythonprogram.
Din konklusion fra foregående spørgsmål skulle gerne være, at selvom
den negative binomialfordeling fanger det meste af variationen i data,
er der stadig (mindre) afvigelser mellem de observerede og forventede. Et alternativ til den negative binomialfordeling er
poisson-inversgauss fordelingen. Denne fordeling har også to
parametre, men jeg vil ikke gå ind på detaljerne her.
følgende tabel viser de forventede under denne model.
Synes I, at poisson-inversgauss fordelingen giver et godt fit til
galakseantallene ?
Denne opgave kan ses som en fortsættelse af opgave 2.3 ovenfor. Vi
betragter de 587 galakseantal fra opgave 2.3 og ønsker at sammenligne
fordelingen af disse med fordelingen af 331 ekstra galakseantal
(også fra tabel XIV i Hubbles artikel). Den følgende tabel viser
data delt op på 8 intervaller.
Her er først en multiple choice opgave. Nedenfor er der 1 eller 2
korrekte svar. Find disse.
Homogenitetshypotesen er ikke relevant her, da der kun er to rækker
i tabellen.
For at vurdere om vi har tiltro til homogenitetshypotesen bruges
Resultat 3.7.1.
Homogenitetshypotesen er ikke relevant her, da der er flere end 2
søjler i tabellen.
Hvis der er 2 forventede værdier under 5 bruger vi ikke -testet.
Her følger nu spørgsmål til en analyse af data.
Opstil en statistisk model for tælletallene fra de
to undersøgelser.
Angiv, inden for den opstillede model, hypotesen at der er samme
fordeling på de 8 intervaller for de to undersøgelser.
Undersøg, om data er i overensstemmelse med
hypotesen formuleret i foregående spørgsmål.
Beregn også den alternative teststørrelse
Bliver -værdien fra denne teststørrelse større eller mindre end
-værdien fra foregående spørgsmål ?
I afsnit 1.3 er det nævnt, at selvom en hypotese er sand, så
vil vi i cirka 5 procent af tilfældene få en -værdi mindre end eller
lig med 0.05. Mere generelt gælder der, at når hypotesen er sand, så
vil -værdien, betragtet som stokastisk variabel,
approksimativt fordele sig uniformt over
intervallet fra 0 til 1. Dette skal I grafisk
se på i denne opgave baseret på
simulerede data. I kodevinduet nedenfor simuleres nSim -værdier
i en binomialmodel, og der laves et tæthedshistogram med inddeling
i intervallerne , , , og
Hvis -værdierne fordeler sig uniformt, vil højden af
kasserne i tæthedshistogrammet ligge omkring 1.
Hvilken binomialfordeling simuleres der fra ?
Hvilken hypotese testes ?
Kør koden nogle gange. Er resultaterne som forventet,
specielt for intervallet  ?
Ændr nu det simulerede antal fra 1000 til 100000, og kør koden
nogle gange.
Ændr dernæst til . Kommenter på figuren.
Ændr pHyp=0.7 til
pHyp=0.5, og kør først tilfældet med og dernæst Sandsynligheden for at få en -værdi under 0.05, når hypotesen der
testes ikke er sand, kaldes styrken af testet.
Højden af kassen i histogrammet i intervallet afspejler
styrken, når der testes , og den sande værdi af er 0.70.
Ved analyse af
low count gamma spectra
kan vi være interesseret i at teste for forekomst af signal i et
givet område ud over respons fra baggrund. Situationen er
illustreret i følgende figur med data fra opgave 1.7
omkring måling af
Higgs boson (se reference i opgave 1.7). Figuren viser
tælletallene for 44 kanaler, hvor kanalnumre 11 til 21 er området
hvor signal forventes. En skaleret normalforelingstæthed (gaussklokke)
er lagt ind i det forventede signalområde, og den vandrette linje giver
gennemsnit for tælletallene i baggrunden (udenfor signalområdet).
I denne opgave skal I overveje forekomst af signal ved blot at se på
det samlede tælletal i baggrundsområdet og i området, hvor
vi forventer et signal.
Det forventede signalområde er kanalnumre fra og med 11 til og
med 21 ( kanaler), og
baggrundsområdet er kanalnumre 1 til 10 og 22 til 44 ( kanaler).
Data til dannelse af ovenstående figur kan I se i
kodevinduet i opgave 1.7. Det samlede tælletal
for baggrundsområdet og for signalområdet er givet i den
følgende tabel.
Lad og være de stokastiske variable svarende til
de samlede tælletal i baggrundsområdet og i signalområdet.
Opskriv en statistisk model for disse med parametrene
og som er raterne per kanal i de to områder.
Opskriv hypotesen, at der ikke er ikke er noget signal, svarende til
at i signalområdet måles der kun respons fra baggrund.Lav et test for denne hypotese under brug af Resultat 3.8.1
med og med
.
Lav et 95%-konfidensinterval for forholdet
under brug af resultatet sidst i underafsnit 3.8.3.
Du skal først lave et konfidensinterval i binomialmodellen med observationen
og med antalsværdien Dernæst skal du transformere dette
til et konfidensinterval for ved brug af formlen sidst i
underafsnit 3.8.3, hvor og . Tror du på, at der er en top i spektret omkring kanal 16 ?
Vi vender tilbage til eksperimentet og data i opgave 1.5.
Eksperimentet indeholder
fire dele, og I skal i denne opgave se på, om de fire dele peger på den samme
sandsynlighed for den hændelse (tilstand), der betragtes.
Følgende tabel gengiver data.
Opstil en statistisk model for tælletallene fra de
fire eksperimentdele (husk, at angive "Statistisk Model" nummer).
Undersøg, om data er i overensstemmelse med
hypotesen om samme sandsynlighed for hændelsen (tilstand) i de fire dele
af eksperimentet.
Når I forkastede hypotesen om samme sandsynlighed i foregående spørgsmål,
skyldes det de to store antal gentagelser i deleksperimenterne 2 og 3, og
at den underliggende sandsynlighed i deleksperiment 2 ser ud til at
være cirka dobbelt så stor som i deleksperiment 3. Prøv at lave homogenitetstestet
ovenfor kun for deleksperimenterne 1, 2 og 4.
Det samlede antal observerede hændelser i deleksperimenterne 1, 2 og 4 er
126, og det tilhørende samlede antal gentagelser er 11518.
Prøv at lave et test for
hypotesen, at sandsynligheden for en hændelse i disse tre eksperimenter er
I opgave 1.5 blev du spurgt om din mavefornemmelse
i forhold til konklusionen af eksperimentet. Hvordan er din
mavefornemmelse nu ?
Her er til sidst en multiple choice opgave. Nedenfor er der 1 eller 2
korrekte svar. Find disse.
P-værdien kan ikke beregnes, da den ene af de forventede
værdier er over 5.
Hvis -værdien for test af homogenitet er over 1, har vi tiltro til
hypotesen.
Frihedsgradsantallet for den approksimative -fordeling
for -teststørrelsen for test af homogenitet er .
Hvis -værdien for test af homogenitet er under 1, har vi tiltro til
hypotesen.
I forbindelse med besvarelsen af denne opgave skal du downloade filen
svarAflevering1.txt fra kursushjemmesiden og indsætte nogle tal
fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din
pdf-fil med besvarelsen.I artiklen Statistical Modeling and Analysis for Robust Synthesis of Nanostructures)
beskrives et eksperiment hvor fremkomsten af tre nanostrukturer
(nanosaws, nanowires og nanobelts) studeres. For hver deleksperiment
betragtes 180 områder og disse klassificeres som en af de tre strukturer
(eller ingen struktur). I artiklen ønsker man at modellere sandsynligheden
for hver af de tre strukturer som funktion af tre kontrolvariable:
temperatur, tryk og afstand mellem kilde og substrat hvor strukturerne dannes.
Hvis vi for eksempel betragter antallet af nanosaws ønsker forfatterne at
beskrive en observation som udfald fra en binomialfordeling med antalværdi
180 og en sansynlighedsparameter Den fittede funktion
forfatterne finder har værdien for en
temperatur på 750, tryk på 200 og afstand på 16.4. I skal i opgaven her se at ovenstående skitserede model ikke kan fange
al den variation der findes i data. Nedenstående tabel viser data fra to
deleksperimenter der begge har værdierne af temperatur, tryk og afstand
som nævnt ovenfor.
Opstil en statistisk model til beskrivelse af
deleksperiment 1. Overfør bogens Statistisk Model nummer
til svarAflevering1.txt.
Undersøg, om data er i overensstemmelse med
hypotesen, at sandsynligheden for en nanosaw
i deleksperiment 1 er
Overfør -værdien fra dit test, med tre decimaler, til
svarAflevering1.txt.
Betragt nu deleksperiment 2 og lav
et 95%-konfidensinterval for sandsynligheden for
en nanosaw. Overfør den øvre grænse i konfidensintervallet,
med tre decimaler,
til svarAflevering1.txt.
Det er klart fra beregningerne ovenfor at de to deleksperimenter
ikke har den samme sandsynlighed for dannelsen af nanosaws.
Vi må tolke det på den måde, at temperatur, tryk og afstand ikke
fastlægger sandsynligheden, men at denne kan variere stokastisk
for givne kontrolvariable (et endnu værre eksempel er med
temperatur=750, tryk=4 og afstand=16.4, hvor der er tre deleksperimenter
med observationerne 180, 130 og 43 (og forfatternes model giver
et forventet antal på 16)).Til sidst følger her en multiple choice opgave. Nedenfor er der 1 eller 2
korrekte svar. Find disse. Du skal også indskrive svaret
i filen svarAflevering1.txt under "multiple choice" del
De 92 nanosaws er tilfældigt fordelt på overfladen af substrat,
og er derfor
et udfald fra en poissonfordeling.
Hver af de 180 undersøgte strukturer kan enten være
nanosaws eller noget andet, og de 92 nanosaws er derfor
et udfald fra en binomialfordeling.
For at undersøge hypotesen at der er lige stor sandsynlighed
for at få en nanosaw som at få noget andet, bruges resultat 3.7.1
Da 92 er større end , forkastes hypotesen,
at sandsynligheden for en nanosaw er .
Hvis -værdien er mindre end , for et test af hypotesen at
sandsynligheden for en nanosaw er , forkastes hypotesen.
I et dosis-respons eksperiment testes effekten af et stof ved
forskellige doser (her skal dosis forstås bredt:
temperatur, tryk, koncentration etc.). For hver dosis
testes individer, og
der registreres, at af disse reagerer. Den relevante model er
binomialmodellen (samme som multinomialmodellen med kasser)
hvor er antallet af forskellige doser der testes. Tabellen nedenfor viser resultatet af et eksperiment med
forskellige doser.
Lav for hver dosis et 95%-konfidensinterval for
Oversæt de fundne konfidensintervaller til konfidensintervaller for
parameteren (kaldes log-odds).
Lav en figur, hvor skøn afsættes mod dosis Indsæt i figuren lodrette linjestykker, svarende til
konfidensintervallet for log-odds for hver dosis.
Beskriv den sammenhæng, du ser i figuren mellem log-odds og dosis.
Betragt situation og data som i foregående opgave (opgave 2.9).
Idet binomialmodellen er ækvivalent med multinomialmodellen med kasser
kan vi skrive data som
De forventede i den logistiske dosis-responsmodel er
for
Hvis man fitter den logistiske
dosis-responsmodel til data, bliver skøn over de to parametre
Lav et test for, at data kan beskrives med den logistiske
dosis-responsmodel (se afsnit 3.8.1 for metoden).
Antal jordskælv af en given styrke inden for et givet tidsrum og
et givet geografisk område beskrives ofte med en poissonmodel.
I tabellen nedenfor er jordskælv i New Zealand i perioden 1930-2015
(i alt 86 år)
for tre styrkeintervaller på Richterskalaen.
Lav for hvert styrkeinterval et 95%-konfidensinterval for
raten af jordskælv per år.
Oversæt de fundne konfidensintervaller til konfidensintervaller for
logaritmen til raten per år, det vil sige
parameteren
Lav en figur, hvor skøn
afsættes mod midtpunktet af styrkeintervallet. Indsæt i figuren lodrette linjestykker, svarende til
konfidensintervallet for logaritmen til raten for hvert styrkeinterval.
Beskriv den sammenhæng, du ser i figuren mellem
logaritmen til raten og midtpunktet af styrkeintervallet.
Dette er en fortsættelse af opgave 2.12. Det samlede antal jordskælv
i de tre styrkeintervaller er 138. Hvis vi forestiller os, at vi holder
det samlede antal fast på 138, kan vi (og det skal I i denne opgave)
betragte de observerede antal som et udfald fra en
multinomialfordeling med kast af en generel tresidet terning. Hvis er raterne fra opgave 2.12, og er
midtpunktet for det 'te interval, er vi interesseret i at teste en
lineær sammenhæng,
I multinomialmodellen, der opstår, når vi holder fast, svarer dette
til hypotesen
Den bedste værdi af til beskrivelse af data er
Lav, i multinomialmodellen, et test af denne hypotese.