Afsnit 3.9: Øvelse 2

I denne uges øvelse skal I blive fortrolige med multinomialfordelte data og test af hypoteser om sandsynlighedsparametrene. Specielt skal I se metoden brugt til at lave goodness of fit test. Til sidst skal I sammenligne data fra flere multinomialfordelinger.

Opgave 2.1: Teste uniform fordeling

Data i denne opgave er opdigtede, men repræsenterer et eksperiment I kan lave i laboratoriet. Fire Geiger-Muller tællere er placeret i samme afstand fra en kilde. (Kilden består af 137Cs, der henfalder til 137 plus beta-minus plus antineutrino. Dernæst overgår 137 til grundtilstanden ved udsendelse af 661.6 keV -kvant. Det er denne, der detekteres i eksperimentet.) Teorien siger, at raten af hændelser i hver af de fire tællere er den samme. Betragt et eksperiment, hvor der i de fire tællere i alt er registreret 508 hændelser. I skal i opgaven her betragte tallet 508 som fast, og se på hvordan disse fordeles ud på de fire tællere. Fordelingen på de fire tællere er vist i følgende tabel.
  1. Opstil en statistisk model for fordelingen af de 508 hændelser på de fire tællere. Angiv, med modellens parametre, hypotesen, at der er samme sandsynlighed for en hændelse i de fire tællere.
  2. Lav et test for hypotesen om samme sandsynlighed for en hændelse i de fire tællere.
En anden version af metoden ovenfor kunne være en undersøgelse af, at raten aftager omvendt proportionalt med kvadratet på afstanden til kilden. Hvis vi igen har fire detektorer, og disse er i afstandene fra kilden, vil man teste hypotesen, at sandsynligheden for at en hændelse rammer den 'te detektor er

Opgave 2.2: G-test med en parameter

Denne opgave vedrører registrering af enkelte molekyler ved hjælp af en nanopore sensor. I opgaven skal I betragte ventetiden på ankomst af et molekyle. Data er ventetiden for 261 molekyler fordelt på intervallerne , , , og større end 4 (sekunder). Af de 261 ventetider er der 104 med en værdi mellem 0 og 1, som vist i tabellen nedenfor. Data er fundet ved en aflæsning fra figur 3 i Calibration-Free Nanopore Digital Counting of Single Molecules (tallet 261 er ikke opgivet, men fundet ved at bruge en opgivet usikkerhed).
I artiklen bruger forfatterne ventetiderne som tjek på, at molekylerne kommer tilfældigt i tid. Hvis dette er tilfældet, forventer vi, at ventetiden mellem 2 molekyler følger en såkaldt eksponentialfordeling, og det er dette, der illustreres i figur 3 i artiklen. Eksponentialfordelingen er beskrevet ved en parameter således at sandsynligheden for en ventetid mellem og er og sandsynligheden for en ventetid større end er
Hvis et skøn over findes som beskrevet i afsnit 3.3, baseret på antallene i ovenstående tabel, får man
  1. Opstil en statistisk model for data i tabellen ovenfor, og angiv med modellens parametre hypotesen om, at ventetiderne kan beskrives med eksponentialfordelingen.
  2. Lav et test for hypotesen om eksponentialfordelte ventetider (angiv resultat i bogen, der bruges til testet, angiv forventede, og angiv om betingelse for at bruge -test er opfyldt, og forklar antallet af frihedsgrader i den -fordeling der bruges).

Opgave 2.3: Goodness of fit, poissonfordeling

Hvordan er fordelingen af galakser i rummet? For at undersøge dette ser vi på data, hvor man har talt antallet af galakser i forskellige lige store dele af rummet. Data i denne opgave er dannet ud fra tabel XIV i artiklen The distribution of extra-galactic nebulae af Edwin Hubble fra 1934. Der er 587 tælletal som kan findes i filen HubbleGalaxyCounts.txt.
En naturlig første tanke er, at galakser er uniformt fordelt i rummet, hvilket fører til, at antallet af galakser i et givet område er poissonfordelt. Figuren nedenfor viser et tæthedshistogram af galakseantallene med tætheden for en poissonfordeling tegnet ind. Raten i poissonfordelingen er valgt til gennemsnittet af de 587 tælletal. Det ses tydeligt, at poissonfordelingen ikke kan beskrive data, galakseantallene spreder sig mere, end hvad vi forventer under en poissonfordeling. Man bruger ofte ordet overspredning for at beskrive situationen. En måde at tænke på dette på er, at hvert galakseantal er poissonfordelt, men raten varierer fra område til område i rummet.
  1. Læs de 587 galakseantal ind i en vektor nGal (se indlæsningskommandoer i afsnit 1.6).
    Lav et tæthedshistogram af data med intervalendepunkter givet ved vektoren
    endePkt=np.array([0,40,50,60,70,80,90,100,110,120,130,140,150,160,310])+0.5
    Indsæt titler på akserne i figuren.
    Beregn antallene af observationer i de 14 intervaller med endepunkter i endePkt (svaret er gengivet i tabel nedenfor).
  2. Opstil en statistisk model for de stokastiske variable svarende til de observerede antal
  3. Når tælletal som her viser overspredning, prøver man ofte at beskrive data med den negative binomialfordeling. Denne fordeling har to parametre, en sandsynlighedsparameter og en formparameter og er givet ved
    hvor brøken er lig med 1 når I python udregnes fordelingsfunktionen (sandsynlighden for en værdi mindre end eller lig med ) med kommandoen st.nbinom.cdf(x,kappa,p).
    Opskriv, i modellen fra foregående spørgsmål, hypotesen om, at de underliggende 587 tælletal er udfald fra en negativ binomialfordeling med parametre og
  4. Hvis et skøn over findes som beskrevet i afsnit 3.3, baseret på antallene får man og De forventede værdier i de 14 intervaller kan ses i følgende tabel.
    Beregn det forventede antal i intervallet fra og med 101 til og med 110 med fire decimaler.
    Indtegn i dit tæthedshistogram kurven hvor løber fra 1 til 300.
    Udfør -testet for hypotesen om, at tælletallene kan beskrives med en negativ binomialfordeling (hypotesen om, at antal galakser i et område er negativ binomialfordelt). De forventede antal er skrevet ind i kodevinduet nedenfor, hvorfra du kan kopiere dem over i dit eget pythonprogram.
  5. Din konklusion fra foregående spørgsmål skulle gerne være, at selvom den negative binomialfordeling fanger det meste af variationen i data, er der stadig (mindre) afvigelser mellem de observerede og forventede.
    Et alternativ til den negative binomialfordeling er poisson-inversgauss fordelingen. Denne fordeling har også to parametre, men jeg vil ikke gå ind på detaljerne her. følgende tabel viser de forventede under denne model.
    Synes I, at poisson-inversgauss fordelingen giver et godt fit til galakseantallene?

Opgave 2.4: Homogenitetstest: galakseantal

Denne opgave kan ses som en fortsættelse af opgave 2.3 ovenfor. Vi betragter de 587 galakseantal fra opgave 2.3 og ønsker at sammenligne fordelingen af disse med fordelingen af 331 ekstra galakseantal (også fra tabel XIV i Hubbles artikel). Den følgende tabel viser data delt op på 8 intervaller.
Her er først en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse.
  1. Homogenitetshypotesen er ikke relevant her, da der kun er to rækker i tabellen.
  2. For at vurdere om vi har tiltro til homogenitetshypotesen bruges Resultat 3.7.1.
  3. Homogenitetshypotesen er ikke relevant her, da der er flere end 2 søjler i tabellen.
  4. Hvis der er 2 forventede værdier under 5 bruger vi ikke -testet.
Her følger nu spørgsmål til en analyse af data.
  1. Opstil en statistisk model for tælletallene fra de to undersøgelser.
  2. Angiv, inden for den opstillede model, hypotesen at der er samme fordeling på de 8 intervaller for de to undersøgelser.
  3. Undersøg, om data er i overensstemmelse med hypotesen formuleret i foregående spørgsmål.
  4. Beregn også den alternative teststørrelse Bliver -værdien fra denne teststørrelse større eller mindre end -værdien fra foregående spørgsmål?

Opgave 2.5: Uniform fordeling af p-værdier

I afsnit 1.3 er det nævnt, at selvom en hypotese er sand, så vil vi i cirka 5 procent af tilfældene få en -værdi mindre end eller lig med 0.05. Mere generelt gælder der, at når hypotesen er sand, så vil -værdien, betragtet som stokastisk variabel, approksimativt fordele sig uniformt over intervallet fra 0 til 1. Dette skal I grafisk se på i denne opgave baseret på simulerede data. I kodevinduet nedenfor simuleres nSim -værdier i en binomialmodel, og der laves et tæthedshistogram med inddeling i intervallerne , , , og Hvis -værdierne fordeler sig uniformt, vil højden af kasserne i tæthedshistogrammet ligge omkring 1.
  1. Hvilken binomialfordeling simuleres der fra? Hvilken hypotese testes?
  2. Kør koden nogle gange. Er resultaterne som forventet, specielt for intervallet ?
  3. Ændr nu det simulerede antal fra 1000 til 100000, og kør koden nogle gange.
  4. Ændr dernæst til . Kommenter på figuren.
  5. Ændr pHyp=0.7 til pHyp=0.5, og kør først tilfældet med og dernæst
    Sandsynligheden for at få en -værdi under 0.05, når hypotesen der testes ikke er sand, kaldes styrken af testet. Højden af kassen i histogrammet i intervallet afspejler styrken, når der testes , og den sande værdi af er 0.70.

Opgave 2.6: Sammenligne to poissonrater

Ved analyse af low count gamma spectra kan vi være interesseret i at teste for forekomst af signal i et givet område ud over respons fra baggrund. Situationen er illustreret i følgende figur med data fra opgave 1.7 omkring måling af Higgs boson (se reference i opgave 1.7). Figuren viser tælletallene for 44 kanaler, hvor kanalnumre 11 til 21 er området hvor signal forventes. En skaleret normalforelingstæthed (gaussklokke) er lagt ind i det forventede signalområde, og den vandrette linje giver gennemsnit for tælletallene i baggrunden (udenfor signalområdet).
I denne opgave skal I overveje forekomst af signal ved blot at se på det samlede tælletal i baggrundsområdet og i området, hvor vi forventer et signal. Det forventede signalområde er kanalnumre fra og med 11 til og med 21 ( kanaler), og baggrundsområdet er kanalnumre 1 til 10 og 22 til 44 ( kanaler). Data til dannelse af ovenstående figur kan I se i kodevinduet i opgave 1.7. Det samlede tælletal for baggrundsområdet og for signalområdet er givet i den følgende tabel.
  1. Lad og være de stokastiske variable svarende til de samlede tælletal i baggrundsområdet og i signalområdet. Opskriv en statistisk model for disse med parametrene og som er raterne per kanal i de to områder.
  2. Opskriv hypotesen, at der ikke er ikke er noget signal, svarende til at i signalområdet måles der kun respons fra baggrund.
    Lav et test for denne hypotese under brug af Resultat 3.8.1 med og med .
  3. Lav et 95%-konfidensinterval for forholdet under brug af resultatet sidst i underafsnit 3.8.3. Du skal først lave et konfidensinterval i binomialmodellen med observationen og med antalsværdien Dernæst skal du transformere dette til et konfidensinterval for ved brug af formlen sidst i underafsnit 3.8.3, hvor og .
    Tror du på, at der er en top i spektret omkring kanal 16?

Opgave 2.7: Homogenitetstest: Quantum-test

Vi vender tilbage til eksperimentet og data i opgave 1.5. Eksperimentet indeholder fire dele, og I skal i denne opgave se på, om de fire dele peger på den samme sandsynlighed for den hændelse (tilstand), der betragtes. Følgende tabel gengiver data.
  1. Opstil en statistisk model for tælletallene fra de fire eksperimentdele (husk, at angive "Statistisk Model" nummer).
  2. Undersøg, om data er i overensstemmelse med hypotesen om samme sandsynlighed for hændelsen (tilstand) i de fire dele af eksperimentet.
  3. Når I forkastede hypotesen om samme sandsynlighed i foregående spørgsmål, skyldes det de to store antal gentagelser i deleksperimenterne 2 og 3, og at den underliggende sandsynlighed i deleksperiment 2 ser ud til at være cirka dobbelt så stor som i deleksperiment 3. Prøv at lave homogenitetstestet ovenfor kun for deleksperimenterne 1, 2 og 4.
  4. Det samlede antal observerede hændelser i deleksperimenterne 1, 2 og 4 er 126, og det tilhørende samlede antal gentagelser er 11518. Prøv at lave et test for hypotesen, at sandsynligheden for en hændelse i disse tre eksperimenter er
    I opgave 1.5 blev du spurgt om din mavefornemmelse i forhold til konklusionen af eksperimentet. Hvordan er din mavefornemmelse nu?
Her er til sidst en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse.
  1. P-værdien kan ikke beregnes, da den ene af de forventede værdier er over 5.
  2. Hvis -værdien for test af homogenitet er over 1, har vi tiltro til hypotesen.
  3. Frihedsgradsantallet for den approksimative -fordeling for -teststørrelsen for test af homogenitet er .
  4. Hvis -værdien for test af homogenitet er under 1, har vi tiltro til hypotesen.

Opgave 2.8: Afleveringsopgave 1

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering1.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.
I artiklen Statistical Modeling and Analysis for Robust Synthesis of Nanostructures) beskrives et eksperiment hvor fremkomsten af tre nanostrukturer (nanosaws, nanowires og nanobelts) studeres. For hver deleksperiment betragtes 180 områder og disse klassificeres som en af de tre strukturer (eller ingen struktur). I artiklen ønsker man at modellere sandsynligheden for hver af de tre strukturer som funktion af tre kontrolvariable: temperatur, tryk og afstand mellem kilde og substrat hvor strukturerne dannes. Hvis vi for eksempel betragter antallet af nanosaws ønsker forfatterne at beskrive en observation som udfald fra en binomialfordeling med antalværdi 180 og en sansynlighedsparameter Den fittede funktion forfatterne finder har værdien for en temperatur på 750, tryk på 200 og afstand på 16.4.
I skal i opgaven her se at ovenstående skitserede model ikke kan fange al den variation der findes i data. Nedenstående tabel viser data fra to deleksperimenter der begge har værdierne af temperatur, tryk og afstand som nævnt ovenfor.
  1. Opstil en statistisk model til beskrivelse af deleksperiment 1. Overfør bogens Statistisk Model nummer til svarAflevering1.txt.
  2. Undersøg, om data er i overensstemmelse med hypotesen, at sandsynligheden for en nanosaw i deleksperiment 1 er Overfør -værdien fra dit test, med tre decimaler, til svarAflevering1.txt.
  3. Betragt nu deleksperiment 2 og lav et 95%-konfidensinterval for sandsynligheden for en nanosaw. Overfør den øvre grænse i konfidensintervallet, med tre decimaler, til svarAflevering1.txt.
Det er klart fra beregningerne ovenfor at de to deleksperimenter ikke har den samme sandsynlighed for dannelsen af nanosaws. Vi må tolke det på den måde, at temperatur, tryk og afstand ikke fastlægger sandsynligheden, men at denne kan variere stokastisk for givne kontrolvariable (et endnu værre eksempel er med temperatur=750, tryk=4 og afstand=16.4, hvor der er tre deleksperimenter med observationerne 180, 130 og 43 (og forfatternes model giver et forventet antal på 16)).
Til sidst følger her en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse. Du skal også indskrive svaret i filen svarAflevering1.txt under "multiple choice" del
  1. De 92 nanosaws er tilfældigt fordelt på overfladen af substrat, og er derfor et udfald fra en poissonfordeling.
  2. Hver af de 180 undersøgte strukturer kan enten være nanosaws eller noget andet, og de 92 nanosaws er derfor et udfald fra en binomialfordeling.
  3. For at undersøge hypotesen at der er lige stor sandsynlighed for at få en nanosaw som at få noget andet, bruges resultat 3.7.1
  4. Da 92 er større end , forkastes hypotesen, at sandsynligheden for en nanosaw er .
  5. Hvis -værdien er mindre end , for et test af hypotesen at sandsynligheden for en nanosaw er , forkastes hypotesen.

Opgave 2.9: Dosis-respons, figur

I et dosis-respons eksperiment testes effekten af et stof ved forskellige doser (her skal dosis forstås bredt: temperatur, tryk, koncentration etc.). For hver dosis testes individer, og der registreres, at af disse reagerer. Den relevante model er binomialmodellen (samme som multinomialmodellen med kasser)
hvor er antallet af forskellige doser der testes.
Tabellen nedenfor viser resultatet af et eksperiment med forskellige doser.
  1. Lav for hver dosis et 95%-konfidensinterval for
  2. Oversæt de fundne konfidensintervaller til konfidensintervaller for parameteren (kaldes log-odds).
  3. Lav en figur, hvor skøn afsættes mod dosis
    Indsæt i figuren lodrette linjestykker, svarende til konfidensintervallet for log-odds for hver dosis.
  4. Beskriv den sammenhæng, du ser i figuren mellem log-odds og dosis.

Opgave 2.10: Dosis-respons, test

Betragt situation og data som i foregående opgave (opgave 2.9). Idet binomialmodellen er ækvivalent med multinomialmodellen med kasser kan vi skrive data som
De forventede i den logistiske dosis-responsmodel er
for Hvis man fitter den logistiske dosis-responsmodel til data, bliver skøn over de to parametre
  1. Lav et test for, at data kan beskrives med den logistiske dosis-responsmodel (se afsnit 3.8.1 for metoden).

Opgave 2.11: Konfidensinterval for andel

Betragt data fra opgave 2.1 ovenfor, hvor 508 hændelser er fordelt på 4 detektorer.
  1. Lav et 95%-konfidensinterval for andelen af hændelser der rammer detektor 1.

Opgave 2.12: Sammenhæng i poissondata

Antal jordskælv af en given styrke inden for et givet tidsrum og et givet geografisk område beskrives ofte med en poissonmodel. I tabellen nedenfor er jordskælv i New Zealand i perioden 1930-2015 (i alt 86 år) for tre styrkeintervaller på Richterskalaen.
  1. Lav for hvert styrkeinterval et 95%-konfidensinterval for raten af jordskælv per år.
  2. Oversæt de fundne konfidensintervaller til konfidensintervaller for logaritmen til raten per år, det vil sige parameteren
  3. Lav en figur, hvor skøn afsættes mod midtpunktet af styrkeintervallet.
    Indsæt i figuren lodrette linjestykker, svarende til konfidensintervallet for logaritmen til raten for hvert styrkeinterval.
  4. Beskriv den sammenhæng, du ser i figuren mellem logaritmen til raten og midtpunktet af styrkeintervallet.

Opgave 2.13: Teste log-lineær sammmenhæng i poissondata

Dette er en fortsættelse af opgave 2.12. Det samlede antal jordskælv i de tre styrkeintervaller er 138. Hvis vi forestiller os, at vi holder det samlede antal fast på 138, kan vi (og det skal I i denne opgave) betragte de observerede antal som et udfald fra en multinomialfordeling med kast af en generel tresidet terning.
Hvis er raterne fra opgave 2.12, og er midtpunktet for det 'te interval, er vi interesseret i at teste en lineær sammenhæng,
I multinomialmodellen, der opstår, når vi holder fast, svarer dette til hypotesen
Den bedste værdi af til beskrivelse af data er
  1. Lav, i multinomialmodellen, et test af denne hypotese.

ForegåendeNæste