Afsnit 2.7: Øvelse 1

Denne første øvelse dækker indholdet af kapitel 1 og 2 med de to vigtige begreber -værdi og konfidensinterval. De to første opgaver genopfrisker jeres viden om binomialfordelingen. Opgaverne 3 og 4 vedrører fortolkningen af -værdi, og opgaverne 5 og 6 ser på -værdi og konfidensinterval i binomialmodellen. Derefter følger to opgaver med konfidensinterval i poissonmodellen, hvor den sidste benytter simulering for at eftervise egenskaben ved et konfidensinterval. Den sidste opgave er sat ind for at træne jer i at kunne se forskel på en binomialmodel og en poissonmodel.
At simulere betyder i disse opgaver at generere tilfældige tal fra en given fordeling. Gennem opgaverne vil I se eksempler på den type data, I kan støde på inden for jeres fag.
Når der skal opstilles en statistisk model, skal man henvise til opskrivning i bog og justere notationen, så det passer til opgaven.

Opgave 1.1: Opfriske binomialfordeling

Ved en bestemt vaccine er der 10 procent, der ikke opnår immunitet. Betragt et eksperiment, hvor 20 personer får vaccinen.
  1. Angiv sandsynligheden for, at 4 personer ikke opnår immunitet. Du skal henvise til formel i bog og lave den numeriske beregning i python/MATLAB.
  2. Angiv sandsynligheden for, at 4 personer eller flere ikke opnår immunitet.

Opgave 1.2: Opfriske binomialkoefficient

Betragt en gruppe på 4 personer. I denne opgave skal du angive antallet af måder, hvorpå man kan lave en delgruppe med 2 personer.
  1. Lav en liste, hvor du angiver alle de forskellige måde at lave delgruppen på.
  2. Beregn binomialkoefficienten og se, at det stemmer overens med længden på din liste ovenfor.

Opgave 1.3: Bruge p-værdi

  1. Antag, at du har lavet et test af en hypotese og fået en -værdi på 12 procent (en sandsynlighed på ). Har du tillid til din hypotese (vil du acceptere hypotesen), eller har du ikke tillid til hypotesen (du forkaster hypotesen)?
  2. Antag i stedet, at -værdien er 1 procent. Hvad er dit svar nu?
  3. Antag i stedet, at -værdien er procent. Hvad er dit svar nu?

Opgave 1.4: Simuleret p-værdi

I denne opgave ser vi på data fra et tænkt forsøg, der tester, om reaktiviteten af et kulstofatom i et benzen-molekyle afhænger af, om dette atom er eller . Motivationen for dette er, at isotoper ofte benyttes inden for kemien til at spore, hvor specifikke atomer ender i metaboliske cykler eller andre reaktioner. Normalt antages det, at udskiftning af for eksempel med ikke ændrer de kemiske egenskaber på nogen måde.
Vi starter med et benzen-molekyle, hvor et tilfældigt af de seks er udskiftet med et . Derefter udføres en reaktion, der adderer brom til molekylet, så vi ender med bromobenzen, som illustreret i følgende figur.
Betragt et hypotetisk forsøg, der måler, hvilken position Br befinder sig på i forhold til i 840 molekyler. I 153 af de 840 molekyler er Br indsat ved . Resultatet er vist i nedenstående tabel.
  1. Hvis udskiftning af et atom med ikke ændrer de kemiske egenskaber, forventer vi, at det er tilfældigt, hvilket af de seks atomer Br bindes til. Udtryk dette som en sandsynlighed for at Br bindes til atomet.
    Angiv det forventede antal, hvor Br er bundet til atomet, ud af 840 molekyler, og angiv afstanden fra det observerede antal til det forventede antal.
  2. Se på simuleringen vist i kodevinduet i afsnit 1.1, og ændr 34 til 840 og [0.5,0.5] til [5/6,1/6]. Kør koden nogle gange og observer hver gang, om du får en værdi, der ligger længere fra det forventede end den oprindelige observation på 153.
Hvis jeg beder dig om at lave simuleringen i foregående spørgsmål 100000 gange, vil du nok protestere! Det kan imidertid gennemføres med en enkelt kommando. Når man som i spørgsmålet ovenfor simulerer en skæv mønt 840 gange, og tæller op hvor mange gange man fik krone, er dette det samme som at simulere et enkelt udfald fra en -fordeling. I python eller MATLAB simuleres nSim udfald fra en -fordeling med kommandoen
Python: binom.rvs(840,1/6,size=nSim) MATLAB: binornd(840,1/6,1,nSim))
(i python kommer binom fra modulet scipy.stats).
  1. Lav en vektor xSim der indeholder resultatet af simuleringen ovenfor med nSim=100 udfald fra en -fordeling. Lav dernæst en optælling af andelen af udfald, der har en afstand til det forventede antal der er større end eller lig med 13 (sum(abs(xSim-140)>=13)/nSim).
  2. Gentag beregningen i ovenstående spørgsmål med nSim=10000 og nSim=1000000.
  3. Synes du, at data i eksperimentet tyder på, at det er tilfældigt, hvilket atom Br bindes til?
  4. Beregn nu den eksakte -værdi fra Resultat 1.2.3.

Opgave 1.5: Test og konfidensinterval i binomialmodel

I afsnit 1.1 omtales et eksperiment af Kipping og Pope, og konklusionen fra data er, at disse er i overensstemmelse med en hypotese om, at der dannes lige mange D- og L-krystaller. Kipping og Pope lavede også et andet eksperiment, hvor krystalliseringen foregik i et andet medium, og fik følgende resultat fra i alt 25 deleksperimenter:
  1. Opskriv en statistisk model for data i ovenstående tabel. Lav et test for hypotesen at , hvor er sandsynligheden for at et tilfældigt krystal er af -form.
  2. Lav et 95%-konfidensinterval for sandsynligheden for at et tilfældigt krystal er af -form.
Konklusionen ovenfor fra Kipping og Popes eksperiment er senere blevet tilbagevist af Andrew J. Alexander.

Opgave 1.6: Multiple choice, binomialtest

Antag, at du har observationen fra den statistiske model , . Lad pval være -værdien fra et test af hypotesen mod alternativet at .
Angiv den eller de udsagn nedenfor, der er korrekte (der er enten 1 eller 2 korrekte udsagn).
  1. -værdien er over .
  2. -værdi kan ikke beregnes, da der ikke er tilstrækkelige data til rådighed.
  3. -værdien er cirka .
  4. Ved et signifikansniveau på 0.05 forkastes hypotesen med de givne data.

Opgave 1.7: Konfidensinterval i poissonmodel

Denne opgave vedrører optælling af enkelte molekyler. Optællingen foregår med en nanopore sensor. Ved en lav opløsning kan man betragte ankomsten af molekyler til nanoporen som tilfældige i tid, og antal ankomster i et tidsinterval kan derfor beskrives med en poissonfordeling. Data nedenfor er aflæst fra figur i artiklen Calibration-Free Nanopore Digital Counting of Single Molecules.
Der er lavet optælling af antallet af molekyler i 101 intervaller alle af længde 4 sekunder. Blandt de 101 observationer er der 9 intervaller uden ankomst af molekyler, 26 intervaller med ankomst af et enkelt molekyle, og så videre som vist i den følgende tabel.
Hvis vi betegner de 101 målinger med , er summen af disse
  1. Opskriv en statistisk model til beskrivelse af de 101 målinger under brug af parameteren , der angiver raten af molekyler per sekund.
  2. Beregn et 95%-konfidensinterval for rateparameteren

Opgave 1.8: Fortolkning af konfidensinterval

Denne opgave går ud på at eftervise fortolkningen af et konfidensinterval for poissonfordelte data ved hjælp af simulationer. For at løse opgaven skal I bruge koden i kodevinduet nedenfor. I python kan man simulere observationer fra en poissonfordeling med kommandoen poisson.rvs og i MATLAB med kommandoen poissrnd. Den præcise brug af kommandoerne fremgår af koden nedenfor.
Til hjælp i opgaven er der i kodevinduet nedenfor angivet en kode, der simulerer observationer fra en -fordeling, og for hver simuleret værdi beregner det tilhørende 95%-konfidensinterval for rateparameteren I beregningen bruges funktionen mean, som beregner gennemsnit af data i en vektor.

MATLAB-kode

Først følger en række spørgsmål til forståelse af koden.
  1. Hvilken poissonfordeling simuleres der fra i kodevinduet?
  2. Hvor mange observationer bliver der simuleret?
  3. Hvad beregnes i lower?
  4. Hvad repræsenterer den sidste værdi der udskrives?
  5. Prøv at køre koden et par gange og se variationen i resultatet.
Nu følger en række spørgsmål til belysning af et konfidensinterval.
  1. Leg lidt med programmet. Prøv at ændre og se, hvad der sker. Prøv også at ændre simulationsantallet nSim.
  2. Betragt de fire tilfælde med og Benyt for hver værdi af koden ovenfor med nSim=100000.
    Lav en tabel (i hånden eller med dit foretrukne tekstbehandlingsprogram) med tre søjler med henholdsvis værdien af andel af de simulerede konfidensintervaller der indeholder den sande værdi af og middellængden af de nSim konfidensintervaller. Tabellen har fire rækker svarende til de fire værdier af
  3. Er det korrekt, at konfidensintervallet indeholder den sande værdi af parameteren i cirka 95% af de simulerede tilfælde?
    Kan du formulere en grov regel for, hvad der sker med længden af konfidensintervallet, når tælletiden firedobles?

Opgave 1.9: Identificere fordeling

Nogle gange kan det virke svært at gennemskue, om den naturlige model til beskrivelse af data skal være en binomialmodel eller en posissonmodel. Nedenfor følger en række eksempler, hvor nogle kan være lidt drilagtige, og hvor I skal afgøre, hvilken model I vil bruge.
Forklar i hvert enkelt tilfælde, hvorfor du vil beskrive data med enten en binomialfordeling eller en poissonfordeling. Opskriv den statistiske model for hver observation.
  1. I løbet af en time analyseres 100 prøver af jern-nikkel legeringer, og af disse indeholder spor af chrom. Hvilken fordeling vil I bruge til at beskrive observationen ?
  2. I løbet af et nanosekund efter en laserpuls registreres der i et spektroskopiforsøg 142 henfald fra en exciteret tilstand i fluorescerende molekyler til grundtilstanden. Hvilken fordeling vil I bruge til at beskrive observationen ?
  3. På et fysikhold på Aarhus Universitet er der startet 23 studerende, men efter et år har 6 valgt at skifte studie til kemi. Hvilken fordeling vil I bruge til at beskrive observationen ?
  4. I løbet af 200 sekunder måles der 127 henfald i en geigertæller fra en opløsning af et uran-kompleks. Hvilken fordeling vil I bruge til at beskrive observationen ?
  5. Efter en dosis røntgenstråling registreres der 22 mutationer i et gen i en genmodificeret E. coli bakterie. Hvilken fordeling vil I bruge til at beskrive observationen ?

ForegåendeNæste