Afsnit 2.7: Øvelse 1

Denne første øvelse dækker indholdet af kapitel 1 og 2 med de to vigtige begreber -værdi og konfidensinterval. De to første opgaver genopfrisker jeres viden om binomialfordelingen. Opgaverne 3 og 4 vedrører fortolkningen af -værdi, og opgaverne 5 og 6 ser på -værdi og konfidensinterval i binomialmodellen. Derefter følger to opgaver med konfidensinterval i poissonmodellen, hvor den sidste benytter simulering for at eftervise egenskaben ved et konfidensinterval. Opgave 9 er sat ind for at træne jer i at kunne se forskel på en binomialmodel og en poissonmodel. Endelig omhandler opgave 10, hvordan et konfidensinterval for en parameter kan transformeres til et konfidensinterval for en afledet parameter.
At simulere betyder i disse opgaver at generere tilfældige tal fra en given fordeling. Gennem opgaverne vil I se eksempler på den type data, I kan støde på inden for jeres fag.
Når der skal opstilles en statistisk model, skal man henvise til opskrivning i bog og justere notationen, så det passer til opgaven.

Opgave 1.1: Opfriske binomialfordeling

På et atomkraftværk monitoreres stråling kontinuerligt. For hvert minut foretages der en tælling, og hvis tælletallet er over 13 udløses en alarm. Fra omfattende undersøgelse ved man, at raten per minut under normale omstændigheder er og at tælletallet er poissonfordelt.
  1. Eftervis, at sandsynligheden for i et minut at få et tælletal over 13 er
  2. Betragt nu antallet af falske alarmer i løbet af et år (falsk alarm er et tælletal over 13, selvom der ikke er forandring i raten). Forklar, at dette antal er binomialfordelt med antalsværdi og sandsynlighedsparameter fra før.
    Hvad er middelværdien af , og hvad er sandsynligheden for, at er større end eller lig med 1? Du skal henvise til formel i bog og lave den numeriske beregning i python.
  3. Antag nu, at på grund af en utilsigtet hændelse er raten per minut steget til . Lad være antal alarmer i løbet af en time. Angiv middelværdien af og angiv sandsynligheden for, at er større end eller lig med 1.

Opgave 1.2: Opfriske binomialkoefficient

Betragt en gruppe på 4 personer. I denne opgave skal du angive antallet af måder, hvorpå man kan lave en delgruppe med 2 personer.
  1. Lav en liste, hvor du angiver alle de forskellige måde at lave delgruppen på.
  2. Beregn binomialkoefficienten og se, at det stemmer overens med længden på din liste ovenfor.

Opgave 1.3: Bruge p-værdi

  1. Antag, at du har lavet et test af en hypotese og fået en -værdi på 12 procent (en sandsynlighed på ). Har du tillid til din hypotese (vil du acceptere hypotesen), eller har du ikke tillid til hypotesen (du forkaster hypotesen)?
  2. Antag i stedet, at -værdien er 1 procent. Hvad er dit svar nu?
  3. Antag i stedet, at -værdien er procent. Hvad er dit svar nu?

Opgave 1.4: Simuleret p-værdi

I denne opgave ser vi på data fra et tænkt forsøg, der tester, om reaktiviteten af et kulstofatom i et benzen-molekyle afhænger af, om dette atom er eller . Motivationen for dette er, at isotoper ofte benyttes inden for kemien til at spore, hvor specifikke atomer ender i metaboliske cykler eller andre reaktioner. Normalt antages det, at udskiftning af for eksempel med ikke ændrer de kemiske egenskaber på nogen måde.
Vi starter med et benzen-molekyle, hvor et tilfældigt af de seks er udskiftet med et . Derefter udføres en reaktion, der adderer brom til molekylet, så vi ender med bromobenzen, som illustreret i følgende figur.
Betragt et hypotetisk forsøg, der måler, hvilken position Br befinder sig på i forhold til i 840 molekyler. I 153 af de 840 molekyler er Br indsat ved . Resultatet er vist i nedenstående tabel.
  1. Hvis udskiftning af et atom med ikke ændrer de kemiske egenskaber, forventer vi, at det er tilfældigt, hvilket af de seks atomer Br bindes til. Udtryk dette som en sandsynlighed for at Br bindes til atomet.
    Angiv det forventede antal, hvor Br er bundet til atomet, ud af 840 molekyler, og angiv afstanden fra det observerede antal til det forventede antal.
  2. Se på simuleringen vist i kodevinduet i afsnit 1.1, og ændr 34 til 840 og [0.5,0.5] til [5/6,1/6]. Kør koden nogle gange og observer hver gang, om du får en værdi, der ligger længere fra det forventede end den oprindelige observation på 153.
Hvis jeg beder dig om at lave simuleringen i foregående spørgsmål 100000 gange, vil du nok protestere! Det kan imidertid gennemføres med en enkelt kommando. Når man som i spørgsmålet ovenfor simulerer en skæv mønt 840 gange, og tæller op hvor mange gange man fik krone, er dette det samme som at simulere et enkelt udfald fra en -fordeling. I python simuleres nSim udfald fra en -fordeling med kommandoen
st.binom.rvs(840,1/6,size=nSim)
(hvor man skal have importeret scipy.stats som st).
  1. Lav en vektor xSim, der indeholder resultatet af simuleringen ovenfor med nSim=100 udfald fra en -fordeling. Lav dernæst en optælling af andelen af udfald, der har en afstand til det forventede antal der er større end eller lig med 13 (sum(abs(xSim-140)>=13)/nSim).
  2. Gentag beregningen i ovenstående spørgsmål med nSim=10000 og nSim=1000000.
  3. Synes du, at data i eksperimentet tyder på, at det er tilfældigt, hvilket atom Br bindes til?
  4. Beregn nu den eksakte -værdi fra Resultat 1.2.3.

Opgave 1.5: Test og konfidensinterval i binomialmodel

I artiklen Can different quantum state vectors correspond to the same physical state? An experimental test beskrives et eksperiment med følgende resultat: "We report an experimental test of these predictions using trapped ions. Within experimental error, the results confirm quantum theory." Eksperimentet har fire dele, hvor der i hver del estimeres en sandsynlighed for en sjælden hændelse (tilstand). Hvis de fire sandsynligheder betegnes ønsker man i eksperimentet at se om det simple gennemsnit er mindre end en teoretisk grænse på 0.0183.
Artiklen giver ikke direkte antallet af gange tilstanden optræder ud af et sæt gentagelser, men oplyser skøn over sandsynlighed og usikkerhed. Hvis vi siger, at skøn er på formen og usikkerhed på formen kan vi regne baglæns og finde observeret antal og antal gentagelser . For de fire dele af eksperimentet giver dette
Havde de fire sandsynligheder været ens (I skal undersøge dette i opgave 2.7), eller hvis antallet af gentagelser i de fire deleksperimenter havde været ens, kunne vi bruge søjlen med de totale antal til at vurderere størrelsen af gennemsnittet I denne opgave nøjes vi med at se på hver af de fire deleksperimenter, og I skal så i opgave 3.7 bruge ophobningsloven til at sige noget om
  1. Opskriv en statistisk model hørende til det observerede antal i deleksperiment 2. Angiv et skøn over sandsynligheden for den betragtede hændelse (tilstand) i deleksperiment 2.
  2. Lav et test for hypotesen, at sandsynligheden for tilstanden er 0.0183 i deleksperiment 2.
  3. Lav, for hvert af de fire deleksperimenter, skøn og et 95%-konfidensinterval for sandsynligheden for den betragtede hændelse. Indsæt resultaterne i en tabel.
    Hvad er din "mavefornemmelse" ud fra resultaterne i tabellen, er gennemsnittet mindre end 0.0183?

Opgave 1.6: Multiple choice, binomialtest

Antag, at du har observationen fra den statistiske model , . Lad pval være -værdien fra et test af hypotesen mod alternativet at .
Angiv den eller de udsagn nedenfor, der er korrekte (der er enten 1 eller 2 korrekte udsagn).
  1. -værdien er over .
  2. -værdi kan ikke beregnes, da der ikke er tilstrækkelige data til rådighed.
  3. -værdien er cirka .
  4. Ved et signifikansniveau på 0.05 forkastes hypotesen med de givne data.

Opgave 1.7: Konfidensinterval i poissonmodel

Data i denne opgave vedrører identifikation af Higgs boson i et spectrum. Data er aflæst fra figur 2 i Measurements of the Higgs boson inclusive and differential fiducial cross sections in the 4l decay channel at sqrt(s)=13 TeV. Der er tælletal fra 44 kanaler, hver svarende til et energiinterval af bredde på 1.25 GeV. For nemhed i notationen nedenfor bruger vi kanalnumre , hvor kanalnummer 16 svarer til en energi på 125 GeV. I kodevinduet dannes en figur med tælletal afsat mod kanalnummer. Følgende tabel giver tælletallene for et udvalg af kanalnumre.
  1. Betragt kanalnummer 15. Opstil en statistisk model for tælletal i denne kanal, og lav et 95%-konfidensinterval for raten af hændelser i kanalen.
  2. Gentag beregningen af et 95%-konfidensinterval for de andre kanaler i tabellen.
  3. Kør nu koden i det følgende kodevindue. Kør koden igen, hvor den udkommenterede kodedel tages med, og der her indsættes grænserne i de fundne konfidensintervaller under lower og upper.
  4. Hvad siger jeres mavefornemmelse: er der en top i spectrum omkring kanal 16?
  5. Antag, at de sidste 10 kanaler (kanal 35 til 44) alle har den samme underliggende rate . Summen af de 10 tælletal er 58. Opskriv model for summen, og lav et 95%-konfidensinterval for

Opgave 1.8: Fortolkning af konfidensinterval

Denne opgave går ud på at eftervise fortolkningen af et konfidensinterval for poissonfordelte data ved hjælp af simulationer. For at løse opgaven skal I bruge koden i kodevinduet nedenfor. I python kan man simulere observationer fra en poissonfordeling med kommandoen st.poisson.rvs. Den præcise brug af kommandoen fremgår af koden nedenfor.
Til hjælp i opgaven er der i kodevinduet nedenfor angivet en kode, der simulerer observationer fra en -fordeling, og for hver simuleret værdi beregner det tilhørende 95%-konfidensinterval for rateparameteren I beregningen bruges funktionen mean, som beregner gennemsnit af data i en vektor.
Først følger en række spørgsmål til forståelse af koden.
  1. Hvilken poissonfordeling simuleres der fra i kodevinduet?
  2. Hvor mange observationer bliver der simuleret?
  3. Hvad beregnes i lower?
  4. Hvad repræsenterer den sidste værdi der udskrives?
  5. Prøv at køre koden et par gange og se variationen i resultatet.
Nu følger en række spørgsmål til belysning af et konfidensinterval.
  1. Leg lidt med programmet. Prøv at ændre og se, hvad der sker. Prøv også at ændre simulationsantallet nSim.
  2. Betragt de fire tilfælde med og Benyt for hver værdi af koden ovenfor med nSim=100000.
    Lav en tabel (i hånden eller med dit foretrukne tekstbehandlingsprogram) med tre søjler med henholdsvis værdien af andel af de simulerede konfidensintervaller der indeholder den sande værdi af og middellængden af de nSim konfidensintervaller. Tabellen har fire rækker svarende til de fire værdier af
  3. Er det korrekt, at konfidensintervallet indeholder den sande værdi af parameteren i cirka 95% af de simulerede tilfælde?
    Kan du formulere en grov regel for, hvad der sker med længden af konfidensintervallet, når tælletiden firedobles?

Opgave 1.9: Identificere fordeling

Nogle gange kan det virke svært at gennemskue, om den naturlige model til beskrivelse af data skal være en binomialmodel eller en poissonmodel. Nedenfor følger en række eksempler, hvor nogle kan være lidt drilagtige, og hvor I skal afgøre, hvilken model I vil bruge.
Forklar i hvert enkelt tilfælde, hvorfor du vil beskrive data med enten en binomialfordeling eller en poissonfordeling. Opskriv den statistiske model for hver observation.
  1. I løbet af en time analyseres 100 prøver af jern-nikkel legeringer, og af disse indeholder spor af krom. Hvilken fordeling vil I bruge til at beskrive observationen ?
  2. I løbet af et nanosekund efter en laserpuls registreres der i et spektroskopiforsøg 142 henfald fra en exciteret tilstand i fluorescerende molekyler til grundtilstanden. Hvilken fordeling vil I bruge til at beskrive observationen ?
  3. På et kemihold på Aarhus Universitet er der startet 23 studerende, men efter et år har 6 valgt at skifte studie til fysik. Hvilken fordeling vil I bruge til at beskrive observationen ?
  4. I løbet af 200 sekunder måles der 127 henfald i en geigertæller fra en opløsning af et uran-kompleks. Hvilken fordeling vil I bruge til at beskrive observationen ?
  5. Efter en dosis røntgenstråling registreres der 22 mutationer i et gen i en genmodificeret E. coli bakterie. Hvilken fordeling vil I bruge til at beskrive observationen ?

Opgave 1.10 Konfidensinterval for odds

Betragt binomialmodellen 1.2.2 med Den transformerede parameter kaldes odds for den betragtede hændelse.
I et eksperiment med larver på et bestemt udviklingstrin var der 48 der døde indenfor 24 timers ophold i en opløsning med nanopartikler. Lav et 95%-konfidensinterval for parametren .

ForegåendeNæste