Denne første øvelse dækker indholdet af kapitel 1 og 2 med de to
vigtige begreber -værdi og konfidensinterval.
De to første opgaver genopfrisker jeres viden om binomialfordelingen.
Opgaverne 3 og 4 vedrører fortolkningen af -værdi, og opgaverne
5 og 6 ser på -værdi og konfidensinterval i binomialmodellen.
Derefter følger to opgaver med konfidensinterval i poissonmodellen,
hvor den sidste benytter simulering for at eftervise egenskaben ved et
konfidensinterval. Opgave 9 er sat ind for at træne jer i at
kunne se forskel på en binomialmodel og en poissonmodel. Endelig
omhandler opgave 10, hvordan et konfidensinterval for en parameter
kan transformeres til et konfidensinterval for en afledet parameter. At simulere betyder i disse opgaver
at generere tilfældige tal fra en given fordeling.
Gennem opgaverne vil I se eksempler på den type data, I kan støde på
inden for jeres fag. Når der skal opstilles en statistisk model,
skal man henvise til opskrivning i bog og
justere notationen, så det passer til opgaven.
På et atomkraftværk monitoreres stråling kontinuerligt. For hvert minut
foretages der en tælling, og hvis tælletallet er over 13 udløses en alarm.
Fra omfattende undersøgelse ved man, at raten per minut
under normale omstændigheder er
og at tælletallet er poissonfordelt.
Eftervis, at sandsynligheden for i et minut at få et tælletal over 13 er
Betragt nu antallet af falske alarmer i løbet af et år (falsk
alarm er et tælletal over 13,
selvom der ikke er forandring i raten). Forklar, at dette antal
er binomialfordelt med antalsværdi og
sandsynlighedsparameter fra før. Hvad er middelværdien af , og hvad er sandsynligheden for, at
er større end eller lig med 1 ?
Du skal henvise til formel i bog og lave den numeriske beregning i
python.
Antag nu, at på grund af en utilsigtet hændelse er raten per minut
steget til . Lad være antal alarmer i løbet af en time.
Angiv middelværdien af og angiv sandsynligheden for, at
er større end eller lig med 1.
Antag, at du har lavet et test af en hypotese
og fået en -værdi på 12 procent
(en sandsynlighed på ). Har du tillid til din hypotese
(vil du acceptere hypotesen), eller har du ikke tillid til hypotesen
(du forkaster hypotesen) ?
Antag i stedet, at -værdien er 1 procent. Hvad er dit svar nu ?
Antag i stedet, at -værdien er procent. Hvad er dit svar nu ?
I denne opgave ser vi på
data fra et tænkt forsøg, der tester, om
reaktiviteten
af et kulstofatom i et benzen-molekyle afhænger af, om dette atom
er eller .
Motivationen for dette er, at isotoper ofte benyttes
inden for kemien til at spore,
hvor specifikke atomer ender i metaboliske cykler eller andre reaktioner.
Normalt antages det, at udskiftning af for eksempel
med ikke
ændrer de kemiske egenskaber på nogen måde. Vi starter med et benzen-molekyle, hvor et tilfældigt af de seks
er udskiftet med et . Derefter udføres en reaktion,
der adderer brom til molekylet, så vi ender med bromobenzen,
som illustreret i følgende figur.
Betragt et hypotetisk forsøg, der måler, hvilken
position Br befinder sig på i
forhold til i 840 molekyler. I 153 af de 840 molekyler
er Br indsat ved .
Resultatet er vist i nedenstående tabel.
Hvis udskiftning af et atom
med ikke
ændrer de kemiske egenskaber, forventer vi,
at det er tilfældigt, hvilket af de seks atomer Br bindes til.
Udtryk dette som en sandsynlighed for at Br bindes til
atomet. Angiv det forventede antal, hvor Br er bundet til atomet,
ud af 840 molekyler, og angiv afstanden fra det observerede antal
til det forventede antal.
Se på simuleringen vist i kodevinduet i afsnit 1.1,
og ændr 34 til 840 og [0.5,0.5] til [5/6,1/6]. Kør koden nogle gange
og observer hver gang, om du får en værdi, der ligger længere fra
det forventede
end den oprindelige observation på 153.
Hvis jeg beder dig om at lave simuleringen i foregående spørgsmål 100000
gange, vil du nok protestere! Det kan imidertid gennemføres
med en enkelt kommando. Når man som i spørgsmålet ovenfor
simulerer en skæv mønt 840 gange, og tæller op hvor mange gange
man fik krone, er dette det samme som at simulere et enkelt udfald fra
en -fordeling.
I python simuleres nSim udfald fra en
-fordeling med kommandoen
st.binom.rvs(840,1/6,size=nSim)
(hvor man skal have importeret scipy.stats som st).
Lav en vektor xSim, der indeholder resultatet af simuleringen
ovenfor med nSim=100 udfald fra en
-fordeling.
Lav dernæst en optælling af andelen af udfald, der
har en afstand til det forventede antal der er større end eller lig med
13 (sum(abs(xSim-140)>=13)/nSim).
Gentag beregningen i ovenstående spørgsmål med
nSim=10000 og nSim=1000000.
Synes du, at data i eksperimentet tyder på,
at det er tilfældigt, hvilket atom Br bindes til ?
I artiklen
Can different quantum state vectors correspond to the same
physical state? An experimental test
beskrives et eksperiment med følgende resultat:
"We report an experimental test of these predictions using trapped ions. Within
experimental error, the results confirm quantum theory."
Eksperimentet har fire dele, hvor der i hver del estimeres en sandsynlighed
for en sjælden hændelse (tilstand). Hvis de fire sandsynligheder
betegnes ønsker man i eksperimentet at se om
det simple gennemsnit er mindre end en
teoretisk grænse på 0.0183. Artiklen giver ikke direkte antallet af
gange tilstanden optræder ud af et sæt gentagelser, men oplyser skøn over
sandsynlighed og usikkerhed. Hvis vi siger, at skøn er på formen
og usikkerhed på formen kan
vi regne baglæns og finde observeret antal og antal gentagelser .
For de fire dele af eksperimentet giver dette
Havde de fire sandsynligheder været ens (I skal undersøge dette i
opgave 2.7),
eller hvis antallet af gentagelser i de fire deleksperimenter havde været ens,
kunne vi bruge søjlen med de totale antal til at vurderere størrelsen af
gennemsnittet I denne opgave nøjes vi med at se på hver af de fire
deleksperimenter, og I skal så i opgave 3.7
bruge ophobningsloven til at
sige noget om
Opskriv en statistisk model hørende til det observerede antal
i deleksperiment 2.
Angiv et skøn over sandsynligheden for den betragtede hændelse (tilstand)
i deleksperiment 2.
Lav et test for hypotesen, at sandsynligheden for tilstanden er 0.0183
i deleksperiment 2.
Lav, for hvert af de fire deleksperimenter, skøn og et 95%-konfidensinterval
for sandsynligheden for den betragtede hændelse.
Indsæt resultaterne i en tabel. Hvad er din "mavefornemmelse" ud fra resultaterne i tabellen,
er gennemsnittet mindre end 0.0183 ?
Antag, at du har observationen fra den statistiske model
, .
Lad pval være -værdien fra et test af hypotesen
mod alternativet at .Angiv den eller de udsagn nedenfor, der er korrekte (der er
enten 1 eller 2 korrekte udsagn).
-værdien er over .
-værdi kan ikke beregnes, da der ikke er tilstrækkelige data til
rådighed.
-værdien er cirka .
Ved et signifikansniveau på 0.05 forkastes hypotesen med de
givne data.
Data i denne opgave vedrører identifikation af Higgs boson i et spectrum.
Data er aflæst fra figur 2 i
Measurements of the Higgs boson inclusive and differential fiducial cross sections in the 4l decay channel at sqrt(s)=13 TeV.
Der er tælletal fra 44 kanaler, hver svarende til et energiinterval
af bredde på 1.25 GeV. For nemhed i notationen nedenfor bruger vi kanalnumre
, hvor kanalnummer 16 svarer til en energi på 125 GeV.
I kodevinduet dannes en figur med tælletal afsat mod kanalnummer.
Følgende tabel giver tælletallene for et udvalg af kanalnumre.
Betragt kanalnummer 15. Opstil en statistisk model for tælletal i denne kanal,
og lav et 95%-konfidensinterval for raten af hændelser i kanalen.
Gentag beregningen af et 95%-konfidensinterval for de andre
kanaler i tabellen.
Kør nu koden i det følgende kodevindue.
Kør koden igen, hvor den udkommenterede kodedel tages med, og der her indsættes
grænserne i de fundne konfidensintervaller under lower og upper.
Hvad siger jeres mavefornemmelse: er der en top i spectrum omkring
kanal 16 ?
Antag, at de sidste 10 kanaler (kanal 35 til 44) alle har den samme
underliggende rate . Summen af de 10 tælletal er 58.
Opskriv model for summen, og lav et 95%-konfidensinterval for
Denne opgave går ud på at eftervise fortolkningen af et
konfidensinterval for poissonfordelte data ved hjælp af simulationer.
For at løse opgaven skal I bruge koden i kodevinduet nedenfor.
I python kan man simulere observationer fra en poissonfordeling med
kommandoen st.poisson.rvs.
Den præcise brug af kommandoen fremgår af koden nedenfor. Til hjælp i opgaven er der i kodevinduet nedenfor angivet en kode,
der simulerer observationer
fra en -fordeling, og for hver simuleret værdi
beregner det tilhørende 95%-konfidensinterval for rateparameteren I beregningen
bruges funktionen mean, som beregner gennemsnit af data i en
vektor.
Først følger en række spørgsmål til forståelse af koden.
Hvilken poissonfordeling simuleres der fra i kodevinduet ?
Hvor mange observationer bliver der simuleret ?
Hvad beregnes i lower ?
Hvad repræsenterer den sidste værdi der udskrives ?
Prøv at køre koden et par gange og se variationen i resultatet.
Nu følger en række spørgsmål til belysning af et konfidensinterval.
Leg lidt med programmet. Prøv at ændre og se, hvad der sker.
Prøv også at ændre simulationsantallet nSim.
Betragt de fire tilfælde med og
Benyt for hver værdi af
koden ovenfor med nSim=100000.Lav en tabel (i hånden eller med dit foretrukne tekstbehandlingsprogram)
med tre søjler med henholdsvis
værdien af andel af de simulerede konfidensintervaller
der indeholder den sande værdi af og middellængden af
de nSim konfidensintervaller.
Tabellen har fire rækker
svarende til de fire værdier af
Er det korrekt, at konfidensintervallet indeholder den sande værdi
af parameteren i cirka 95% af de simulerede tilfælde ?Kan du formulere en grov regel for, hvad der sker med
længden af konfidensintervallet, når tælletiden
firedobles ?
Nogle gange kan det virke svært at gennemskue, om den naturlige model
til beskrivelse af data skal være en binomialmodel eller en poissonmodel.
Nedenfor følger en række eksempler, hvor nogle kan være lidt drilagtige,
og hvor I skal afgøre, hvilken model I vil bruge.Forklar i hvert enkelt tilfælde,
hvorfor du vil beskrive data med enten en binomialfordeling eller en
poissonfordeling. Opskriv den statistiske model for hver observation.
I løbet af en time analyseres 100 prøver af jern-nikkel
legeringer,
og af disse indeholder
spor af krom. Hvilken fordeling vil I bruge til at beskrive
observationen  ?
I løbet af et nanosekund efter en laserpuls registreres
der i et spektroskopiforsøg 142 henfald fra en exciteret tilstand
i fluorescerende molekyler til grundtilstanden. Hvilken fordeling
vil I bruge til at beskrive observationen  ?
På et kemihold på Aarhus Universitet er der startet 23
studerende, men efter et år har 6 valgt at skifte studie til fysik.
Hvilken fordeling vil I bruge til at beskrive observationen
 ?
I løbet af 200 sekunder måles der 127 henfald i en
geigertæller fra en opløsning af et uran-kompleks. Hvilken fordeling
vil I bruge til at beskrive observationen  ?
Efter en dosis røntgenstråling registreres der 22 mutationer
i et gen i en genmodificeret E. coli bakterie.
Hvilken fordeling vil I bruge til at beskrive observationen
 ?
Betragt binomialmodellen 1.2.2
med Den
transformerede parameter kaldes odds
for den betragtede hændelse. I et eksperiment med larver på et bestemt udviklingstrin var
der 48 der døde indenfor 24 timers ophold i en opløsning med nanopartikler.
Lav et 95%-konfidensinterval for parametren .