Denne første øvelse dækker indholdet af kapitel 1 og 2 med de to
vigtige begreber -værdi og konfidensinterval.
De to første opgaver genopfrisker jeres viden om binomialfordelingen.
Opgaverne 3 og 4 vedrører fortolkningen af -værdi, og opgaverne
5 og 6 ser på -værdi og konfidensinterval i binomialmodellen.
Derefter følger to opgaver med konfidensinterval i poissonmodellen,
hvor den sidste benytter simulering for at eftervise egenskaben ved et
konfidensinterval. Den sidste opgave er sat ind for at træne jer i at
kunne se forskel på en binomialmodel og en poissonmodel. At simulere betyder i disse opgaver
at generere tilfældige tal fra en given fordeling.
Gennem opgaverne vil I se eksempler på den type data, I kan støde på
inden for jeres fag. Når der skal opstilles en statistisk model,
skal man henvise til opskrivning i bog og
justere notationen, så det passer til opgaven.
Antag, at du har lavet et test af en hypotese
og fået en -værdi på 12 procent
(en sandsynlighed på ). Har du tillid til din hypotese
(vil du acceptere hypotesen), eller har du ikke tillid til hypotesen
(du forkaster hypotesen) ?
Antag i stedet, at -værdien er 1 procent. Hvad er dit svar nu ?
Antag i stedet, at -værdien er procent. Hvad er dit svar nu ?
I denne opgave ser vi på
data fra et tænkt forsøg, der tester, om
reaktiviteten
af et kulstofatom i et benzen-molekyle afhænger af, om dette atom
er eller .
Motivationen for dette er, at isotoper ofte benyttes
inden for kemien til at spore,
hvor specifikke atomer ender i metaboliske cykler eller andre reaktioner.
Normalt antages det, at udskiftning af for eksempel
med ikke
ændrer de kemiske egenskaber på nogen måde. Vi starter med et benzen-molekyle, hvor et tilfældigt af de seks
er udskiftet med et . Derefter udføres en reaktion,
der adderer brom til molekylet, så vi ender med bromobenzen,
som illustreret i følgende figur.
Betragt et hypotetisk forsøg, der måler, hvilken
position Br befinder sig på i
forhold til i 840 molekyler. I 153 af de 840 molekyler
er Br indsat ved .
Resultatet er vist i nedenstående tabel.
Hvis udskiftning af et atom
med ikke
ændrer de kemiske egenskaber, forventer vi,
at det er tilfældigt, hvilket af de seks atomer Br bindes til.
Udtryk dette som en sandsynlighed for at Br bindes til
atomet. Angiv det forventede antal, hvor Br er bundet til atomet,
ud af 840 molekyler, og angiv afstanden fra det observerede antal
til det forventede antal.
Se på simuleringen vist i kodevinduet i afsnit 1.1,
og ændr 34 til 840 og [0.5,0.5] til [5/6,1/6]. Kør koden nogle gange
og observer hver gang, om du får en værdi, der ligger længere fra
det forventede
end den oprindelige observation på 153.
Hvis jeg beder dig om at lave simuleringen i foregående spørgsmål 100000
gange, vil du nok protestere! Det kan imidertid gennemføres
med en enkelt kommando. Når man som i spørgsmålet ovenfor
simulerer en skæv mønt 840 gange, og tæller op hvor mange gange
man fik krone, er dette det samme som at simulere et enkelt udfald fra
en -fordeling.
I python eller MATLAB simuleres nSim udfald fra en
-fordeling med kommandoen
Lav en vektor xSim der indeholder resultatet af simuleringen
ovenfor med nSim=100 udfald fra en
-fordeling.
Lav dernæst en optælling af andelen af udfald, der
har en afstand til det forventede antal der er større end eller lig med
13 (sum(abs(xSim-140)>=13)/nSim).
Gentag beregningen i ovenstående spørgsmål med
nSim=10000 og nSim=1000000.
Synes du, at data i eksperimentet tyder på,
at det er tilfældigt, hvilket atom Br bindes til ?
I afsnit 1.1 omtales et eksperiment af Kipping og Pope,
og konklusionen fra data er, at disse er i overensstemmelse med en hypotese om,
at der dannes lige mange D- og L-krystaller.
Kipping og Pope lavede også et andet eksperiment, hvor krystalliseringen
foregik
i et andet medium, og fik følgende resultat fra i alt 25 deleksperimenter:
Opskriv en statistisk model for data i ovenstående tabel.
Lav et test for hypotesen at , hvor er sandsynligheden
for at et tilfældigt krystal er af -form.
Lav et 95%-konfidensinterval for sandsynligheden for at et
tilfældigt krystal er af -form.
Konklusionen ovenfor fra Kipping og Popes eksperiment er senere
blevet tilbagevist
af Andrew J. Alexander.
Antag, at du har observationen fra den statistiske model
, .
Lad pval være -værdien fra et test af hypotesen
mod alternativet at .Angiv den eller de udsagn nedenfor, der er korrekte (der er
enten 1 eller 2 korrekte udsagn).
-værdien er over .
-værdi kan ikke beregnes, da der ikke er tilstrækkelige data til
rådighed.
-værdien er cirka .
Ved et signifikansniveau på 0.05 forkastes hypotesen med de
givne data.
Denne opgave vedrører optælling af enkelte molekyler. Optællingen foregår
med en nanopore sensor. Ved en lav opløsning kan man betragte ankomsten
af molekyler til nanoporen som tilfældige i tid, og antal ankomster
i et tidsinterval kan derfor beskrives med en poissonfordeling.
Data nedenfor er aflæst fra figur i artiklen
Calibration-Free Nanopore Digital Counting of Single Molecules.Der er lavet optælling af antallet af molekyler i 101 intervaller alle
af længde 4 sekunder. Blandt de 101 observationer er der 9 intervaller
uden ankomst af molekyler, 26 intervaller med ankomst af et enkelt molekyle,
og så videre som vist i den følgende tabel.
Hvis vi betegner de 101 målinger med , er summen
af disse
Opskriv en statistisk model til beskrivelse af de 101 målinger
under brug af parameteren , der angiver raten
af molekyler per sekund.
Beregn et 95%-konfidensinterval for
rateparameteren
Denne opgave går ud på at eftervise fortolkningen af et
konfidensinterval for poissonfordelte data ved hjælp af simulationer.
For at løse opgaven skal I bruge koden i kodevinduet nedenfor.
I python kan man simulere observationer fra en poissonfordeling med
kommandoen poisson.rvs og i MATLAB med kommandoen
poissrnd. Den præcise brug af kommandoerne fremgår af koden nedenfor. Til hjælp i opgaven er der i kodevinduet nedenfor angivet en kode,
der simulerer observationer
fra en -fordeling, og for hver simuleret værdi
beregner det tilhørende 95%-konfidensinterval for rateparameteren I beregningen
bruges funktionen mean, som beregner gennemsnit af data i en
vektor.
Først følger en række spørgsmål til forståelse af koden.
Hvilken poissonfordeling simuleres der fra i kodevinduet ?
Hvor mange observationer bliver der simuleret ?
Hvad beregnes i lower ?
Hvad repræsenterer den sidste værdi der udskrives ?
Prøv at køre koden et par gange og se variationen i resultatet.
Nu følger en række spørgsmål til belysning af et konfidensinterval.
Leg lidt med programmet. Prøv at ændre og se, hvad der sker.
Prøv også at ændre simulationsantallet nSim.
Betragt de fire tilfælde med og
Benyt for hver værdi af
koden ovenfor med nSim=100000.Lav en tabel (i hånden eller med dit foretrukne tekstbehandlingsprogram)
med tre søjler med henholdsvis
værdien af andel af de simulerede konfidensintervaller
der indeholder den sande værdi af og middellængden af
de nSim konfidensintervaller.
Tabellen har fire rækker
svarende til de fire værdier af
Er det korrekt, at konfidensintervallet indeholder den sande værdi
af parameteren i cirka 95% af de simulerede tilfælde ?Kan du formulere en grov regel for, hvad der sker med
længden af konfidensintervallet, når tælletiden
firedobles ?
Nogle gange kan det virke svært at gennemskue, om den naturlige model
til beskrivelse af data skal være en binomialmodel eller en posissonmodel.
Nedenfor følger en række eksempler, hvor nogle kan være lidt drilagtige,
og hvor I skal afgøre, hvilken model I vil bruge.Forklar i hvert enkelt tilfælde,
hvorfor du vil beskrive data med enten en binomialfordeling eller en
poissonfordeling. Opskriv den statistiske model for hver observation.
I løbet af en time analyseres 100 prøver af jern-nikkel
legeringer,
og af disse indeholder
spor af chrom. Hvilken fordeling vil I bruge til at beskrive
observationen  ?
I løbet af et nanosekund efter en laserpuls registreres
der i et spektroskopiforsøg 142 henfald fra en exciteret tilstand
i fluorescerende molekyler til grundtilstanden. Hvilken fordeling
vil I bruge til at beskrive observationen  ?
På et fysikhold på Aarhus Universitet er der startet 23
studerende, men efter et år har 6 valgt at skifte studie til kemi.
Hvilken fordeling vil I bruge til at beskrive observationen
 ?
I løbet af 200 sekunder måles der 127 henfald i en
geigertæller fra en opløsning af et uran-kompleks. Hvilken fordeling
vil I bruge til at beskrive observationen  ?
Efter en dosis røntgenstråling registreres der 22 mutationer
i et gen i en genmodificeret E. coli bakterie.
Hvilken fordeling vil I bruge til at beskrive observationen
 ?