I et eksperiment er der dannet CdSe nanostrukturer på en overflade belagt med guld. Nanostrukturerne er delt op i tre kategorier nanosaws, nanowires og nanobelts. Efter dannelsen kategoriseres 180 strukturer ud fra et scanning elektronmikroskopi-billede. Resultatet fremgår af følgende tabel (data fra Statistical Modeling and Analysis for Robust Synthesis of Nanostructures).

\begin{array}{lcccc} \hline & \text{nanosaws} & \text{nanowires} & \text{nanobelts} & \text{Total} \\ \hline \text{Antal strukturer} & 77 & 47 & 56 & 180 \\ \hline \end{array}

Opstil en statistisk model for data, og angiv med modellen parametre hypotesen, at der er samme sandsynlighed for dannelsen af de tre forskellige nanostrukturer.
Lav et test for hypotesen om samme sandsynlighed for dannelsen af de tre strukturer.

Denne opgave vedrører det samme eksperiment som i opgave 1.7. I stedet for at se på hvor mange molekyler der kommer i et tidsrum, ser vi på tiden, der går mellem to ankomster. Blandt 234 ventetider er der 87, der ligger mellem 0 og 1 sekund, 72 mellem 1 og 2 sekunder, 33 mellem 2 og 3 sekunder, 21 mellem 3 og 4 sekunder og 21, der er over 4 sekunder (disse data er en grov aflæsning fra figur 3 i artikel, der henvises til i opgave 1.7).

\begin{array}{lccc cc}\hline \text{Kassenummer} & 1 & 2 & 3 & 4 & 5 \\ \text{Interval} & 0-1 & 1-2 & 2-3 & 3-4 & 4- \\ \text{Observerede antal} & 87 & 72 & 33 & 21 & 21 \\ \hline \end{array}

Hvis molekylerne kommer tilfældigt i tid, forventer vi, at ventetiden mellem 2 molekyler følger en såkaldt eksponentialfordeling. Dette har som konsekvens, at sandsynlighederne for, at en ventetid falder i et af intervallerne brugt ovenfor, kan skrives på samme form som i eksempel 3.2.1. Fortolkningen er som følger. Hvis

\theta

er sandsynligheden for en ankomst i et tidsinterval af længde 1 sekund, kan for eksempel sandsynligheden for en ventetid mellem 3 og 4 sekunder skrives som

(1-\theta)^3\theta.

Dette skal tolkes som sandsynligheden for ingen ankomst i 0-1, ganget med sandsynligheden for ingen ankomst i 1-2, ganget med sandsynligheden for ingen ankomst i 2-3, og ganget med sandsynlighed for ankomst i intervallet 3-4.

Hvis et skøn over

\theta

findes som beskrevet i afsnit 3.3, baseret på antallene i ovenstående tabel, får man

\hat\theta=0.4277.

Opstil en statistisk model for data, og angiv med modellens parametre hypotesen om tilfældig ankomst som beskrevet ovenfor.
Lav et test for hypotesen om tilfældig ankomst (angiv resultat i bogen, der bruges til testet, angiv om betingelse for at bruge $G$ -test er opfyldt, og forklar antallet af frihedsgrader i den $\chi^2$ -fordeling der bruges).

Data i denne opgave tager udgangspunkt i forsøg med bakterieceller, hvor man ofte har behov for at tælle, hvor mange af disse man har i en given opløsning. Dette gøres ved at udtage en mindre del af opløsningen og tage billede af denne i et mikroskop, hvor bakterierne så kan tælles. Et eksempel på et sådant billede er vist nedenfor, hvor de små sorte områder er enkelte E. coli bakterier. De store områder i midten af billedet er hver på

50\times 50\,\mu\text{m}^2,

og her inden for tælles antallet af bakterier. For at sikre konsistens tælles en bakteriecelle, der ligger ind over en kant, kun med hvis det er den venstre eller den øverste kant, der berøres.

I filen CelleData.txt ligger data fra optælling fra 14 sådanne billeder, hver med 16 områder. Data er indsamlet med henblik på opgaven her og stillet til rådighed af Morten Bormann Nielsen.

Læs de 224 kvadrattællinger ind i en vektor nColi (se indlæsningskommandoer i afsnit 1.6).
Lav et antalshistogram af data med intervalendepunkter givet ved vektoren
endePkt=np.array([0,9,11,13,15,17,19,21,23,32])-0.5
Indsæt titler på akserne i figuren.
Beregn antallene $(a_1,a_2\ldots,a_{9})$ af observationer i de 9 intervaller med endepunkter i endePkt (svaret er gengivet i tabel nedenfor).
Opstil en statistisk model for de stokastiske variable $(A_1,\ldots,A_{9})$ svarende til observerede antal $(a_1,\ldots,a_{9}).$
Det antages ofte, at tælletal af typen i denne opgave er poissonfordelte (tælletallene her er de 224 tal svarende til antallet af bakterier i de 224 kvadrater). Opskriv, i modellen fra foregående spørgsmål, hypotesen om, at de underliggende 224 tælletal er udfald fra en poissonfordeling med parameter $\lambda.$
Hvis et skøn over $\lambda$ findes som beskrevet i afsnit 3.3, baseret på antallene $(a_1,\ldots,a_{9}),$ får man $\hat\lambda=14.799$ De forventede værdier i de 9 kasser (intervaller) kan ses i følgende tabel. $\begin{array}{lccc cc}\hline \text{Kassenummer} & 1 & 2 & 3 & 4 & 5 \\ \text{Interval} & 0-8 & 9-10 & 11-12 & 13-14 & 15-16 \\ \text{Observerede antal} & 30 & 17 & 39 & 27 & 31 \\ \text{Forventede antal} & 9.31 & 19.49 & 34.95 & 45.20 & 44.11 \\ \hline &&&&& \\ \hline \text{Kassenummer} & 6 & 7 & 8 & 9 &\\ \text{Interval} & 17-18 & 19-20 & 21-22 & 23- & \\ \text{Observerede antal} & 22 & 20 & 19 & 19 &\\ \text{Forventede antal} & 33.62 & 20.56 & 10.31 & 6.46 & \\ \hline \end{array}$ Beregn det forventede antal i kasse 6 med fire decimaler.
Udfør $G$ -testet for hypotesen om, at tælletallene kan beskrives med en poissonfordeling (hypotesen om, at antal bakterier i et kvadrat er poissonfordelt).
Hvad bliver konklusionen af dit goodness of fit test ? Kan du komme med en formodning om, hvad der ligger bag ved resultatet ?

Forklaring

Konklusionen af ovenstående analyse er, at poissonfordelingen ikke er en særlig god beskrivelse af data. Man kan indse, at de 224 tællingerne viser større spredning, end hvad man forventer i en poissonfordeling. Fortolkningen af dette er, at bakterierne ikke er tilfældigt spredt ud over området, nogle områder har større intensitet af bakterier end andre områder (bakterierne klumper).

I dambrug kan vandet indeholde smags- og duftforbindelser (taste and odor compound: TOC), der optages i fisken og nedsætter dens værdi. Det er omkostningsfyldt at analysere en fisk både ved en kemisk analyse og ved sensorisk måling (vurdering af et smagspanel). Omvendt er det nemmere at analysere vandet i dambruget, og det er derfor af interesse, om der er en klar forbindelse mellem indholdet af TOC i vandet og fiskens tilstand. Tabellen nedenfor viser resultatet af en sensorisk analyse for fisk fra dambrug med forskelligt indhold af geosmin (organisk forbindelse med en jordlugt) i vandet. Smagspanelet vurderer fisken på en såkaldt muddy-skala, og i tabellen er angivet antallet af fisk under og over 3 på denne skala. Der er undersøgt 50 fisk fra dambrug med et lavt indhold af geosmin (

<10\,\text{ng/L}

), 74 fisk fra dambrug med et middelindhold af geosmin (

10-20\,\text{ng/L}

), og 25 fisk med et højt indhold af geosmin (

>20\,\text{ng/L}

). Data stammer fra Chemical and sensory quantification of geosmin and 2-methylisoborneol in Rainbow Trout (Oncorhynchus mykiss) from Recirculated Aquacultures in Relation to Concentrations in Basin Water..

\begin{array}{lccc} \\ \hline \text{Dambrug} & \text{Under} & \text{Over} & \text{Total} \\ \hline \text{Lav} & 41 & 9 & 50 \\ \text{Middel} & 48 & 26 & 74 \\ \text{Høj} & 1 & 24 & 25 \\ \hline \end{array}

Her er først en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse.

Homogenitetshypotesen er ikke relevant her, da der kun er to søjler (to kategorier for opdeling af data).
For at vurdere om vi har tiltro til homogenitetshypotesen bruges Resultat 3.7.1.
Homogenitetshypotesen er ikke relevant her, da der er flere end 2 rækker i tabellen.
Hvis der er 2 forventede værdier under 5 bruger vi ikke $G$ -testet.

Her følger nu spørgsmål til en analyse af data.

Opstil en statistisk model for tælletallene fra de tre grupper af dambrug.
Angiv, inden for den opstillede model, hypotesen at der er samme fordeling på kategorierne Under og Over for de tre grupper af dambrug.
Undersøg, om data er i overensstemmelse med hypotesen formuleret i foregående spørgsmål.
Beregn også den alternative teststørrelse $C=\sum ((\text{observeret}-\text{forventet})^2/\text{forventet}.$ Bliver $p$ -værdien fra denne teststørrelse større eller mindre end $p$ -værdien fra foregående spørgsmål ?

I afsnit 1.3 er det nævnt, at selvom en hypotese er sand, så vil vi i cirka 5 procent af tilfældene få en

p

-værdi mindre end eller lig med 0.05. Mere generelt gælder der, at når hypotesen er sand, så vil

p

-værdien, betragtet som stokastisk variabel, approksimativt fordele sig uniformt over intervallet fra 0 til 1. Dette skal I grafisk se på i denne opgave baseret på simulerede data. I kodevinduet nedenfor simuleres nSim

p

-værdier i en binomialmodel, og der laves et tæthedshistogram med inddeling i intervallerne

0.00-0.05

,

0.05-0.1

,

0.1-0.2

,

0.2-0.5,

og

0.5-1.

Hvis

p

-værdierne fordeler sig uniformt, vil højden af kasserne i tæthedshistogrammet ligge omkring 1.

xxxxxxxxxx
 
import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt
​
# Definere opsætning
n=33
p0=0.70 # simulerer fra binom(n,p0)
pHyp=0.7 # tester hypotesen p=pHyp
nSim=1000
​
# nSim værdier simuleres og for hver beregnes p-værdi
x=st.binom.rvs(n,p0,0,nSim)
forv=n*pHyp
t=abs(x-forv)
xlower=forv-t; xupper=forv+t
down=(xupper==xupper.astype(int))
xupper[down]=xupper[down]-0.5
pval=st.binom.cdf(xlower,n,pHyp)+st.binom.sf(xupper,n,pHyp)
pval[pval>1]=1
​
# Histogram dannes
plt.hist(pval,bins=np.array([0,0.05,0.1,0.2,0.5,1]),density=True)
plt.show()

Hvilken binomialfordeling simuleres der fra ? Hvilken hypotese testes ?
Kør koden nogle gange. Er resultaterne som forventet, specielt for intervallet $0.00-0.05$ ?
Ændr nu det simulerede antal fra 1000 til 100000, og kør koden nogle gange.
Ændr dernæst $n=33$ til $n=330$ . Kommenter på figuren.
Ændr pHyp=0.7 til pHyp=0.5, og kør først tilfældet med $n=33$ og dernæst $n=330.$
Sandsynligheden for at få en $p$ -værdi under 0.05, når hypotesen der testes ikke er sand, kaldes styrken af testet. Højden af kassen i histogrammet i intervallet $0.00-0.05$ afspejler styrken, når der testes $p=0.5$ , og den sande værdi af $p$ er 0.70.

Et laboratorie er inddelt i to grupper af medarbejdere. I den første gruppe er der 12 medarbejdere og i anden gruppe er der 8 medarbejdere. I løbet af et år er der 39 pipetteglas der er gået i stykker i gruppe 1 og 18 i gruppe 2.

\begin{array}{lccc} \hline & \text{Gruppe 1} & \text{Gruppe 2} & \text{Total} \\ \hline \text{Antal medarbejdere} & 12 & 8 & 20 \\ \text{Antal pipetteglas} & 39 & 18 & 57 \\ \hline \end{array}

Opstil en poissonmodel til beskrivelse af eksperimentet, hvor rateparametrene $\lambda_1$ og $\lambda_2$ for de to grupper angiver det forventede antal (i et år) per medarbejder.
Opskriv hypotesen, at der ikke er forskel mellem de to grupper.
Lav et test for hypotesen, at der er samme rate i de to grupper (se Resultat 3.8.1).
Hvad bliver konklusionen af dette test ?

Ved at analysere indhold af forskellige duftmolekyler i en persons udåndingsluft kan man muligvis påvise forskellige sygdomme. I artiklen Determination of volatile organic compounds as potential markers of lung cancer by gas chromatography–mass spectrometry versus trained dogs bruges en gaskoromotograf og et massespektrometer til at analyse inholdet af duftmolekylerne. I ovenstående artikel sammenlignes detekteringen af lungekræft ud fra indholdet af duftmolekyler med en optrænet hunds evne til at reagere på udåndingsluften fra en person. Ud af 107 personer med lungekræft reagerer hunden ved 95 prøver, og ud af 121 raske personer reagerer hunden ikke ved 97 prøver. Data er vist i den følgende tabel.

\begin{array}{lccc} \hline & \text{Korrekt reaktion} &\text{Forkert reaktion} & \text{Total} \\ \hline \text{Lungekraft} & 95 & 12 & 107 \\ \text{Raske} & 97 & 24 & 121 \\ \hline \text{Samlet} & 192 & 36 & 228 \\ \hline \end{array}

Her er først en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse.

P-værdien kan ikke beregnes, da den ene af de forventede værdier er over 5.
Hvis $G$ -værdien for test af homogenitet er over 1, har vi tiltro til hypotesen.
Frihedsgradsantallet for den approksimative $\chi^2$ -fordeling for $G$ -teststørrelsen for test af homogenitet er $2+2-1$ .
Hvis $G$ -værdien for test af homogenitet er under 1, har vi tiltro til hypotesen.

Her følger nu spørgsmål til en analyse af data.

Opstil en statistisk model for tælletallene fra de to grupper af personer (husk, at angive det "Statistisk Model" nummer der bruges).
Undersøg, om data er i overensstemmelse med hypotesen om samme sandsynlighed, for at hunden reagerer korrekt i de to gruppper af personer.
Anvend nu data fra rækken "Samlet" i ovenstående tabel, og lav et 95%-konfidensinterval for sandsynligheden for, at hunden reagerer korrekt.

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering1.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.

I et eksperiment dannes der enten nanosaws eller nanowires på en overflade belagt med guld. Ud af 180 nanostrukturer der er undersøgt på overfladen er de 74 nanosaws og de resterende er nanowires (data fra Statistical Modeling and Analysis for Robust Synthesis of Nanostructures).

Her er først en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse. Du skal også indskrive svaret i filen svarAflevering1.txt under "multiple choice" del

De 74 nanosaws er tilfældigt fordelt på guldoverfladen, og er derfor et udfald fra en poissonfordeling.
Hver af de 180 undersøgte strukturer kan enten være nanosaws eller nanowires, og de 74 nanosaws er derfor et udfald fra en binomialfordeling.
For at undersøge hypotesen at der er lige stor sandsynlighed for at få en nanosaw som en nanowire, bruges resultat 3.7.1
Da 74 er mindre end $\frac{1}{2}\cdot 180=90$ , forkastes hypotesen, at sandsynligheden for en nanosaw er $\frac{1}{2}$ .
Hvis $p$ -værdien er mindre end $0.05$ , for et test af hypotesen at sandsynligheden for en nanosaw er $\frac{1}{2}$ , forkastes hypotesen.

Her følger nu spørgsmål til en analyse af data.

Opstil en statistisk model til beskrivelse af observationen 74 nanosaws. Overfør bogens Statistisk Model nummer til svarAflevering1.txt.
Undersøg, om data er i overensstemmelse med hypotesen, at sandsynligheden for en nanosaw er $\frac{1}{2}.$ Overfør $p$ -værdien fra dit test, med fire decimaler, til svarAflevering1.txt.
Lav et 95%-konfidensinterval for sandsynligheden for en nanosaw. Overfør den øvre grænse i konfidensintervallet, med fire decimaler, til svarAflevering1.txt.

I et dosis-respons eksperiment testes effekten af et stof ved forskellige doser. For hver dosis

t_i

testes

n_i

individer, og der registreres, at

x_i

af disse reagerer. Den relevante model er binomialmodellen (samme som multinomialmodellen med

k=2

kasser)

X_i\sim\text{binom}(n_i,p_i),\enspace i=1,\ldots,r,

hvor

r

er antallet af forskellige doser der testes.

Tabellen nedenfor viser resultatet af et eksperiment med

r=4

forskellige doser.

\begin{array}{ccc}\hline \text{Dosis }(t) & \text{Antal testede }(n) & \text{Antal der reagerer }(x) \\ \hline -1.0 & 68 & 14 \\ -0.5 & 60 & 29 \\ 0.5 & 76 & 47 \\ 1.0 & 84 & 62 \\ \hline \end{array}

Lav for hver dosis et 95%-konfidensinterval for $p_i.$
Oversæt de fundne konfidensintervaller til konfidensintervaller for parameteren $\theta=\log\big(\frac{p}{1-p}\big)$ (kaldes log-odds).
Lav en figur, hvor skøn $\hat\theta_i$ afsættes mod dosis $t_i.$
Indsæt i figuren lodrette linjestykker, svarende til konfidensintervallet for log-odds for hver dosis.
Beskriv den sammenhæng, du ser i figuren mellem log-odds og dosis.

Betragt situation og data som i foregående opgave (opgave 2.9). Idet binomialmodellen er ækvivalent med multinomialmodellen med

k=2

kasser kan vi skrive data som

\begin{array}{cc}\hline \text{Antal der reagerer }(x) & \text{Antal der ikke reagerer }(n-x) \\ \hline 14 & 54 \\ 29 & 31 \\ 47 & 29 \\ 62 & 22 \\ \hline \end{array}

De forventede i den logistiske dosis-responsmodel er

e_{i1}=n_i\frac{e^{\hat\alpha+\hat\beta t_i}}{1+e^{\hat\alpha+\hat\beta t_i}} \enspace\text{og}\enspace e_{i2}=n_i\frac{1}{1+e^{\hat\alpha+\hat\beta t_i}},

for

i=1,2,3,4.

Hvis man fitter den logistiske dosis-responsmodel til data, bliver skøn over de to parametre

\hat\alpha=0.03532,\quad\hat\beta=1.03691.

Lav et test for at data kan beskrives med den logistiske dosis-responsmodel (se afsnit 3.8.1 for metoden).

Betragt data fra opgave 2.1 ovenfor, hvor 180 nanostrukturer er inddelt i tre kategorier.

Lav et 95%-konfidensinterval for andelen af nanowires blandt nanostrukturerne.

Antal jordskælv af en given styrke inden for et givet tidsrum og et givet geografisk område beskrives ofte med en poissonmodel. I tabellen nedenfor er jordskælv i New Zealand i perioden 1930-2015 (i alt 86 år) for tre styrkeintervaller på Richterskalaen.

\begin{array}{ccc}\hline \text{Interval} & \text{Midtpunkt} & \text{Antal jorskælv} \\ \hline 6.0-6.3 & 6.15 & 72 \\ 6.3-6.6 & 6.45 & 41 \\ 6.6-6.9 & 6.75 & 25 \\ \hline \end{array}

Lav for hvert styrkeinterval et 95%-konfidensinterval for raten $\lambda$ af jordskælv per år.
Oversæt de fundne konfidensintervaller til konfidensintervaller for logaritmen til raten per år, det vil sige parameteren $\theta=\log(\lambda).$
Lav en figur, hvor skøn $\hat\theta_i,$ $i=1,2,3,$ afsættes mod midtpunktet af styrkeintervallet.
Indsæt i figuren lodrette linjestykker, svarende til konfidensintervallet for logaritmen til raten for hvert styrkeinterval.
Beskriv den sammenhæng, du ser i figuren mellem logaritmen til raten og midtpunktet af styrkeintervallet.

Dette er en fortsættelse af opgave 2.12. Det samlede antal jordskælv i de tre styrkeintervaller er 138. Hvis vi forestiller os, at vi holder det samlede antal fast på 138, kan vi (og det skal I i denne opgave) betragte de observerede antal

(75,41,25)

som et udfald fra en multinomialfordeling med

n=138

kast af en generel tresidet terning.

Hvis

\lambda_i,

i=1,2,3,

er raterne fra opgave 2.12, og

z_i

er midtpunktet for det

i

'te interval, er vi interesseret i at teste en lineær sammenhæng,

\lambda_i=\exp\big(\alpha+\beta z_i\big),\enspace (\alpha,\beta)\in\mathbf{R}^2.

I multinomialmodellen, der opstår, når vi holder

n=138

fast, svarer dette til hypotesen

\pi_i=\frac{e^{\beta z_i}}{e^{\beta z_1}+e^{\beta z_2}+e^{\beta z_3}}, \enspace i=1,2,3,\enspace \beta\in\mathbf{R}.

Den bedste værdi af

\beta

til beskrivelse af data er

\hat\beta=-1.865.

Lav, i multinomialmodellen, et test af denne hypotese.

Afsnit 3.9: Øvelse 2