I artiklen Ultrasmooth gold surfaces prepared by chemical mechanical polishing for applications in Nanoscience beskrives en ny måde at lave meget glatte overflader. Ruheden af en overflade måles på AFM billeder (atomic force microscopy) og måles i nanometer. Der er målinger på 60 overflader (data i opgaven her er baseret på figur 2 i artiklen). Data ligger i filen Guldoverflade.txt.

De 60 målinger af ruheden er fremkommet ved, at der på 5 wafers er udvalgt 12 områder, hvor ruheden er målt. En enkelt måling består i, at et

1\times 1\,\mu\text{m}^2

stort område betragtes via atomic force microscopy. Indenfor dette område måles overfladens højde i nanometer i et stort antal punkter, og den empiriske spredning af disse højder beregnes og kaldes ruheden. I denne opgave skal I angive den viden, vi har ud fra de 60 målinger om overfladeruheden ved den anvendte produktionsproces. Middelværdien siger noget om, hvilken ruhed processen generelt producerer, og spredningen siger noget om stabiliteten i processen. Artiklen, hvor data stammer fra, vedrører en ny måde (chemical mechanical polishing) at producere overflader på. Den tidligere anvendte metode (template stripped) giver ifølge forfatterne en ruhed på 0.37 nM.

Denne opgave kan formuleres kort som følger. Opstil en statistisk model for ruheden, lav inferens for parametrene i modellen, og overvej om den nye produktionsmåde giver ruheder sammenlignelige med den tidligere metode. Skrevet ud bliver dette til følgende spørgsmål.

Indlæs data fra filen Guldoverflade.txt. Lav et normal-qqplot af data og kommenter på figuren.
Angiv andenkoordinaten, med to decimaler, til det anden-øverste punkt
Opskriv en statistisk model for data.
Angiv skøn og 95%-konfidensinterval for middelværdien af ruheden. Angiv resultat fra bogen til konstruktion af konfidensintervallet.
Angiv skøn og 95%-konfidensinterval for spredningen af ruheden. Angiv resultat fra bogen til konstruktion af konfidensintervallet.
Angiv $p$ -værdien for et test af hypotesen, at middelværdien af ruheden er 0.37, svarende til template stripped-metoden. Hvilken fordeling bruges til at finde $p$ -værdien ?

Til sidst følger her en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse.

I et normal-qqplot vil punktet yderst til venstre altid have den største andenkoordinat.
Hvis gennemsnittet af observationer afviger mere end 2 fra $\mu_0$ , hvor vi ønsker at teste hypotesen, at middelværdien er $\mu_0$ , så vil vi altid forkaste hypotesen.
For data i denne opgave kan vi acceptere hypotesen, at middelværdien er 0.39.
Antallet af frihedsgrader i $t$ -fordelingen, der anvendes til test af, at middelværdien har en bestemt værdi, er generelt $n-1-2$ , hvor $n$ er antallet af observationer.

Polyomavirus er en gruppe virus, der kan give anledning til forskellige sygdomme og kan specielt være et problem i forbindelse med forskellige transplantationer. Det er vigtigt at kunne monitorere mængden af virus i et sygdomsforløb. Imidlertid anvender forskellige laboratorier forskellige målemetoder, som kan give sammenligningsproblemer. I artiklen An in-house assay for BK polymavirus quantification using the Abbott m2000 RealTime system undersøges en målemetode, der kan implementeres på det enkelte hospital, hvorved man kan undgå sammenligningsproblemet.

I skal i denne opgave se på en sammenligning af den nye målemetode (Abbott) med målinger foretaget med en anden metode på et andet laboratorium (laboratorie A). Der indgår 20 prøver, hvor indholdet af polyomavirus er målt både med den nye metode og med den anden metode på laboratorie A. Data er aflæst fra figur 2 i artiklen og findes i filen BKquantification.csv. Filen har tre søjler, første søjle er prøvenummer, anden søjle er måling fra laboratorie A og tredje søjle er den nye måling med Abbott-systemet. Målingerne er

\log_{10}

transformerede værdier af antal kopier per milliliter.

Indlæs data, og dan tre vektorer med indholdet i de tre søjler, se eventuelt det skjulte punkt omkring indlæsning i afsnit 1.6.
Lav en figur, hvor den målte værdi fra Abbott systemet tegnes op mod værdien fra laboratorie A (laboratorie A værdierne skal være ud af førsteaksen og Abbott værdierne op langs andenaksen). Indtegn identitetslinjen i figuren (afsnit Py.2.4.) Angiv, hvor mange punkter der ligger over identitetslinjen.
Kan du ud fra figuren lave en forløbig vurdering af om de to målemetoder giver det samme resultat ?
Betragt nu de 20 differenser bestående af den målte værdi fra Abbott systemet minus den målte værdi fra laboratorie A. Lav et normal qqplot af differenserne, og opskriv en statistiske model for disse.
Lav et test for hypotesen, at middelværdien af differensen er nul, svarende til hypotesen, at der ikke er forskel mellem de to målemetoder.
Lav dernæst et 95%-konfidensinterval for middelværdien af differensen.
Hvad bliver konklusionen af disse udregninger ?

I analytisk kemi bestemmer man ofte koncentrationen af et stof ved spektroskopi og brug af Beers lov, hvor lys sendes gennem en opløsning med stoffet. Beers lov siger, at

A=\epsilon v c,

hvor

A

er absorbansen givet ved

\log_{10}

af forholdet mellem lysmængden før og efter passage af opløsningen,

v

er den vejlængde, lyset skal tilbagelægge (cm),

c

er koncentrationen af stoffet (mol/L,) og

\epsilon

er den molare absorptionskoefficient (L/(cm

\cdot

mol),) der karakteriserer stoffet. Beers lov giver, at koncentrationen er

c=A/(\epsilon v).

Den følgende tabel giver et eksempel med målte værdier (

\hat A

,

\hat v

,

\hat\epsilon

) af

A

,

v

og

\epsilon

og med tilhørende standard errors.

\begin{array}{l rr } \\ \hline \text{Variabel} & \text{Måling} & \text{Usikkerhed, }\text{std}_s \\ \hline A & 0.172807 & 0.000008 \\ v\,(\text{cm}) & 1.0 & 0.1 \\ \epsilon\,(\text{L/(cm}\cdot\text{mol})) & 0.0126 & 0.0031 \\ \hline \end{array}

Beregn skøn for koncentrationen $c$ med de målte værdier i tabellen ovenfor.
Vis, at de partielt afledede af funktionen $c(A,v,\epsilon)$ udregnet i $(\hat A,\hat v,\hat\epsilon)$ er $\hat c_A=79.3651,\quad \hat c_v=-13.7148,\quad \hat c_\epsilon=-1088.479.$
Beregn standard error for koncentrationen $c$ med de målte værdier i tabellen ovenfor, og under antagelsen at de målte værdier er stokastiske uafhængige. Angiv Resultat fra webbogen der bruges.
Hvis I havde muligheden for at nedsætte en af standard errors i tabellen ovenfor til det halve, hvilken af de tre ville I så vælge ?
Beregn et approksimativt 95%-konfidensinterval for koncentrationen. Angiv Resultat fra webbogen der bruges.
Ophobningsloven kan for eksemplet i denne opgave skrives som $\text{std}_s(\hat c)= \hat c\sqrt{\Big(\frac{\text{std}_s(\hat A)}{\hat A}\Big)^2+ \Big(\frac{\text{std}_s(\hat v)}{\hat v}\Big)^2+ \Big(\frac{\text{std}_s(\hat \epsilon)}{\hat\epsilon}\Big)^2}$ under antagelsen om, at de målte værdier af $A$ , $v$ og $\epsilon$ er stokastisk uafhængige. Kan du eftervise denne formel ?

Den følgende tabel giver målte værdier af parametrene

\mu_1

og

\mu_2

og tilhørende standard errors. De to målinger er stokastisk uafhængige. Betragt funktionen

f(\mu_1,\mu_2)=\mu_1-2\mu_2

og parameteren

\theta=f(\mu_1,\mu_2).

\begin{array}{l rr } \\ \hline \text{Variabel} & \text{Måling }\hat\mu & \text{Usikkerhed, }\text{std}_s \\ \hline \mu_1 & 32 & 3 \\ \mu_2 & 10 & 2 \\ \hline \end{array}

Nedenfor er der 1 eller 2 korrekte svar. Find disse.

Et approksimativt 68%-konfidensinterval for $\theta$ kan skrives som $\hat\theta\pm 0.68\cdot\text{std}_s(\hat\theta).$
Da den afledede af funktionen $f$ med hensyn til $\mu_2$ er negativ kan vi ikke bruge ophobningsloven.
Det approksimative 95%-konfidensinterval for $\theta$ er lige langt på begge sider af $\hat\theta.$
Data strider ikke mod hypotesen $\theta=10.$
Hvis data er af dårlig kvalitet kan standard error for $\hat\theta$ blive negativ.

Betydningen af nanopartikler i naturen diskuteres ofte. En måde at måle betydningen på er ved kontrollerede eksperimenter, hvor dødeligheden af for eksempel embryoer af zebrafisk undersøges, når disse opholder sig i en opløsning med nanopartikler. Som måleenhed for dødeligheden bruger man parameteren

\theta=\text{LC}_{50}

(lethal concentration), som er den log-koncentration, hvorunder 50% af embryoerne ikke overlever at opholde sig i opløsningen i et fast tidsrum.

I tabellen nedenfor er resultaterne fra figur 4 i artiklen Comparative metal oxide nanoparticle toxicity using embryonic zebrafish. For hver af 7 koncentrationer (Zn Ion Equivalent) af nanopartikler er der registreret, hvor mange ud af 32 embryoer der dør.

\begin{array}{l ccccccc } \\ \hline \text{Koncentration (mg/l)} & 0.3125 & 0.625 & 1.25 & 2.5 & 5 & 10 & 20 \\ \hline \text{Antal testede} & 32 & 32 & 32 & 32 & 32 & 32 & 32 \\ \text{Antal døde} & 0 & 2 & 8 & 12 & 23 & 30 & 29 \\ \hline \end{array}

For data i denne tabel er det naturligt at bruge modellen

\text{Doede}_i\sim\text{binomial}(n_i,p_i), \enspace i=1,\ldots,7,

hvor

\text{Doede}_i

er det stokastiske antal døde blandt

n_i

embryoer ved koncentration nummer

i

. Hvis

d_i

angiver logaritmen til den

i

'te koncentration, bruges ofte den logistiske regressionsmodel, der er på formen

p_i=\frac{e^{\alpha+\beta d_i}}{1+e^{\alpha+\beta d_i}}. \tag{5.7.1}

Modellen har således to parametre

\alpha

og

\beta

, og i denne model er

\text{LC}_{50}

givet ved

\theta=-\alpha/\beta

. Figuren nedenfor viser fraktionen af døde, det vil sige

x_i/n_i

, afsat mod log koncentration

d_i

. Endvidere er den estimerede logistiske kurve indtegnet, det vil sige kurven

(d,\hat p(d))

med

\hat p(d)=\exp\big(\hat\alpha+\hat\beta d\big)\big/\big( 1+\exp\big(\hat\alpha+\hat\beta d\big)\big), \quad \hat\alpha=-1.8132,\enspace \hat\beta=1.6548.

En analyse af data giver følgende parameterskøn og standard errors:

\begin{aligned} \text{Skøn:}& \enspace\hat\alpha=-1.8132,\enspace \hat\beta=1.6548, \\ \text{Standard errors:}& \enspace\text{std}_s(\hat\alpha)=0.2912,\enspace \text{std}_s(\hat\beta)=0.2040,\enspace \text{Cov}_s(\hat\alpha,\hat\beta)=-0.0445. \end{aligned}

Beregn skønnet $\hat\theta$ over lethal concentration.
Vis, at de partielt afledede af $\theta$ , udregnet i $(\hat\alpha,\hat\beta),$ er $\hat\theta_\alpha=-0.6043, \quad \hat\theta_\beta=-0.6621.$ Find standard error $\text{std}_s(\hat\theta)$ ud fra ophobningsloven.
Lav et approksimativt 95%-konfidensinterval for $\theta$ .
Virker det fundne interval rimeligt, i forhold til hvad I kan se i figuren ovenfor ?

Hvis man i beregningen af standard error glemmer kovariansen mellem

\hat\alpha

og

\hat\beta

vil man få et dobbelt så bredt konfidensinterval!

I denne opgave fortsætter vi med bestemmelsen af koncentrationen af et stof via Beers lov som i opgave 3.3 ovenfor. Vi vil også bruge de målte værdier fra tabellen i den opgave. I denne opgave skal I forbedre det approksimative konfidensinterval fra ophobningsloven ved hjælp af simulationer som i eksemplet med gaskonstanten i afsnit 5.6. I skal bruge koden fra sidst i afsnit 5.5, idet I skifter de eksempelspecifikke dele ud.

Koncentrationen findes ud fra formlen

c=A/(\epsilon v).

Da

\epsilon

og

v

indgår i nævneren, skal I i simulationen lade disse to variable være nedadtil begrænsede. De partielt afledede af

c

er

c_A=\frac{1}{\epsilon v},\quad c_v=-\frac{A}{\epsilon v^2},\quad c_\epsilon=-\frac{A}{\epsilon^2 v}.

Betragt koden fra sidst i afsnit 5.5 og benyt rækkefølgen $A,v,\epsilon$ for de variable der indgår i koncentrationen $c.$ Se på den første eksempelspecifikke del.
Forklar at posList skal være på formen $0,1,1.$ Indsæt $\hat A,\hat v,\hat\epsilon$ i hatmu, og indsæt standard errors i stds.
Indsæt under hatTheta formlen $\hat c=\hat A/(\hat v\hat\epsilon)$ nu udtrykt ved hatmu, hvor første indgang er $\hat A,$ anden indgang er $\hat v$ og tredje indgang er $\hat\epsilon.$
Indsæt på tilsvarende måde under dthetaDmu formlerne for de partielle afledede af koncentrationen $c$ udtrykt ved hatmu.
Betragt dernæst den anden eksempelspecifikke del. Indet under tildeTheta formlen for koncentrationen, nu udtrykt ved søjlerne i muSim, hvor første søjle er simulerede målinger af $A,$ anden søjle er simulerede målinger af $v$ og tredje søjle er simulerede målinger af $\epsilon.$
Indsæt på tilsvarende måde under dtildeDmu formlerne for de partielle afledede af koncentrationen $c$ udtrykt ved søjerne i muSim.
Kør programmet og diskuter forholdet mellem det approksimative konfidensinterval beregnet i opgave 3.3 og det simulationsbaserede interval.
Tilføj i programmet kode til udskrivning af simulationsbaseret skøn over standard error $\text{print(np.sqrt(np.mean((tildeTheta-hatTheta)**2)))}$ Synes I, at spredningskønnet fra ophobningsloven i opgave 3.3 er tilfredsstillende i dette eksempel ?

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering2.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.

Bakterier kan dyrkes i en chemostat under kontrollerede betingelser. Den såkaldte væksteffektivitet

\xi

er defineret som

\xi(P,R)=P/(P+R)

, hvor

P

er en kulstofmåling og

R

er produktion af

\text{CO}_2.

I et eksperiment har man fået følgende uafhængige målinger (

\hat P

og

\hat R

med enhed mikromol carbon)

\begin{array}{l rr } \\ \hline \text{Variabel} & \text{Måling} & \text{Standard Error }\text{std}_s \\ \hline P & 43.49 & 4.33 \\ R & 242.83 & 8.75 \\ \hline \end{array}

Beregn et skøn over væksteffektiviteten $\xi$ . Overfør den fundne værdi, med fire decimaler, til svarAflevering2.txt.
Vis, at de partielle afledede af væksteffektiviteten udregnet i $(\hat P,\hat R)$ er $\hat\xi_P=0.002962,\quad\hat\xi_R=-0.0005305.$ Overfør det næste ciffer i $\hat\xi_R$ efter 5305 til svarAflevering2.txt.
Benyt ophobningsloven til at beregne standard error for skønnet over væksteffektiviteten. Angiv Resultat fra webbog til beregning af standard error. Ovefør både standard error, med fire decimaler, og Resultat nummer til svarAflevering2.txt.
Beregn et approksimativt 95%-konfidensinterval ud fra ophobningsloven. Overfør den øvre grænse i konfidensintervallet, med fire decimaler, til svarAflevering2.txt.

Opgaven her er inspireret af artiklen Growth efficiency and respiration at different growth rates in glucose-limited chemostats with natural bacteria populations

Betragt binomialmodellen

X\sim \text{binom}(n,p)

og skønnet

\hat p=\frac{X}{n}

over parameteren

p

. Der gælder (skal ikke vises) at standard error for

\hat p

er

\text{std}_s(\hat p)=\sqrt{\frac{1}{n}\hat p(1-\hat p)}. \tag{5.7.2}

Benyt ophobningsloven til at lave et approksimativt 95%-konfidensinterval for parameteren $\theta=\log\Big(\frac{p}{1-p}\Big)$ ( $\theta$ kaldes log-odds) i situationen med $x=48$ og $n=160.$

Denne opgave knytter an til den foregående opgave. Betragt to uafhængige binomialmodeller

\begin{aligned} X_1 & \sim \text{binom}(n_1,p_1), \\ X_2 & \sim \text{binom}(n_2,p_2). \end{aligned}

Odds i den første model er

\frac{p_1}{1-p_1},

og odds i den anden model er

\frac{p_2}{1-p_2}.

Oddsratio (OR) defineres som

\text{OR}=\frac{\frac{p_1}{1-p_1}}{\frac{p_2}{1-p_2}} =\frac{p_1(1-p_2)}{(1-p_1)p_2}.

Log-oddsratio (logOR) er derfor

\text{logOR}=\log\Big(\frac{p_1}{1-p_1}\Big) - \log\Big(\frac{p_2}{1-p_2}\Big)

Skøn over denne,

\text{logOR}_s,

fås ved at indsætte skøn over

p_1

og skøn over

p_2.

Benyt ophobningsloven til at finde standard error for $\text{logOR}_s$ under benyttelse af (5.7.2).
Lav et approksimativt 95%-konfidensinterval for log-oddsratio med følgende data $\begin{array}{lcc}\hline & x & n \\ \hline \text{Model 1} & 48 & 160 \\ \text{Model 2} & 35 & 140 \\ \hline \end{array}$

Betragt igen data fra opgave 3.1 med ruheden af 60 overflader.

Lav et tæthedshistogram af data.
Indtegn i histogrammet tætheden for en normalfordeling med middelværdi 0.3972 og spredning 0.04667 (se eventuelt koden i afsnit 3.5).

Betragt igen data fra opgave 3.1 med ruheden af 60 overflader.

Overvej, om du vil beskrive ruheden med en normalfordeling, eller om du vil beskrive logaritmen til ruheden med en normalfordeling.

Betragt igen data fra opgave 3.5 beskrevet med den logistiske regressionsmodel. Vi er særlig interesseret i situationen, hvor logaritmen til dosis er

d_0=1.2

.

Benyt ophobningsloven til at lave et approksimativt 95%-konfidensinterval for parameteren $\alpha+\beta d_0.$
Oversæt det fundne konfidensinterval til et konfideninterval for sandsynligheden for at dø, det vil sige $\exp(\alpha+\beta d_0)/(1+\exp(\alpha+\beta d_0)).$
Benyt i stedet ophobningsloven til at lave et approksimativt 95%-konfidensinterval for $\exp(\alpha+\beta d_0)/(1+\exp(\alpha+\beta d_0)).$

En blodprøve deles op i 5 dele, og en bioanalytiker måler blood urea nitrogen på hver af de 5 dele. Erfaringen viser, at sådanne målinger kan beskrives med en normalfordeling. Gennemsnit af de 5 målinger er 13.95 mg/dL, og den empiriske spredning er 0.42 mg/dL.

Lav et 95%-konfidensinterval for middelværdien af indholdet af blood urea nitrogen.

Afsnit 5.7: Øvelse 3