Afsnit 7.8: Øvelse 5

I denne uges øvelser skal du blive fortrolig med den statistiske model for regressionsanalysen. Desuden skal du prøve at bruge funktionen ols i python, til analysen. Denne funktion skal du også bruge i øvelse 6 og 7.

Opgave 5.1: Regression

For at bestemme kobberindholdet (Cu-indhold) i en messingprøve kan man anvende titrering. Et alternativ til denne metode er at måle densiteten af messingprøven og sammenligne denne med densitetsdata fra en række prøver med kendt kobberindhold (sammenligne med en kalibreringskurve). Til dette formål skal man have bestemt sammenhængen, i dette tilfælde lineær, mellem kobberindholdet og densiteten, og data i tabellen nedenfor viser måling af densiteten for en række prøver med kendt kobberindhold. Data findes også i filen Kobberindhold.csv, hvor første søjle er kobberindholdet og anden søjle er densitet.

$\begin{array}{c c} \\ \hline \text{Kobberindhold (\%)} & \text{Densitet }(\text{g/cm}^3)\\ \hline 10 & 7.358 \\ 20 & 7.501 \\ 30 & 7.722 \\ 40 & 7.858 \\ 50 & 8.044 \\ 60 & 8.307 \\ 70 & 8.485 \\ 80 & 8.667 \\ 90 & 8.812 \\ 100 & 8.960 \\ \hline \end{array}$

Indlæs data, og dan variablene indhold og densitet med indholdet af de to søjler. Lav en figur, hvor densitet tegnes op mod indhold (indhold langs førsteaksen og densitet langs andenaksen).
Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable ?
Opskriv den lineære regressionsmodel for data (husk at angive Statistisk Model nummer).
Estimer parametrene i modellen.
Udregn den skønnede linjes værdi når kobberindholdet er 35%.
Lav henholdsvis et residualplot og et normal-qqplot af residualerne. Kommenter på hvad du ser i figurerne.
Angiv den største værdi blandt residualerne.
Angiv 95%-konfidensintervaller for henholdsvis skæring og hældning i den lineære sammenhæng mellem middelværdien af densitet og indhold.
Eftervis, at konfidensintervallet for hældningen, fundet gennem et kald til ols i python er korrekt, ved at bruge oplysninger om parameterskøn og standard error.
Skæringen i den lineære sammenhæng repræsenterer densiteten af rent zink. Densiteten af rent zink er bestemt med røntgendiffraktion til at være $7.140\,\text{g/cm}^3.$ Lav et test for, om skæringen i den lineære sammenhæng mellem densitet og kobberindhold stemmer overens med densiteten for rent zink. Angiv Resultat nummer der bruges samt $p$ -værdien i testet.
Overvej, hvordan du som analytisk kemiker vil have det med at bruge en måling af densitet til at fastlægge indholdet af kobber.
Du kan lave et tankeeksperiment: Hvis du har målt densiteten af en prøve til $y,$ kan du lave et approksimativt 95%-konfidensinterval for den sande densitet som $y\pm 2s,$ hvor $s$ er skønnet over spredningen i regressionsmodellen. Tager du nu endepunkterne i dette interval og transformerer via den skønnede linje til værdier for kobberindholdet, kan du se på hvor stor forskel der er mellem de to værdier.

Opgave 5.2: Regressionsanalyse med prædiktion

Forskere fra Aarhus Universitet og Københavns Universitet studerer i artiklen Unraveling structural and magnetic information during growth of nanocrystalline SrFe $\text{\textunderscore}$ 12O $\text{\textunderscore}$ 19 dannelsen af $\text{SrFe}_{12}\text{O}_{19}$ (magnetic strontium hexaferrite) nanokrystallitter. I eksperimentet ønsker man at kende og styre temperaturen i opstillingen. Til dette er der lavet et kalibreringseksperiment, hvor man måler temperaturen som funktion af en valgt temperaturindstilling og beskriver sammenhængen med en linje. I studiet af nanokrystallitterne angives temperaturen så ud fra den valgte temperaturindstilling og den fundne lineære sammenhæng. I denne opgave skal I se på præcisionen af den således angivne temperatur.

Data i denne opgave er simulerede ud fra oplysningerne i figur S1 i artiklen og gengivet i nedenstående tabel. Data findes også i filen TempKalibrering.csv, hvor første søjle er den valgte temperaturindstilling, og den anden søjle er den målte temperatur (begge i grader celcius).

$\begin{array}{lccccccc} \\ \hline \text{Valgt indstilling} & 150 & 180 & 200 & 250 & 300 & 350 & 400 \\ \text{Temperatur} & 134.19 & 162.56 & 181.14 & 226.35 & 273.88 & 319.72 & 366.55 \\ \hline \end{array}$

Lad valgt være den valgte temperaturindstilling, og lad temp indeholde den målte temperatur. Lav en figur, hvor temp afsættes mod valgt. Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable ?
Hvor mange af punkterne i figuren ligger under linjen med skæring 30 og hælning 0.8 ?
Opskriv den lineære regressionsmodel for data, og estimer parametrene i modellen. Indtegn den fundne linje i figuren med data.
Angiv et 95%-konfidensinterval for hældningen.
Lav et skøn og et 95%-konfidensinterval over ændringen i middelværdi af den målte temperatur, når den valgte temperaturindstilling ændres fra 200 til 205.
Lav et 95%-konfidensinterval for middelværdien af temperaturen, når den valgte temperaturindstilling er 280.
Lav dernæst et prædiktionsinterval for en kommende temperaturmåling, når den valgte temperaturindstilling er 280.
Kan du forklare, hvorfor prædiktionsintervallet er over dobbelt så bredt som konfidensintervallet ?
Indtegn prædiktionsintervallet som et lodret linjestykke i din figur (benyt eventuelt errorbar).
Hvis du gerne vil have en temperaturmåling over 255, vil du så lave en temperaturindstilling på 280, 281, 282 eller 283 ?

Opgave 5.3: Bruge kalibreringskurve

Vend tilbage til data og problemstilling i opgave 5.1. I skal nedenfor bruge det output I fik i opgave 5.1 fra funktionen ols.

For en ny messingprøve er der lavet en måling af densiteten med værdien 7.648. Opgaven her går ud på at lave et konfidensinterval for denne prøves kobberindhold.

Lav et 95%-konfidensinterval for kobberindholdet i den nye prøve ved brug af metoden beskrevet i Afsnit 7.5.
Overrasker bredden på konfidensintervallet dig ?

Opgave 5.4: Ophobningsloven

I foregående opgave lavede I et eksakt konfidensinterval i forbindelse med invers regression, altså situationen, hvor man ønsker at sige noget om værdien af den forklarende variabel ud fra observation af respons i den lineære regressionsmodel.

I vil ofte støde på et andet konfidensinterval baseret på ophobningsloven anvendt på $\hat\theta=(\bar Y-\hat\alpha)/\hat\beta,$ hvor $\bar Y\sim N(\alpha+\beta\theta,\sigma^2/m).$ Her er $m$ antallet af gentagne målinger, hvor værdien af den forklarende variabel er den ukendte $\theta$ . Ophobningsloven giver

$\text{std}_s(\hat\theta)= \frac{s}{|\hat\beta|}\sqrt{\frac{1}{m}+\frac{1}{n}+ \frac{(\hat y-\bar x)^2}{\hat\beta^2 \mathit{SSD}_t}},$ hvor $s$ er skønnet over spredningen i regressionsmodellen for data $(t_i,x_i)$ $i=1,\ldots,n,$ og $\mathit{SSD}_t=\sum_i(t_i-\bar t)^2.$ I kan for eksempel se denne formel på wikipedias side om kalibrering såvel som i bogen Quantitative Chemical Analysis, som nogen af jer kender fra et kursus i analytisk kemi. Et approksimativt 95%-konfidensinterval beregnes nu som $\hat\theta\pm 1.96\cdot\text{std}_s(\hat\theta),$ eller eventuelt som $\hat\theta\pm t_0\cdot\text{std}_s(\hat\theta),$ hvor $t_0$ er 97.5 procent fraktilen i en $t(n-2)$ -fordeling.

I denne opgave skal I prøve, om I kan komme frem til formlen ovenfor for standard error. Fra resultat 7.2.1 har vi

$\text{Var}(\hat\alpha)= \sigma^2\Big( \frac{1}{n} + \frac{\bar t ^2}{\mathit{SSD}_t} \Big) \quad\text{og}\quad \text{Var}(\hat\beta)=\frac{\sigma^2}{\mathit{SSD}_t}.$ Derudover kan man vise, at

$\text{Cov}(\hat\alpha,\hat\beta)= - \frac{\sigma^2}{\mathit{SSD}_t}\bar t.$ Da $\bar Y$ er baseret på nye målinger uafhængige af $(\hat\alpha,\hat\beta),$ har vi

$\text{Var}(\bar Y-\hat\alpha)= \frac{\sigma^2}{m}+\text{Var}(\hat\alpha) \quad\text{og}\quad \text{Cov}(\bar Y-\hat\alpha,\hat\beta)=-\text{Cov}(\hat\alpha,\hat\beta) =\frac{\sigma^2}{\mathit{SSD}_t}\bar t.$

Angiv $\text{std}_s(\bar Y-\hat\alpha),$ $\text{std}_s(\hat\beta)$ og $\text{Cov}_s(\bar Y-\hat\alpha,\hat\beta).$
Benyt ophobningsloven til at vise formlen for $\text{std}_s(\hat\theta).$ (Vink: til sidst i beregningen skal I erstatte $(\bar y-\hat\alpha)$ med $(\bar y-\bar x)+\hat\beta\bar t$ .)
Beregn $\text{std}_s(\hat\theta)$ for situationen i den foregående opgave, og lav et approksimativt 95%-konfidensinterval for $\theta.$ I finder de nødvendige estimater og standard errors fra output i foregående opgave pånær $\text{Cov}_s(\hat\alpha,\hat\beta)=-0.000008158.$
Sammenlign intervallet med det eksakte interval fra foregående opgave.

Opgave 5.5: Approksimativt konfidensinterval

I de to foregående opgaver har I brugt henholdsvist et eksakt og et approksimativt konfidensinterval i den inverse regressionssituation. Det eksakte og det approksimative konfidensinterval vil især afvige fra hinanden, når der er relativ stor usikkerhed på skønnet over hældningen i regressionen.

For at illustrere dette har jeg lavet et datasæt med kun fire observationer og med opdigtede data. Responsværdierne ligger i en vektor respons, og de forklarende værdier i en vektor forklar. I kodevinduet nedenfor har jeg indskrevet datasættet. Desuden har jeg i opstartskoden indskrevet funktionen inversReg, samt en funktion approxInversReg der beregner det approksimative 95%-konfidensinterval omtalt i opgaven ovenfor. Input til approxInversReg er som input til inversReg.

Se opstartskoden (til/fra)

Forklar, at som koden er nu, beregnes de to konfidensintervaller i tilfældet, hvor der er lavet en enkelt ny måling, og denne har responsværdien 4.0.
Kør koden, og kommenter på de to konfidensintervaller
Prøv at ændre "4.0" til "4,4,4,4". Kan du forklare, hvorfor dette ikke ændrer så meget på konfidensintervallerne ?
Prøv eventuelt at finde et 95%-konfidensinterval for hældningen i regressionsmodellen for data.

Opgave 5.6: Multiple choice opgave

Betragt regressionsmodellen med forklarende variabel $t,$ hældning $\beta$ og skæring $\alpha.$ I udsagnene nedenfor er der et eller to korrekte svar. Find disse.

I regressionsmodellen vokser spredningen lineært med den forklarende variabel.
Hvis hældningen $\beta$ er negativ skal, skæringen $\alpha$ være positiv.
Hvis vi trækker 3 fra alle værdierne af den forklarende variabel, vil skønnet $\hat\beta$ over hældningen også blive 3 mindre.
Standard error, for skønnet $\hat\alpha+\hat\beta t_*$ for linjens værdi i punktet $t_*,$ er mindst, når $t_*$ er lig med gennemsnittet af værdierne for den forklarende variabel.
Hvis skønnet $s_r$ over spredningen er mindre end 1.96, vil vi acceptere hypotesen, at skæringen er nul.

Opgave 5.7: Lambert-Beers lov

Denne opgave omhandler måden, hvorpå absorption af lys i en væske afhænger af koncentrationen af et absorberende molekyle i væsken, og hvordan vi kan bruge dette til at estimere koncentrationen ud fra en målt lysintensitet. Man måler lysintensiteten $I$ ved forskellige kendte koncentrationer af det absorberende molekyle. På denne måde får man etableret en kalibreringkurve, der efterfølgende kan benyttes til at finde koncentrationen af molekylet i en prøve ud fra en måling af lysintensiteten efter lysets passage gennem prøven.

Absorption af denne type beskrives typisk via Lambert-Beers lov:

$I=I_0 \exp\big\{-\varepsilon v c\big\}. \tag{7.8.1}$ Her er $\varepsilon$ absorptionskoefficienten for det absorberende molekyle, $v$ er vejlængden gennem materialet, $c$ er koncentrationen af molekylet og $I_0$ er lysintensiteten når koncentrationen er nul.

I denne opgave betragter vi en serie målinger af lysintensiteten $I$ som funktion af koncentrationen for en opløsning af Rhodamine 6G i ethanol. Den benyttede vejlængde gennem opløsningen er $v=1.00\,\text{cm}.$ Egentligt burde man i modelleringen af data også tage hensyn til, at koncentrationen af opløsningsmidlet ethanol ændrer sig, når koncentrationen af Rhodamine ændres, men denne effekt er så lille, at vi kan se bort fra den. Tager vi logaritmen på begge sider i Lambert-Beers lov (7.8.1), får vi

$H= \alpha -\varepsilon v c, \tag{7.8.2}$ hvor $\alpha=\log(I_0)$ og $H=\log(I)$ .

Tabellen nedenfor giver den målte værdi af lysintensiteten $I$ for 16 forskellige valg af koncentrationen. Data findes i filen LambertBeer.csv i form af to søjler, hvor første søjle er koncentration, og anden søjle er lysintensiteten.

$\begin{array}{c r|c r} \\ \hline c (\mu\text{M}) & \text{Lysintensitet (a.u.)} & c (\mu\text{M}) & \text{Lysintensitet (a.u.)}\\ \hline 0 & 11275 &8 & 4042\\ 1 & 9102 &9 & 3646 \\ 2 & 8112 &10 & 3212 \\ 3 & 7094 &11 & 2853 \\ 4 & 6430 &12 & 2529 \\ 5 & 5773 &13 & 2264 \\ 6 & 5006 &14 & 2002 \\ 7 & 4474 &15 & 1783 \\ \hline \end{array}$

Dan en variabel logLys med logaritmen til de målte lysintensiteter og en variabel konc med koncentrationerne af Rhodamine 6G. Lav en figur, hvor $\mathit{logLys}$ afsættes mod koncentrationen konc. Husk enheder på akserne!
Synes du, at der er en lineær sammenhæng i data ? Synes du, at sammenhængen er god, med henblik på at estimere koncentration ud fra lysintensiteten ?
Opskriv den lineære regressionsmodel, hvor respons er logaritmen til lysintensiteten, og den forklarende variabel er koncentration. Forklar, at regressionskoefficienten $\beta$ i denne model er $\beta=-\varepsilon v$ .
Find skøn og 95%-konfidensinterval for hældning og skæring, og indtegn den skønnede linje i figuren fra foregående spørgsmål. Angiv også et skøn over spredningen $\sigma$ omkring den lineære sammenhæng.
Betragt data omkring Lambert-Beers lov. Beregn et 95%-konfidensinterval for den ukendte koncentration af Rhodamine 6G i tre tilfælde med en enkelt ny måling af lysintensiteten. I tilfælde 1 er målingen $2654$ , i tilfælde 2 er målingen $4512$ og i tilfælde 3 er målingen $7688$ . Lav en tabel med resultaterne.

Opgave 5.8: Afleveringsopgave 4

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering4.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.

For at måle mængden af protein i en opløsning bruges ofte et Bradford protein assay. Man måler absorbansen ved en bestemt bølgelængde og denne stiger med mængden af protein. I artiklen Linearization of the Bradford Protein Assay betragtes i stedet forholdet mellem absorbansen ved to bølgelængder, hvorved der opnås en lineær sammenhæng i et stort område. I artiklen er et datasæt til etablering af en kalibreringskurve, der så efterfølgende kan bruges til bestemmelse af proteinindholdet i en ny prøve. Datasættet er vist i tabellen nedenfor og kan findes i filen Bradford.csv, der indeholder to søjler med henholdsvis mængden af protein BSA (Bovine serum albumin) og respons i form af absorbansratio.

$\begin{array}{lcccccc}\hline \mu\text{g BSA} & 0 & 1 & 2 & 3 & 4 & 5 \\ \text{Absorbansratio} & 0.457 & 0.791 & 1.115 & 1.460 & 1.849 & 2.223 \\ \hline \end{array}$

Lav en figur, hvor absorbansratio afsættes mod BSA.
Vurder ud fra figuren, om den skønnede linje gennem punkterne har en hældning, der er under eller over 0.6. Overfør svaret til svarAflevering4.txt i form af 1 hvis hældning er under 0.6 og i form af 2 hvis hældning er over.
Opstil en statistisk model for data. Overfør Statistisk Model nummer til svarAflevering4.txt.
Estimer parametrene i modellen. Overfør skøn over spredningen omkring linjen, med 3 decimaler, til svarAflevering4.txt
Beregn et 95%-konfidensinterval for hældningen i den lineære sammenhæng mellem middelværdien af Absorbansratio og BSA.
Angiv Resultat nummer som bruges til beregningen af konfidensintervallet, og overfør dette til svarAflevering4.txt.
Overfør det øvre endepunkt i intervallet, med 3 decimaler, til svarAflevering4.txt.
Betragt en ny prøve med ukendt indhold af BSA, hvor absorbansratio er målt til 0.98. Angiv et 95%-konfidensinterval for det ukendte indhold af BSA. Overfør det øvre endepunkt i intervallet, med 3 decimaler, til svarAflevering4.txt.

Opgave 5.9: Vælge temperaturindstilling

Betragt situationen og data i opgave 5.2 med regression af temperatur på den valgte temperaturindstilling, det vil sige modellen, hvor middelværdien af temperaturen er $E(\text{Temp})=\alpha+\beta\cdot \text{valgt}.$ Fra data får man følgende estimater.

$\begin{aligned} & \hat\alpha=-4.800,\enspace \text{std}_s(\hat\alpha)=0.5825,\quad \hat\beta=0.9279,\enspace \text{std}_s(\hat\beta)=0.002117, \\ & \text{Cov}_s(\hat\alpha,\hat\beta)=-0.001172. \end{aligned}$

Betragt nu et ønske om at lave en temperaturindstilling, således at temperaturen bliver 200 grader celcius. Den ønskede indstilling er $\theta=(200-\alpha)/\beta.$

Lav et approksimativt 95%-konfidensinterval for parameteren $\theta.$

Opgave 5.10: Lineær kombination

Betragt den lineære regressionsmodel med $E(X_i)=\alpha+\beta t_i.$ Lad $a$ og $b$ være to kendte og faste tal, og betragt parameteren $\theta=a\alpha+b\beta$ og det tilhørende estimat $\hat\theta=a\hat\alpha+b\hat\beta.$

Benyt resultaterne i starten af afsnit 7.5 for at angive en formel for $\text{std}_s(\hat\theta).$
Betragt data fra opgave 5.2 og parameteren $\theta$ i situationen med $a=2$ og $b=3.$ Lav et 95%-konfidensinterval for $\theta.$

Foregående Næste