I denne uges øvelser skal du blive fortrolig med den
statistiske model for regressionsanalysen. Desuden skal du
prøve at bruge funktionen ols i python, til
analysen. Denne funktion skal du også bruge i
øvelse 6 og 7.
For at bestemme kobberindholdet (Cu-indhold) i en messingprøve kan man
anvende titrering. Et alternativ til denne metode er at
måle densiteten
af messingprøven og sammenligne denne med densitetsdata fra en
række prøver med kendt kobberindhold (sammenligne med en kalibreringskurve).
Til dette formål skal man have bestemt
sammenhængen, i dette tilfælde lineær, mellem
kobberindholdet og densiteten, og data i tabellen nedenfor
viser måling af densiteten for en række prøver med kendt kobberindhold.
Data findes også i filen Kobberindhold.csv, hvor første søjle
er kobberindholdet og anden søjle er densitet.
Indlæs data, og dan variablene indhold og densitet
med indholdet af de to søjler. Lav en figur, hvor densitet tegnes
op mod indhold (indhold langs førsteaksen og
densitet langs andenaksen). Er det rimeligt at sige, at der er en lineær
sammenhæng mellem de to variable ?
Opskriv den lineære regressionsmodel for data (husk at angive
Statistisk Model nummer).Estimer parametrene i modellen.
Udregn den skønnede linjes værdi når kobberindholdet er 35%.
Lav henholdsvis et residualplot og et normal-qqplot af
residualerne. Kommenter på hvad du ser i figurerne. Angiv den største værdi blandt residualerne.
Angiv 95%-konfidensintervaller for henholdsvis skæring og hældning
i den lineære sammenhæng mellem middelværdien af densitet og
indhold. Eftervis, at konfidensintervallet for hældningen,
fundet gennem et kald til ols i python er korrekt, ved at bruge
oplysninger om parameterskøn og standard error.
Skæringen i den lineære sammenhæng repræsenterer
densiteten af rent zink.
Densiteten af rent zink er bestemt med røntgendiffraktion til at
være
Lav et test for,
om skæringen i den lineære sammenhæng mellem
densitet og kobberindhold stemmer overens med densiteten for rent zink.
Angiv Resultat nummer der bruges samt
-værdien i testet.
Overvej, hvordan du som analytisk kemiker vil have det med at bruge
en måling af densitet til at fastlægge indholdet af kobber. Du kan lave et tankeeksperiment: Hvis du har målt densiteten af en prøve
til kan du lave et approksimativt 95%-konfidensinterval for den
sande densitet som hvor er skønnet over spredningen
i regressionsmodellen. Tager du nu endepunkterne i dette interval og
transformerer via den skønnede linje til værdier for kobberindholdet,
kan du se på hvor stor forskel der er mellem de to værdier.
Forskere fra Aarhus Universitet og Københavns Universitet studerer i artiklen
Unraveling structural and magnetic information during growth of nanocrystalline SrFe12O19
dannelsen af
(magnetic strontium hexaferrite) nanokrystallitter.
I eksperimentet ønsker man at kende og styre temperaturen i opstillingen.
Til dette er der lavet et kalibreringseksperiment, hvor man måler
temperaturen som funktion af en valgt temperaturindstilling
og beskriver sammenhængen med en linje.
I studiet af nanokrystallitterne angives temperaturen så ud fra den
valgte temperaturindstilling og den fundne lineære sammenhæng. I
denne opgave skal I se på præcisionen af den således angivne temperatur. Data i denne opgave er simulerede ud fra oplysningerne i figur S1 i
artiklen og gengivet i nedenstående tabel. Data findes også
i filen TempKalibrering.csv,
hvor første søjle er den valgte temperaturindstilling, og den anden søjle
er den målte temperatur (begge i grader celcius).
Lad valgt være den valgte temperaturindstilling,
og lad temp indeholde den målte temperatur.
Lav en figur, hvor temp
afsættes mod valgt.
Er det rimeligt at sige, at der er en
lineær sammenhæng mellem de to variable ?Hvor mange af punkterne i figuren ligger under linjen med skæring 30
og hælning 0.8 ?
Opskriv den lineære regressionsmodel for data, og estimer
parametrene i modellen.
Indtegn den fundne linje i figuren med data.
Angiv et 95%-konfidensinterval for hældningen. Lav et skøn og et 95%-konfidensinterval
over ændringen i middelværdi af den målte temperatur, når
den valgte temperaturindstilling ændres fra 200 til 205.
Lav et 95%-konfidensinterval for middelværdien af temperaturen,
når den valgte temperaturindstilling er 280. Lav dernæst et prædiktionsinterval for en kommende temperaturmåling,
når den valgte temperaturindstilling er 280. Kan du forklare, hvorfor prædiktionsintervallet er over dobbelt så
bredt som konfidensintervallet ?Indtegn prædiktionsintervallet som et lodret linjestykke i din figur
(benyt eventuelt errorbar).
Hvis du gerne vil have en temperaturmåling over 255, vil du så lave
en temperaturindstilling på 280, 281, 282 eller 283 ?
Vend tilbage til data og problemstilling i opgave 5.1.
I skal nedenfor bruge det output I fik i opgave 5.1 fra
funktionen ols. For en ny messingprøve er der lavet en måling af densiteten
med værdien 7.648. Opgaven her går ud på at lave et konfidensinterval for
denne prøves kobberindhold.
Lav et 95%-konfidensinterval for kobberindholdet
i den nye prøve ved brug af metoden beskrevet i
Afsnit 7.5. Overrasker bredden på konfidensintervallet dig ?
I foregående opgave lavede I et eksakt konfidensinterval i forbindelse
med invers regression, altså situationen, hvor man ønsker at sige noget
om værdien af den forklarende variabel ud fra observation af respons
i den lineære regressionsmodel. I vil ofte støde på et andet
konfidensinterval baseret på ophobningsloven anvendt på
hvor
Her er antallet af gentagne målinger, hvor værdien af den forklarende
variabel er den ukendte .
Ophobningsloven giver
hvor er skønnet over spredningen i regressionsmodellen
for data og
I kan for eksempel se denne formel på wikipedias side om
kalibrering
såvel som i bogen Quantitative Chemical Analysis,
som nogen af jer kender fra et kursus i analytisk kemi.
Et approksimativt 95%-konfidensinterval beregnes nu som
eller eventuelt som
hvor er 97.5 procent fraktilen i en -fordeling. I denne opgave skal I prøve, om I kan komme frem til formlen ovenfor for
standard error. Fra resultat 7.2.1 har vi
Derudover kan man vise, at
Da er baseret på nye målinger uafhængige af
har vi
Angiv
og
Benyt ophobningsloven til at vise formlen for
(Vink: til sidst i beregningen
skal I erstatte med
.)
Beregn for situationen i
den foregående opgave, og
lav et approksimativt 95%-konfidensinterval for
I finder de nødvendige estimater og standard errors fra output i
foregående opgave pånær Sammenlign intervallet med det eksakte interval fra foregående opgave.
I de to foregående opgaver har I brugt henholdsvist et eksakt og
et approksimativt konfidensinterval i den inverse regressionssituation.
Det eksakte og det approksimative konfidensinterval
vil især afvige fra hinanden, når der er relativ stor usikkerhed på
skønnet over hældningen i regressionen. For at illustrere dette har jeg lavet et datasæt med kun fire observationer
og med opdigtede data. Responsværdierne ligger i en vektor respons,
og de forklarende værdier i en vektor forklar.
I kodevinduet nedenfor har jeg indskrevet
datasættet. Desuden har jeg i opstartskoden indskrevet funktionen
inversReg, samt en funktion approxInversReg der beregner
det approksimative 95%-konfidensinterval omtalt i opgaven ovenfor.
Input til approxInversReg er som input til
inversReg.
Denne opgave omhandler måden, hvorpå absorption af lys i en væske
afhænger af koncentrationen af et absorberende molekyle i væsken,
og hvordan vi kan bruge dette til at estimere koncentrationen
ud fra en målt lysintensitet.
Man måler lysintensiteten
ved forskellige kendte koncentrationer af det absorberende molekyle.
På denne måde får man
etableret en kalibreringkurve, der efterfølgende kan benyttes
til at finde koncentrationen af molekylet i en prøve ud fra en måling
af lysintensiteten efter lysets passage gennem prøven. Absorption af denne type beskrives typisk via
Lambert-Beers lov:
Her er absorptionskoefficienten for
det absorberende molekyle,
er vejlængden gennem materialet, er koncentrationen af
molekylet og er lysintensiteten når koncentrationen er nul. I denne opgave betragter vi en serie målinger af
lysintensiteten
som funktion af koncentrationen for en opløsning af Rhodamine 6G i ethanol.
Den benyttede vejlængde gennem opløsningen er
Egentligt burde man i modelleringen af data også tage hensyn til, at
koncentrationen af opløsningsmidlet ethanol ændrer sig, når koncentrationen
af Rhodamine ændres, men denne effekt er så lille, at vi kan se bort fra den.
Tager vi logaritmen på begge sider i Lambert-Beers lov (7.8.1),
får vi
hvor og . Tabellen nedenfor giver den målte værdi
af lysintensiteten for 16 forskellige valg af
koncentrationen. Data
findes i filen LambertBeer.csv i form af to søjler,
hvor første søjle er koncentration, og anden søjle er lysintensiteten.
Dan en variabel logLys med logaritmen til de
målte lysintensiteter og
en variabel konc med koncentrationerne af Rhodamine 6G.
Lav en figur, hvor afsættes mod koncentrationen konc.
Husk enheder på akserne! Synes du, at der er en lineær sammenhæng i data ?
Synes du, at sammenhængen er god, med henblik på at estimere koncentration
ud fra lysintensiteten ?
Opskriv den lineære regressionsmodel, hvor respons er
logaritmen til lysintensiteten, og den forklarende variabel er
koncentration. Forklar, at regressionskoefficienten i denne
model er . Find skøn og 95%-konfidensinterval
for hældning og skæring, og
indtegn den skønnede linje i figuren fra foregående spørgsmål.
Angiv også et skøn over spredningen
omkring den lineære sammenhæng.
Betragt data omkring Lambert-Beers lov. Beregn
et 95%-konfidensinterval
for den ukendte koncentration af Rhodamine 6G i tre tilfælde
med en enkelt ny måling af lysintensiteten.
I tilfælde 1 er målingen , i tilfælde 2 er målingen
og i tilfælde 3 er målingen .
Lav en tabel med resultaterne.
I forbindelse med besvarelsen af denne opgave skal du downloade
filen svarAflevering4.txt fra kursushjemmesiden og indsætte nogle tal
fra din besvarelse som angivet nedenfor. Filen skal afleveres
sammen med din pdf-fil med besvarelsen.For at måle mængden af protein i en opløsning bruges ofte et
Bradford protein assay.
Man måler absorbansen ved en bestemt bølgelængde og denne stiger med
mængden af protein. I artiklen
Linearization of the Bradford Protein Assay
betragtes i stedet forholdet mellem absorbansen ved to bølgelængder, hvorved
der opnås en lineær sammenhæng i et stort område.
I artiklen er et datasæt til etablering af en kalibreringskurve, der så
efterfølgende kan bruges til bestemmelse af proteinindholdet i en
ny prøve. Datasættet er vist i tabellen nedenfor og kan findes i
filen Bradford.csv, der indeholder to søjler med henholdsvis
mængden af protein BSA (Bovine serum albumin) og respons i form af
absorbansratio.
Lav en figur, hvor absorbansratio afsættes mod BSA. Vurder ud fra figuren, om den skønnede linje gennem punkterne har en hældning,
der er under eller over 0.6. Overfør svaret til svarAflevering4.txt
i form af 1 hvis hældning er under 0.6 og i form af 2 hvis hældning er over.
Opstil en statistisk model for data. Overfør
Statistisk Model nummer til svarAflevering4.txt. Estimer parametrene i modellen. Overfør skøn over spredningen omkring
linjen, med 3 decimaler, til svarAflevering4.txt
Beregn et 95%-konfidensinterval for hældningen i den lineære
sammenhæng mellem middelværdien af Absorbansratio og BSA. Angiv Resultat nummer som bruges til beregningen af konfidensintervallet,
og overfør dette til svarAflevering4.txt.Overfør det øvre endepunkt i intervallet, med 3 decimaler, til
svarAflevering4.txt.
Betragt en ny prøve med ukendt indhold af BSA, hvor
absorbansratio er målt til 0.98.
Angiv et 95%-konfidensinterval for det ukendte indhold af BSA.
Overfør det øvre endepunkt i intervallet, med 3 decimaler, til
svarAflevering4.txt.
Betragt situationen og data i opgave 5.2 med regression af
temperatur på den valgte temperaturindstilling, det vil sige
modellen, hvor middelværdien af temperaturen er
Fra data får man følgende estimater.
Betragt nu et ønske om at lave en temperaturindstilling, således at
temperaturen bliver 200 grader celcius. Den ønskede indstilling er
Lav et approksimativt 95%-konfidensinterval for parameteren