I denne uges øvelser skal du blive fortrolig med den
statistiske model for regressionsanalysen. Desuden skal du
prøve at bruge funktionen ols i python, til
analysen. Denne funktion skal du også bruge i
øvelse 6 og 7.
Hookes lov
siger, at en fjeders udvidelse er proportional med massen som
fjederen belastes med. Dette er en empirisk lov og kun gyldig i
et vist vægtområde. For en given fjeder er det nødvendigt at
afprøve denne med forskellige belastninger for at undersøge,
om der er en lineær sammenhæng og for at bestemme
proportionalitetskonstanten, også kaldet fjederkonstanten.
Dette kan være relevant for en ny fjeder, men også for en løbende
kontrol af fjederen. Når sammenhængen er etableret, kan vi bruge fjederen
som en fjedervægt svarende til invers regression i afsnit
7.5.
Nogle af jer har måske prøvet at lave en undersøgelse af en fjeder
i jeres fysikundervisning. Her skal I se på data fra en mere
kompliceret situation, hvor en cantilever (arm/bjælke) skal
karakteriseres for brugen af scanning force microscopy.
Respons, der måles ved belastning, er ikke en udvidelse, men en
svingningsfrekvens. I stedet for Hookes lov forventes her en lineær
sammenhæng mellem et respons sqT og massen der belaster
cantileveren. Her står sqT for kvadreret tid og er defineret som
hvor er den målte frekvens
(enheden for sqT er ).
Hvis vi skriver den lineære sammenhæng som
er fjederkonstanten, og hvis vi yderligere skriver
på formen
kaldes "effective mass" af cantileveren. Data er aflæst fra figur 2 i artiklen
A nondestructive method for determining the spring constant of cantilevers for scanning force microscopy.
Data er i filen Hooke.csv, der har to søjler med overskrifterne
masse (ng) og sqT ().
Indlæs data, og dan variablene masse og sqT
med indholdet af de to søjler. Lav en figur, hvor sqT tegnes
op mod masse (masse langs førsteaksen og
sqT langs andenaksen). Er det rimeligt at sige, at der er en lineær
sammenhæng mellem de to variable ?
Opskriv den lineære regressionsmodel for data (husk at angive
Statistisk Model nummer).Estimer parametrene i modellen.
Udregn den skønnede linjes værdi når belastningen er 30 ng.
Lav henholdsvis et residualplot og et normal-qqplot af
residualerne. Kommenter på, hvad du ser i figurerne. Angiv den største værdi blandt residualerne.
Angiv 95%-konfidensintervaller for henholdsvis skæring og hældning
i den lineære sammenhæng mellem middelværdien af sqT og
masse. Eftervis, at konfidensintervallet for hældningen,
fundet gennem et kald til ols i python er korrekt, ved at bruge
oplysninger om parameterskøn og standard error. Lav også et 95%-konfidensinterval for fjederkonstanten
Lav et skøn over "effective mass" af cantileveren. Uden at lave beregningerne kan du så forklare, hvordan man kan lave et
approksimativt konfidensinterval for "effective mass" ?
Overvej, hvordan du som fysiker vil have det med at bruge
en måling af sqT af cantileveren
til at fastlægge massen af en prøve. Du kan lave et tankeeksperiment: Hvis du har målt sqT
for en prøve
til kan du lave et approksimativt 95%-konfidensinterval for
middelværdien af respons som hvor er skønnet over spredningen
i regressionsmodellen. Tager du nu endepunkterne i dette interval og
transformerer via den skønnede linje til værdier for massen,
kan du se på hvor stor forskel der er mellem de to værdier.
Forskere fra Aarhus Universitet og Københavns Universitet studerer i artiklen
Unraveling structural and magnetic information during growth of nanocrystalline SrFe12O19
dannelsen af
(magnetic strontium hexaferrite) nanokrystallitter.
I eksperimentet ønsker man at kende og styre temperaturen i opstillingen.
Til dette er der lavet et kalibreringseksperiment, hvor man måler
temperaturen som funktion af en valgt temperaturindstilling
og beskriver sammenhængen med en linje.
I studiet af nanokrystallitterne angives temperaturen så ud fra den
valgte temperaturindstilling og den fundne lineære sammenhæng. I
denne opgave skal I se på præcisionen af den således angivne temperatur. Data i denne opgave er simulerede ud fra oplysningerne i figur S1 i
artiklen og gengivet i nedenstående tabel. Data findes også
i filen TempKalibrering.csv,
hvor første søjle er den valgte temperaturindstilling, og den anden søjle
er den målte temperatur (begge i grader celcius).
Lad valgt være den valgte temperaturindstilling,
og lad temp indeholde den målte temperatur.
Lav en figur, hvor temp
afsættes mod valgt.
Er det rimeligt at sige, at der er en
lineær sammenhæng mellem de to variable ?Hvor mange af punkterne i figuren ligger under linjen med skæring 30
og hælning 0.8 ?
Opskriv den lineære regressionsmodel for data, og estimer
parametrene i modellen.
Indtegn den fundne linje i figuren med data.
Angiv et 95%-konfidensinterval for hældningen. Lav et skøn og et 95%-konfidensinterval
over ændringen i middelværdi af den målte temperatur, når
den valgte temperaturindstilling ændres fra 200 til 205.
I et nyt eksperiment ønsker man at undersøge processen ved en
temperatur på 300 grader. Bruges den skønnede linje svarer dette til
at lave en temperaturindstilling på 328.5 grader. Lav et 95%-konfidensinterval for middelværdien af temperaturen,
når den valgte temperaturindstilling er 328.5. Lav dernæst et prædiktionsinterval for en kommende temperaturmåling,
når den valgte temperaturindstilling er 328.5. Kan du forklare, hvorfor prædiktionsintervallet er over dobbelt så
bredt som konfidensintervallet ?Indtegn prædiktionsintervallet som et lodret linjestykke i din figur
(benyt eventuelt errorbar).
Hvis du gerne vil have en temperatur over 255 i processen,
vil du så lave en temperaturindstilling på 280, 281, 282 eller 283 ?
Vend tilbage til data og problemstilling i opgave 5.1.
I skal nedenfor bruge det output I fik i opgave 5.1 fra
funktionen ols. Cantileveren der blev undersøgt i opgave 5.1 vil vi nu bruge
som en vægt. For en ny prøve måles frekvensen i svingningen af
cantileveren og respons sqT () er 13.2
(enhed: ). Opgaven her går ud på at lave et
95%-konfidensinterval for massen af den nye prøve.
Lav et 95%-konfidensinterval for massen af
den nye prøve ved brug af metoden beskrevet i
Afsnit 7.5. Overrasker bredden på konfidensintervallet dig ?
I foregående opgave lavede I et eksakt konfidensinterval i forbindelse
med invers regression, altså situationen, hvor man ønsker at sige noget
om værdien af den forklarende variabel ud fra observation af respons
i den lineære regressionsmodel. I vil ofte støde på et andet
konfidensinterval baseret på ophobningsloven anvendt på
hvor
Her er antallet af gentagne målinger, hvor værdien af den forklarende
variabel er den ukendte
Ophobningsloven giver
hvor er skønnet over spredningen i regressionsmodellen
for data og
I kan for eksempel se denne formel på wikipedias side om
kalibrering
såvel som i bogen Quantitative Chemical Analysis,
som nogen af jer kender fra et kursus i analytisk kemi.
Et approksimativt 95%-konfidensinterval beregnes nu som
eller eventuelt som
hvor er 97.5 procent fraktilen i en -fordeling. I denne opgave skal I prøve, om I kan komme frem til formlen ovenfor for
standard error. Fra resultat 7.2.1 har vi
Derudover kan man vise, at
Da er baseret på nye målinger uafhængige af
har vi
Angiv
og
Benyt ophobningsloven til at vise formlen for
(Vink: til sidst i beregningen
skal I erstatte med
.)
Beregn for situationen i
den foregående opgave, og
lav et approksimativt 95%-konfidensinterval for
I finder de nødvendige estimater og standard errors fra output i
foregående opgave
pånær Sammenlign intervallet med det eksakte interval fra foregående opgave.
I de to foregående opgaver har I brugt henholdsvist et eksakt og
et approksimativt konfidensinterval i den inverse regressionssituation.
Det eksakte og det approksimative konfidensinterval
vil især afvige fra hinanden, når der er relativ stor usikkerhed på
skønnet over hældningen i regressionen. For at illustrere dette har jeg lavet et datasæt med kun fire observationer
og med opdigtede data. Responsværdierne ligger i en vektor respons,
og de forklarende værdier i en vektor forklar.
I kodevinduet nedenfor har jeg indskrevet
datasættet. Desuden har jeg i opstartskoden indskrevet funktionen
inversReg, samt en funktion approxInversReg der beregner
det approksimative 95%-konfidensinterval omtalt i opgaven ovenfor.
Input til approxInversReg er som input til
inversReg.
Denne opgave omhandler måden, hvorpå absorption af lys i en væske
afhænger af koncentrationen af et absorberende molekyle i væsken,
og hvordan vi kan bruge dette til at estimere koncentrationen
ud fra en målt lysintensitet.
Man måler lysintensiteten
ved forskellige kendte koncentrationer af det absorberende molekyle.
På denne måde får man
etableret en kalibreringkurve, der efterfølgende kan benyttes
til at finde koncentrationen af molekylet i en prøve ud fra en måling
af lysintensiteten efter lysets passage gennem prøven. Absorption af denne type beskrives typisk via
Lambert-Beers lov:
Her er absorptionskoefficienten for
det absorberende molekyle,
er vejlængden gennem materialet, er koncentrationen af
molekylet og er lysintensiteten når koncentrationen er nul. I denne opgave betragter vi en serie målinger af
lysintensiteten
som funktion af koncentrationen for en opløsning af
Rhodamine 6G
i ethanol.
Den benyttede vejlængde gennem opløsningen er
Egentligt burde man i modelleringen af data også tage hensyn til, at
koncentrationen af opløsningsmidlet ethanol ændrer sig, når koncentrationen
af Rhodamine ændres, men denne effekt er så lille, at vi kan se bort fra den.
Tager vi logaritmen på begge sider i Lambert-Beers lov (7.9.1),
får vi
hvor og . Tabellen nedenfor giver den målte værdi
af lysintensiteten for 16 forskellige valg af
koncentrationen (oprindelsen til data i denne opgave er uklar). Data
findes i filen LambertBeer.csv i form af to søjler,
hvor første søjle er koncentration, og anden søjle er lysintensiteten.
Dan en variabel logLys med logaritmen til de
målte lysintensiteter og
en variabel konc med koncentrationerne af Rhodamine 6G.
Lav en figur, hvor afsættes mod koncentrationen konc.
Husk enheder på akserne! Synes du, at der er en lineær sammenhæng i data ?
Synes du, at sammenhængen er god, med henblik på at estimere koncentration
ud fra lysintensiteten ?
Opskriv den lineære regressionsmodel, hvor respons er
logaritmen til lysintensiteten, og den forklarende variabel er
koncentration. Forklar, at regressionskoefficienten i denne
model er . Find skøn og 95%-konfidensinterval
for hældning og skæring, og
indtegn den skønnede linje i figuren fra foregående spørgsmål.
Angiv også et skøn over spredningen
omkring den lineære sammenhæng.
Betragt data omkring Lambert-Beers lov. Beregn
et 95%-konfidensinterval
for den ukendte koncentration af Rhodamine 6G i tre tilfælde
med en enkelt ny måling af lysintensiteten.
I tilfælde 1 er målingen , i tilfælde 2 er målingen
og i tilfælde 3 er målingen .
Lav en tabel med resultaterne.
I forbindelse med besvarelsen af denne opgave skal du downloade
filen svarAflevering4.txt fra kursushjemmesiden og indsætte nogle tal
fra din besvarelse som angivet nedenfor. Filen skal afleveres
sammen med din pdf-fil med besvarelsen.Hubbles lov siger, at den hastighed, hvormed galakser bevæger sig
væk fra hinanden, er proportional med afstanden mellem galakserne.
Vi kan skrive dette som
Nu er det hverken nemt at måle hastighed af galakser eller afstand til
galakser, og i Hubbles oprindelige data er
proportionalitetskonstanten (Hubbles konstant) cirka 450 km/s/megaparsec,
hvilket afviger en del fra den værdi, der kendes i dag (omkring 70).
Konstanten er vigtig, idet den fortæller os alderen på Universet.
I skal i denne opgave se på et datasæt fra 2001 fra
artiklen
Final Results from the Hubble Space Telescope Key Project to Measure the Hubble Constant.
Data for 36 galakser er i filen Hubble.csv, som har to søjler,
Afstand (megaparsec) og Hastighed (km/s).
Lav en figur, hvor hastighed afsættes mod afstand. Forklar ud fra figuren, at det kan se ud som om, at variansen omkring
en ret linje stiger med afstanden til galaksen.
Hvis variansen stiger med middelværdien, vil man ofte se en konstant varians
på logaritmen til data. Når man tager logaritmen, bliver
Hubbles lov Betragt derfor nu logaritmen til afstand og logaritmen til hastighed.
Lav en figur, hvor logaritmen til hastighed afsættes mod logaritmen til
afstand. Opstil en statistisk model for log-data. Overfør
Statistisk Model nummer til svarAflevering4.txt. Estimer parametrene i modellen. Overfør skøn over spredningen omkring
linjen, med 3 decimaler, til svarAflevering4.txt
Beregn et 95%-konfidensinterval for hældningen i den lineære
sammenhæng mellem middelværdien af log-hastighed og log-afstand. Kan det antages, at hældningen er 1, svarende til Hubbles lov ?Angiv Resultat nummer som bruges til beregningen af konfidensintervallet,
og overfør dette til svarAflevering4.txt.Overfør det øvre endepunkt i intervallet, med 3 decimaler, til
svarAflevering4.txt.
Regressionsmodellen, hvor hældningen er 1, kan skrives på formen
hvor Lav et 95%-konfidensinterval for og oversæt dette til et
konfidensinterval for Hubbles konstant . Overfør det øvre endepunkt i intervallet, med 3 decimaler, til
svarAflevering4.txt.(Hvis man laver regression af hastighed på afstand, og hvor skæringen er nul og
hældningen er Hubbles konstant får man 95%-konfidensintervallet for
Hubbles konstant til
Denne opgave kan opleves som lidt kunstig, men er taget med
for at træne jer i brugen af ophobningsloven.Betragt situationen og data i opgave 5.2 med regression af
temperatur på den valgte temperaturindstilling, det vil sige
modellen, hvor middelværdien af temperaturen er
Fra data får man følgende estimater.
Betragt nu et ønske om at lave en temperaturindstilling, således at
temperaturen bliver 200 grader celcius. Den ønskede indstilling er
Lav et approksimativt 95%-konfidensinterval for parameteren