Afsnit 7.9: Øvelse 5

I denne uges øvelser skal du blive fortrolig med den statistiske model for regressionsanalysen. Desuden skal du prøve at bruge funktionen ols i python, til analysen. Denne funktion skal du også bruge i øvelse 6 og 7.

Opgave 5.1: Regression

Hookes lov siger, at en fjeders udvidelse er proportional med massen som fjederen belastes med. Dette er en empirisk lov og kun gyldig i et vist vægtområde. For en given fjeder er det nødvendigt at afprøve denne med forskellige belastninger for at undersøge, om der er en lineær sammenhæng og for at bestemme proportionalitetskonstanten, også kaldet fjederkonstanten. Dette kan være relevant for en ny fjeder, men også for en løbende kontrol af fjederen. Når sammenhængen er etableret, kan vi bruge fjederen som en fjedervægt svarende til invers regression i afsnit 7.5.
Nogle af jer har måske prøvet at lave en undersøgelse af en fjeder i jeres fysikundervisning. Her skal I se på data fra en mere kompliceret situation, hvor en cantilever (arm/bjælke) skal karakteriseres for brugen af scanning force microscopy. Respons, der måles ved belastning, er ikke en udvidelse, men en svingningsfrekvens. I stedet for Hookes lov forventes her en lineær sammenhæng mellem et respons sqT og massen der belaster cantileveren. Her står sqT for kvadreret tid og er defineret som hvor er den målte frekvens (enheden for sqT er ). Hvis vi skriver den lineære sammenhæng som er fjederkonstanten, og hvis vi yderligere skriver på formen kaldes "effective mass" af cantileveren.
Data er aflæst fra figur 2 i artiklen A nondestructive method for determining the spring constant of cantilevers for scanning force microscopy. Data er i filen Hooke.csv, der har to søjler med overskrifterne masse (ng) og sqT ().
  1. Indlæs data, og dan variablene masse og sqT med indholdet af de to søjler. Lav en figur, hvor sqT tegnes op mod masse (masse langs førsteaksen og sqT langs andenaksen).
    Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable?
  2. Opskriv den lineære regressionsmodel for data (husk at angive Statistisk Model nummer).
    Estimer parametrene i modellen.
  3. Udregn den skønnede linjes værdi når belastningen er 30 ng.
  4. Lav henholdsvis et residualplot og et normal-qqplot af residualerne. Kommenter på, hvad du ser i figurerne.
    Angiv den største værdi blandt residualerne.
  5. Angiv 95%-konfidensintervaller for henholdsvis skæring og hældning i den lineære sammenhæng mellem middelværdien af sqT og masse.
    Eftervis, at konfidensintervallet for hældningen, fundet gennem et kald til ols i python er korrekt, ved at bruge oplysninger om parameterskøn og standard error.
    Lav også et 95%-konfidensinterval for fjederkonstanten
  6. Lav et skøn over "effective mass" af cantileveren.
    Uden at lave beregningerne kan du så forklare, hvordan man kan lave et approksimativt konfidensinterval for "effective mass"?
  7. Overvej, hvordan du som fysiker vil have det med at bruge en måling af sqT af cantileveren til at fastlægge massen af en prøve.
    Du kan lave et tankeeksperiment: Hvis du har målt sqT for en prøve til kan du lave et approksimativt 95%-konfidensinterval for middelværdien af respons som hvor er skønnet over spredningen i regressionsmodellen. Tager du nu endepunkterne i dette interval og transformerer via den skønnede linje til værdier for massen, kan du se på hvor stor forskel der er mellem de to værdier.

Opgave 5.2: Regressionsanalyse med prædiktion

Forskere fra Aarhus Universitet og Københavns Universitet studerer i artiklen Unraveling structural and magnetic information during growth of nanocrystalline SrFe12O19 dannelsen af (magnetic strontium hexaferrite) nanokrystallitter. I eksperimentet ønsker man at kende og styre temperaturen i opstillingen. Til dette er der lavet et kalibreringseksperiment, hvor man måler temperaturen som funktion af en valgt temperaturindstilling og beskriver sammenhængen med en linje. I studiet af nanokrystallitterne angives temperaturen så ud fra den valgte temperaturindstilling og den fundne lineære sammenhæng. I denne opgave skal I se på præcisionen af den således angivne temperatur.
Data i denne opgave er simulerede ud fra oplysningerne i figur S1 i artiklen og gengivet i nedenstående tabel. Data findes også i filen TempKalibrering.csv, hvor første søjle er den valgte temperaturindstilling, og den anden søjle er den målte temperatur (begge i grader celcius).
  1. Lad valgt være den valgte temperaturindstilling, og lad temp indeholde den målte temperatur. Lav en figur, hvor temp afsættes mod valgt. Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable?
    Hvor mange af punkterne i figuren ligger under linjen med skæring 30 og hælning 0.8?
  2. Opskriv den lineære regressionsmodel for data, og estimer parametrene i modellen. Indtegn den fundne linje i figuren med data.
  3. Angiv et 95%-konfidensinterval for hældningen.
    Lav et skøn og et 95%-konfidensinterval over ændringen i middelværdi af den målte temperatur, når den valgte temperaturindstilling ændres fra 200 til 205.
  4. I et nyt eksperiment ønsker man at undersøge processen ved en temperatur på 300 grader. Bruges den skønnede linje svarer dette til at lave en temperaturindstilling på 328.5 grader.
    Lav et 95%-konfidensinterval for middelværdien af temperaturen, når den valgte temperaturindstilling er 328.5.
    Lav dernæst et prædiktionsinterval for en kommende temperaturmåling, når den valgte temperaturindstilling er 328.5.
    Kan du forklare, hvorfor prædiktionsintervallet er over dobbelt så bredt som konfidensintervallet?
    Indtegn prædiktionsintervallet som et lodret linjestykke i din figur (benyt eventuelt errorbar).
  5. Hvis du gerne vil have en temperatur over 255 i processen, vil du så lave en temperaturindstilling på 280, 281, 282 eller 283?

Opgave 5.3: Bruge kalibreringskurve

Vend tilbage til data og problemstilling i opgave 5.1. I skal nedenfor bruge det output I fik i opgave 5.1 fra funktionen ols.
Cantileveren der blev undersøgt i opgave 5.1 vil vi nu bruge som en vægt. For en ny prøve måles frekvensen i svingningen af cantileveren og respons sqT () er 13.2 (enhed: ). Opgaven her går ud på at lave et 95%-konfidensinterval for massen af den nye prøve.
  1. Lav et 95%-konfidensinterval for massen af den nye prøve ved brug af metoden beskrevet i Afsnit 7.5.
    Overrasker bredden på konfidensintervallet dig?

Opgave 5.4: Ophobningsloven

I foregående opgave lavede I et eksakt konfidensinterval i forbindelse med invers regression, altså situationen, hvor man ønsker at sige noget om værdien af den forklarende variabel ud fra observation af respons i den lineære regressionsmodel.
I vil ofte støde på et andet konfidensinterval baseret på ophobningsloven anvendt på hvor Her er antallet af gentagne målinger, hvor værdien af den forklarende variabel er den ukendte Ophobningsloven giver
hvor er skønnet over spredningen i regressionsmodellen for data og I kan for eksempel se denne formel på wikipedias side om kalibrering såvel som i bogen Quantitative Chemical Analysis, som nogen af jer kender fra et kursus i analytisk kemi. Et approksimativt 95%-konfidensinterval beregnes nu som eller eventuelt som hvor er 97.5 procent fraktilen i en -fordeling.
I denne opgave skal I prøve, om I kan komme frem til formlen ovenfor for standard error. Fra resultat 7.2.1 har vi
Derudover kan man vise, at
Da er baseret på nye målinger uafhængige af har vi
  1. Angiv og
  2. Benyt ophobningsloven til at vise formlen for (Vink: til sidst i beregningen skal I erstatte med .)
  3. Beregn for situationen i den foregående opgave, og lav et approksimativt 95%-konfidensinterval for I finder de nødvendige estimater og standard errors fra output i foregående opgave pånær
    Sammenlign intervallet med det eksakte interval fra foregående opgave.

Opgave 5.5: Approksimativt konfidensinterval

I de to foregående opgaver har I brugt henholdsvist et eksakt og et approksimativt konfidensinterval i den inverse regressionssituation. Det eksakte og det approksimative konfidensinterval vil især afvige fra hinanden, når der er relativ stor usikkerhed på skønnet over hældningen i regressionen.
For at illustrere dette har jeg lavet et datasæt med kun fire observationer og med opdigtede data. Responsværdierne ligger i en vektor respons, og de forklarende værdier i en vektor forklar. I kodevinduet nedenfor har jeg indskrevet datasættet. Desuden har jeg i opstartskoden indskrevet funktionen inversReg, samt en funktion approxInversReg der beregner det approksimative 95%-konfidensinterval omtalt i opgaven ovenfor. Input til approxInversReg er som input til inversReg.

Se opstartskoden (til/fra)

  1. Forklar, at som koden er nu, beregnes de to konfidensintervaller i tilfældet, hvor der er lavet en enkelt ny måling, og denne har responsværdien 4.0.
  2. Kør koden, og kommenter på de to konfidensintervaller
  3. Prøv at ændre "4.0" til "4,4,4,4". Kan du forklare, hvorfor dette ikke ændrer så meget på konfidensintervallerne?
  4. Prøv eventuelt at finde et 95%-konfidensinterval for hældningen i regressionsmodellen for data.

Opgave 5.6: Multiple choice opgave

Betragt regressionsmodellen med forklarende variabel hældning og skæring I udsagnene nedenfor er der et eller to korrekte svar. Find disse.
  1. I regressionsmodellen vokser spredningen lineært med den forklarende variabel.
  2. Hvis hældningen er negativ skal, skæringen være positiv.
  3. Hvis vi trækker 3 fra alle værdierne af den forklarende variabel, vil skønnet over hældningen også blive 3 mindre.
  4. Standard error, for skønnet for linjens værdi i punktet er mindst, når er lig med gennemsnittet af værdierne for den forklarende variabel.
  5. Hvis skønnet over spredningen er mindre end 1.96, vil vi acceptere hypotesen, at skæringen er nul.

Opgave 5.7: Lambert-Beers lov

Denne opgave omhandler måden, hvorpå absorption af lys i en væske afhænger af koncentrationen af et absorberende molekyle i væsken, og hvordan vi kan bruge dette til at estimere koncentrationen ud fra en målt lysintensitet. Man måler lysintensiteten ved forskellige kendte koncentrationer af det absorberende molekyle. På denne måde får man etableret en kalibreringkurve, der efterfølgende kan benyttes til at finde koncentrationen af molekylet i en prøve ud fra en måling af lysintensiteten efter lysets passage gennem prøven.
Absorption af denne type beskrives typisk via Lambert-Beers lov:
Her er absorptionskoefficienten for det absorberende molekyle, er vejlængden gennem materialet, er koncentrationen af molekylet og er lysintensiteten når koncentrationen er nul.
I denne opgave betragter vi en serie målinger af lysintensiteten som funktion af koncentrationen for en opløsning af Rhodamine 6G i ethanol. Den benyttede vejlængde gennem opløsningen er Egentligt burde man i modelleringen af data også tage hensyn til, at koncentrationen af opløsningsmidlet ethanol ændrer sig, når koncentrationen af Rhodamine ændres, men denne effekt er så lille, at vi kan se bort fra den. Tager vi logaritmen på begge sider i Lambert-Beers lov (7.9.1), får vi
hvor og .
Tabellen nedenfor giver den målte værdi af lysintensiteten for 16 forskellige valg af koncentrationen (oprindelsen til data i denne opgave er uklar). Data findes i filen LambertBeer.csv i form af to søjler, hvor første søjle er koncentration, og anden søjle er lysintensiteten.
  1. Dan en variabel logLys med logaritmen til de målte lysintensiteter og en variabel konc med koncentrationerne af Rhodamine 6G. Lav en figur, hvor afsættes mod koncentrationen konc. Husk enheder på akserne!
    Synes du, at der er en lineær sammenhæng i data? Synes du, at sammenhængen er god, med henblik på at estimere koncentration ud fra lysintensiteten?
  2. Opskriv den lineære regressionsmodel, hvor respons er logaritmen til lysintensiteten, og den forklarende variabel er koncentration. Forklar, at regressionskoefficienten i denne model er .
    Find skøn og 95%-konfidensinterval for hældning og skæring, og indtegn den skønnede linje i figuren fra foregående spørgsmål. Angiv også et skøn over spredningen omkring den lineære sammenhæng.
  3. Betragt data omkring Lambert-Beers lov. Beregn et 95%-konfidensinterval for den ukendte koncentration af Rhodamine 6G i tre tilfælde med en enkelt ny måling af lysintensiteten. I tilfælde 1 er målingen , i tilfælde 2 er målingen og i tilfælde 3 er målingen . Lav en tabel med resultaterne.

Opgave 5.8: Afleveringsopgave 4

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering4.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.
Hubbles lov siger, at den hastighed, hvormed galakser bevæger sig væk fra hinanden, er proportional med afstanden mellem galakserne. Vi kan skrive dette som Nu er det hverken nemt at måle hastighed af galakser eller afstand til galakser, og i Hubbles oprindelige data er proportionalitetskonstanten (Hubbles konstant) cirka 450 km/s/megaparsec, hvilket afviger en del fra den værdi, der kendes i dag (omkring 70). Konstanten er vigtig, idet den fortæller os alderen på Universet. I skal i denne opgave se på et datasæt fra 2001 fra artiklen Final Results from the Hubble Space Telescope Key Project to Measure the Hubble Constant. Data for 36 galakser er i filen Hubble.csv, som har to søjler, Afstand (megaparsec) og Hastighed (km/s).
  1. Lav en figur, hvor hastighed afsættes mod afstand.
    Forklar ud fra figuren, at det kan se ud som om, at variansen omkring en ret linje stiger med afstanden til galaksen.
  2. Hvis variansen stiger med middelværdien, vil man ofte se en konstant varians på logaritmen til data. Når man tager logaritmen, bliver Hubbles lov
    Betragt derfor nu logaritmen til afstand og logaritmen til hastighed. Lav en figur, hvor logaritmen til hastighed afsættes mod logaritmen til afstand.
    Opstil en statistisk model for log-data. Overfør Statistisk Model nummer til svarAflevering4.txt.
    Estimer parametrene i modellen. Overfør skøn over spredningen omkring linjen, med 3 decimaler, til svarAflevering4.txt
  3. Beregn et 95%-konfidensinterval for hældningen i den lineære sammenhæng mellem middelværdien af log-hastighed og log-afstand.
    Kan det antages, at hældningen er 1, svarende til Hubbles lov?
    Angiv Resultat nummer som bruges til beregningen af konfidensintervallet, og overfør dette til svarAflevering4.txt.
    Overfør det øvre endepunkt i intervallet, med 3 decimaler, til svarAflevering4.txt.
  4. Regressionsmodellen, hvor hældningen er 1, kan skrives på formen
    hvor
    Lav et 95%-konfidensinterval for og oversæt dette til et konfidensinterval for Hubbles konstant .
    Overfør det øvre endepunkt i intervallet, med 3 decimaler, til svarAflevering4.txt.
    (Hvis man laver regression af hastighed på afstand, og hvor skæringen er nul og hældningen er Hubbles konstant får man 95%-konfidensintervallet for Hubbles konstant til

Opgave 5.9: Vælge temperaturindstilling

Denne opgave kan opleves som lidt kunstig, men er taget med for at træne jer i brugen af ophobningsloven.
Betragt situationen og data i opgave 5.2 med regression af temperatur på den valgte temperaturindstilling, det vil sige modellen, hvor middelværdien af temperaturen er Fra data får man følgende estimater.
Betragt nu et ønske om at lave en temperaturindstilling, således at temperaturen bliver 200 grader celcius. Den ønskede indstilling er
  1. Lav et approksimativt 95%-konfidensinterval for parameteren

Opgave 5.10: Lineær kombination

Betragt den lineære regressionsmodel med Lad og være to kendte og faste tal, og betragt parameteren og det tilhørende estimat
  1. Benyt resultaterne i starten af afsnit 7.5 for at angive en formel for
  2. Betragt data fra opgave 5.2 og parameteren i situationen med og Lav et 95%-konfidensinterval for

ForegåendeNæste