Afsnit 5.8: Øvelse 5: Geologi

I denne uges øvelser skal du blive fortrolig med den statistiske model for regressionsanalysen. Desuden skal du prøve at bruge funktionen lm i R til analysen. Denne funktion skal du også bruge i øvelse 6 og 7.
Opgaverne 5.1-5.4 skal være forberedt hjemmefra og gennemgås ved tavlen til øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 5.5.

Opgave 5.1: Regression

For at forstå spændingsforhold i jordoverfladen benytter geologer, at der er en relation mellem længden og bredden af sprækker i jordoverfladen. Det præcise forhold mellem længde og bredde diskuteres blandt geologer, og I skal i denne opgave se på data fra NcConnell området i de canadiske Rocky Mountains. Billedet her viser en revne efter et jordskælv i 1983 i den amerikanske del af Rocky Mountains.
Data er aflæst fra figur i A modern regression approach to determining fault displacement-length scaling relationships (data stammer oprindeligt fra artikel af D.Elliott, 1976). Data for 29 sprækker ligger i filen Rockies.csv i form af to søjler, hvor første søjle er længde og anden søjle er bredde af sprækkerne målt i meter.
  1. Indlæs data, og dan variablene logLaeng og logBred med logaritmen til indholdet af de to søjler. Lav en figur, hvor logBred tegnes op mod logLaeng (logLaeng langs førsteaksen og logBred langs andenaksen). Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable? (I artiklen siges der: "data examined are consistent with a linear relationship".)
  2. Opskriv den lineære regressionsmodel for data. Estimer parametrene i modellen, og lav figurer til modelkontrol. I residualplottet skal du indtegne to vandrette linjer, der skærer andenaksen i punkterne hvor er skønnet over spredningen i regressionsmodellen.
  3. Beregn 95%-konfidensintervaller for henholdsvis skæring og hældning i den lineære sammenhæng mellem middelværdien af logBred og logLaeng. Eftervis, at konfidensintervallet for hældningen, fundet gennem et kald til confint, er korrekt ved at bruge oplysninger i output fra summary.
  4. Overvej, om data er i overensstemmelse med en teori, der siger, at der er proportionalitet mellem bredde og længde af sprækkerne?

Opgave 5.2: Regressionsanalyse med prædiktion

Data i denne opgave stammer oprindeligt fra artiklen Rainfall erosivity over Rhodesia, men er her taget fra Analysis of covariation and comparison of regression lines. Ønsket er at etablere en sammenhæng mellem årlig middelnedbør og erosionsraten, således at der kan laves et erosionskort over Rhodesia (nuværende Zambia og Zimbabwe).
Erosionsraten beregnes ud fra en mere detaljeret nedbørsregistrering end årlig middelnedbør. Data består af 11 målepunkter i den østlige provins af Rhodesia, hvor både årlig middelnedbør (mm) og erosionsraten (joule ) er til rådighed. Data findes i filen RhodesiaEast.csv, hvor første søjle er årlig middelnedbør og anden søjle er erosionsraten.
I opgaven her skal I etablere en lineær sammenhæng mellem middelværdien af erosionsraten og årlig middelnedbør og bruge denne sammenhæng til at prædiktere erosionsraten ved forskellige værdier af den årlige middelnedbør.
  1. Lad regn være en vektor med de 11 årlige middelnedbørsmængder, og lad erosion være en vektor med erosionsraterne. Lav en figur, hvor erosion afsættes mod regn. Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable?
    Opskriv den lineære regressionsmodel for data, og estimer parametrene i denne via lm og summary. Indtegn den fundne linje i figuren med data.
    Prøv i ord at beskrive sammenhængen i data, ud fra hvad du ser i figuren.
  2. Lav et test, for hypotesen at hældningen er nul. Hvad bliver konklusionen af dit test? Lav dernæst et 95%-konfidensinterval for hældningen. Lav et skøn over ændringen i middelværdi af erosionsraten mellem en årlig middelnedbør på 800 og 900, og sammenhold denne med spredningen omkring regressionslinjen (jævnfør din egen beskrivelse af sammenhængen i data sidst i foregående spørgsmål).
  3. Lav et 95%-konfidensinterval for middelværdien af erosionen, når den årlige middelnedbør er 850.
    Lav dernæst et prædiktionsinterval for en kommende måling, når den årlige middelnedbør er 850.
    Prøv at forklare, hvorfor konfidensintervallet er meget smallere end prædiktionsintervallet.
  4. I dette spørgsmål skal du beregne konfidensintervallet og prædiktionsintervallet i mange punkter og indtegne disse som en kurve i figuren fra spørgsmål (a). Du kan finde inspiration til konstruktion af figuren i afsnit 5.5 i det skjulte punkt "Test dig selv". Til beregningen kan du kalde predict med nye datapunkter givet ved data.frame(regn=c(700:1150)).

Opgave 5.3: Regression med kendt skæring

I denne opgave fortsætter vi med problemstillingen fra foregående opgave, dog med et andet datasæt. Data består således af årlig middelnedbør (mm) og erosionsraten (joule ) for 25 målepunkter i Highveld regionen af Rhodesia. Data findes i filen RhodesiaHighveld.csv, hvor første søjle er årlig middelnedbør (regnHigh) og anden søjle er erosionsraten (erosionHigh).
  1. Lav en figur, hvor erosionHigh afsættes mod regnHigh, og hvor førsteaksen går fra 0 til 1000, og andenaksen går fra 0 til 15000.
    Opstil regressionsmodellen hvor middelværdien af erosionHigh afhænger lineært af regnHigh. Estimer denne model via lm, og indtegn den fundne linje.
    Angiv et 95%-konfidensinterval for hældning og for skæring.
    Angiv et 95%-konfidensinterval for middelværdien af erosionen (linjens værdi), når den årlige nedbør er 500 mm.
  2. Det er rimeligt at forestille sig, at hvis der ingen nedbør er, så er der heller ikke nogen erosion. Lav et -test, for at skæringen med andenaksen er i punktet nul. Er det rimeligt at sige, at linjen går gennem ?
  3. Opskriv regressionmodellen hvor middelværdien af erosionHigh er proportional med regnHigh (linjen har skæring med andenaksen i nul). Estimer denne model i R ved et passende kald til lm.
    Angiv et 95%-konfidensinterval for hældningen i model
    Angiv et 95%-konfidensinterval for middelværdien af erosionen (linjens værdi), når den årlige nedbør er 500 mm.
    Prøv at beskrive i ord forskellen mellem de to konfidensintervaller i dette spørgsmål og de to konfidensintervaller i spørgsmål (a).

Opgave 5.4: Prøve kalibreringsberegning

Vend tilbage til data og problemstilling i opgave 5.1. Forestil dig at vi for en sprække i jordoverfladen har målt en bredde på 1127 meter. Desværre har vi forlagt registreringen af længden. Lav et 95%-konfidensinterval for længden af den betragtede sprække. Hertil kan du bruge funktionen inversReg omtalt i den skjulte kode i underafsnit 5.5.1. Funktionen findes i filen Rfunktioner.txt.

Opgave 5.5: Afleveringsopgave

I denne opgave skal I bruge en lineær regressionsmodel til at sige noget om værdien af den forklarende variabel ud fra en målt responsværdi.
I studiet af global opvarmning vil man også gerne se på temperatursvingninger tilbage i tid. Men hvordan gør man dette, når temperaturen ikke er målt! En mulighed er at benytte, at vækstprocesser kan være temperaturafhængige. Ud fra indholdet af forskellige kemiske forbindelser i sedimentære materialer kan man, gennem en kalibreringskurve, sige noget om temperaturen. I denne opgave skal I se på data, der knytter forholdet mellem mængden af forskellige lipider i Crenarchaeota sammen med den gennemsnitlige årstemperatur i havoverfladen (SST: sea surfac temperature). Forholdet mellem de forskellige lipider kaldes (TetraEther indeX), og den præcise definition af dette kan I finde i artiklen Distributional variations in marine crenarchaeotal membrane lipids: a new tool for reconstructing ancient sea water temperatures?. Data i denne opgave er aflæst fra figur i artiklen. I laboratorieeksperimenter er der påvist en teperaturafhængighed af og i artiklen betragtes en sådan afhængighed for sedimentprøver indsamlet 42 steder på jorden.
Data findes i filen TEX86.csv, der har to søjler med henholdsvis temperatur (SST) og index.
  1. Lav en figur, hvor afsættes mod SST. Styr start og slut på andenaksen med tilføjelsen ylim=c(0.2,0.9) til plot. Synes du, at der er en lineær sammenhæng i data? Synes du, at sammenhængen er god med henblik på at estimere temperatur ud fra index?
  2. Opskriv den lineære regressionsmodel, hvor respons er index, og den forklarende variabel er årstemperatur SST.
    Find skøn og 95%-konfidensinterval for linjens hældning og skæring, og indtegn linjen i figuren fra foregående spørgsmål. Angiv også et skøn over spredningen omkring den lineære sammenhæng.
    Lav figurer, der kan bruges til modelkontrol, og kommenter på disse figurer.
  3. Betragt situationen med en ny prøve, hvor er målt til 0.3. Beregn et 95%-konfidensinterval for årstemperaturen SST i dette tilfælde.
    Gentag beregningen i tre andre prøver, hvor er målt til henholdsvis 0.5, 0.7 og 0.8. Lav en tabel med resultaterne for de fire tilfælde.
    Hvor stor skal index være, før du føler dig overbevist om, at temperaturen er over 20 grader?

ForegåendeNæste