I denne uges øvelser skal du blive fortrolig med den
statistiske model for regressionsanalysen. Desuden skal du
prøve at bruge funktionen lm i R til
analysen. Denne funktion skal du også bruge i
øvelse 6 og 7. Opgaverne 5.1-5.4 skal være forberedt hjemmefra og gennemgås ved tavlen til
øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 5.5.
For at forstå spændingsforhold i jordoverfladen benytter geologer,
at der er en relation mellem længden og bredden af sprækker
i jordoverfladen. Det præcise forhold mellem længde og bredde
diskuteres blandt geologer, og I skal i denne opgave se på data fra
NcConnell området i de canadiske Rocky Mountains. Billedet her
viser en revne efter et jordskælv i 1983 i den amerikanske del af
Rocky Mountains.
Indlæs data, og dan variablene
logLaeng og logBred
med logaritmen til indholdet af de to søjler.
Lav en figur, hvor logBred tegnes
op mod logLaeng (logLaeng langs førsteaksen og
logBred langs andenaksen).
Er det rimeligt at sige, at der er en lineær
sammenhæng mellem de to variable ? (I artiklen siges der:
"data examined are consistent with a linear relationship".)
Opskriv den lineære regressionsmodel for data. Estimer parametrene
i modellen, og lav figurer til modelkontrol.
I residualplottet skal du indtegne to vandrette linjer, der skærer
andenaksen i punkterne hvor er skønnet over
spredningen i regressionsmodellen.
Beregn 95%-konfidensintervaller for henholdsvis skæring og hældning
i den lineære sammenhæng mellem middelværdien af logBred og
logLaeng. Eftervis, at konfidensintervallet for hældningen,
fundet gennem et kald til confint, er korrekt ved at bruge
oplysninger i output fra summary.
Overvej, om data er i overensstemmelse med en teori,
der siger, at der er proportionalitet mellem bredde og længde af
sprækkerne ?
Erosionsraten beregnes ud
fra en mere detaljeret nedbørsregistrering end årlig middelnedbør.
Data består af 11 målepunkter i den østlige provins af Rhodesia, hvor
både årlig middelnedbør (mm)
og erosionsraten (joule ) er til rådighed.
Data findes i filen RhodesiaEast.csv,
hvor første søjle er årlig middelnedbør og anden søjle er
erosionsraten. I opgaven her skal I etablere en lineær sammenhæng mellem
middelværdien af erosionsraten og
årlig middelnedbør og bruge denne sammenhæng til at
prædiktere erosionsraten ved forskellige værdier af den årlige
middelnedbør.
Lad regn være en vektor med de 11 årlige middelnedbørsmængder,
og lad erosion være en vektor med erosionsraterne.
Lav en figur, hvor erosion
afsættes mod regn.
Er det rimeligt at sige, at der er en
lineær sammenhæng mellem de to variable ?Opskriv den lineære regressionsmodel for data, og estimer parametrene i
denne via lm og summary.
Indtegn den fundne linje i figuren med data. Prøv i ord at beskrive sammenhængen i data, ud fra hvad du ser i figuren.
Lav et test, for hypotesen at hældningen er nul. Hvad bliver
konklusionen af dit test ?
Lav dernæst et 95%-konfidensinterval for hældningen.
Lav et skøn over ændringen i middelværdi af erosionsraten
mellem en årlig middelnedbør på 800 og 900, og sammenhold denne med spredningen
omkring regressionslinjen (jævnfør din egen beskrivelse af
sammenhængen i data
sidst i foregående spørgsmål).
Lav et 95%-konfidensinterval for middelværdien af erosionen,
når den årlige middelnedbør er 850. Lav dernæst et prædiktionsinterval for en kommende måling,
når den årlige middelnedbør er 850. Prøv at forklare, hvorfor konfidensintervallet er meget smallere end
prædiktionsintervallet.
I dette spørgsmål skal du beregne konfidensintervallet og
prædiktionsintervallet i mange punkter og indtegne disse som en kurve
i figuren fra spørgsmål (a).
Du kan finde inspiration til konstruktion af figuren
i afsnit 5.5 i det skjulte punkt "Test dig selv".
Til beregningen kan du kalde predict
med nye datapunkter givet ved
data.frame(regn=c(700:1150)).
I denne opgave fortsætter vi med problemstillingen fra foregående opgave,
dog med et andet datasæt. Data består således af
årlig middelnedbør (mm) og erosionsraten (joule )
for 25 målepunkter i Highveld regionen af Rhodesia.
Data findes i filen RhodesiaHighveld.csv,
hvor første søjle er årlig middelnedbør (regnHigh) og anden søjle er
erosionsraten (erosionHigh).
Lav en figur, hvor erosionHigh
afsættes mod regnHigh, og hvor
førsteaksen går fra 0 til 1000, og andenaksen går fra 0 til 15000.Opstil regressionsmodellen hvor middelværdien af
erosionHigh afhænger
lineært af regnHigh. Estimer denne model via lm,
og indtegn
den fundne linje. Angiv et 95%-konfidensinterval for hældning og for
skæring. Angiv et 95%-konfidensinterval for middelværdien af erosionen
(linjens værdi), når den årlige nedbør er 500 mm.
Det er rimeligt at forestille sig, at hvis der ingen nedbør er, så
er der heller ikke nogen erosion.
Lav et -test,
for at skæringen med andenaksen er i punktet nul.
Er det rimeligt at sige, at linjen går gennem  ?
Opskriv regressionmodellen hvor middelværdien af
erosionHigh er
proportional med regnHigh (linjen har skæring med andenaksen i nul).
Estimer denne model i R ved
et passende kald til lm. Angiv et 95%-konfidensinterval for hældningen i model Angiv et 95%-konfidensinterval for middelværdien af erosionen
(linjens værdi),
når den årlige nedbør er 500 mm. Prøv at beskrive i ord forskellen mellem de to konfidensintervaller i dette
spørgsmål og de to konfidensintervaller i spørgsmål (a).
Vend tilbage til data og problemstilling i opgave 5.1. Forestil dig at
vi for en sprække i jordoverfladen har målt en bredde på 1127 meter.
Desværre har vi forlagt registreringen af længden.
Lav et 95%-konfidensinterval for længden af den betragtede sprække.
Hertil kan du bruge funktionen inversReg
omtalt i den skjulte
kode i
underafsnit 5.5.1. Funktionen findes i filen
Rfunktioner.txt.
I denne opgave skal I bruge en lineær regressionsmodel til at sige noget
om værdien af den forklarende variabel ud fra en målt responsværdi. I studiet af global opvarmning vil man også gerne
se på temperatursvingninger tilbage i tid. Men hvordan gør man dette,
når temperaturen ikke er målt! En mulighed er at benytte, at
vækstprocesser kan være temperaturafhængige. Ud fra indholdet af
forskellige kemiske forbindelser i sedimentære materialer kan man, gennem
en kalibreringskurve, sige noget om temperaturen. I denne opgave
skal I se på data,
der knytter forholdet mellem mængden af
forskellige lipider i Crenarchaeota
sammen med den gennemsnitlige årstemperatur i havoverfladen
(SST: sea surfac temperature). Forholdet mellem de forskellige
lipider kaldes (TetraEther indeX),
og den præcise definition af dette kan I
finde i artiklen
Distributional variations in marine crenarchaeotal membrane lipids: a new tool for reconstructing ancient sea water temperatures?.
Data i denne opgave er aflæst fra figur i artiklen.
I laboratorieeksperimenter
er der påvist en teperaturafhængighed af
og i artiklen betragtes en sådan afhængighed for sedimentprøver
indsamlet 42 steder på jorden. Data findes i filen TEX86.csv, der har to søjler
med henholdsvis temperatur (SST) og
index.
Lav en figur, hvor afsættes mod SST.
Styr start og slut på andenaksen med
tilføjelsen ylim=c(0.2,0.9) til
plot.
Synes du, at der er en lineær sammenhæng i data ?
Synes du, at sammenhængen er god med henblik på at estimere temperatur ud fra
index ?
Opskriv den lineære regressionsmodel, hvor respons er
index, og den forklarende variabel er
årstemperatur SST. Find skøn og 95%-konfidensinterval
for linjens hældning og skæring, og
indtegn linjen i figuren fra foregående spørgsmål.
Angiv også et skøn over spredningen
omkring den lineære sammenhæng.Lav figurer, der kan bruges til modelkontrol, og kommenter på
disse figurer.
Betragt situationen med en ny prøve, hvor
er målt til 0.3.
Beregn et 95%-konfidensinterval for årstemperaturen
SST i dette tilfælde. Gentag beregningen i tre andre prøver, hvor er målt til
henholdsvis 0.5, 0.7 og 0.8.
Lav en tabel med resultaterne for de fire tilfælde.Hvor stor skal index være, før du føler dig overbevist om,
at temperaturen er over 20 grader ?