Denne uges øvelse vedrører situationen med et enkelt normalfordelt
observationssæt og situationen med
to normalfordelte observationssæt.
I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot.
For t observationssæt skal I lave inferens om
middelværdien og variansen
i normalfordelingen, hvor I for første gang skal bruge det vigtige
-test. For to observationssæt skal I både sammenligne varianser
og sammenligne middelværdier, og specielt lave konfidensinterval for
forskel i middelværdi.Alle opgaverne skal være forberedt hjemmefra og gennemgås ved tavlen
til øvelserne.
I bjergegne danner floder en
alluvialkegle
når de aflejrer sedimenter ved foden af bjerget. Disse kegler
beskrives ofte som værende symmetriske, men forfatterne til artiklen
Interactions between alluvial fans and axial rivers in Yukon, Canada and Alaska, USA
sætter spørgsmålstegn ved dette.
For 63 alluvialkegler har forfatterne målt en længde af keglen
i hver sin side og dannet forholdet mellem de to længder,
kegleforholdet:
hvor og står for downstream og upstream for vandløbet
nedenfor keglen. En symmetrisk kegle svarer til at
kegleforholdet har værdien 1.
Målingerne findes i filen Alluvialkegle.txt. Indlæs data fra filen Alluvialkegle.txt med kommandoen
scan("Alluvialkegle.txt").
Denne opgave kan nu formuleres kort som følger. Opstil en
statistisk model for kegleforholdet,
lav inferens for parametrene i modellen
og overvej en hypotese, om at keglerne er symmetriske.
Skrevet ud bliver dette til følgende spørgsmål.
Undersøg grafisk, om kegleforholdet
kan beskrives med en normalfordeling
via et histogram og et qqplot. Overvej om det er bedre at
beskrive logaritmen til kegleforholdet med en normalfordeling.
Opskriv en statistisk model for data.
Lav en tabel med skøn og 95%-konfidensinterval for
middelværdien, variansen og spredningen i en normalfordelingsmodel.
Overvej, om data er i overenstemmelse med
teorien om symmetriske kegler.
Uanset, om I beskriver de oprindelige kegleforhold eller logaritmen
til disse, vil I finde, at spredningen er så stor,
at et kegleforhold under 1 vil have en
sandsynlighed på cirka 16% i den estimerede normalfordeling
(overvej dette).
Forfatterne diskuterer ud fra fluiddynamiske betragtninger,
både hvorfor kegleforholdet ofte er større end 1, men også
hvorfor værdier mindre end 1 kan forekomme.
I artiklen
Effect of metallic iron from grinding on ferrous iron determinations
måles indholdet af jern () i en række klippestykker ved
to målemetoder betegnet som og
I tabellen nedenfor
er kun medtaget de prøver, hvor jernindholdet er under 0.05 procent.
I denne opgave skal I ud fra differenserne mellem de to målinger
angive den viden, vi har om
en eventuel forskel mellem de to målemetoder.
Middelværdien af differensen siger noget om,
hvilken generel tendens der er i forskellen
mellem de to metoder, og spredningen repræsenterer
den kombinerede måleusikkerhed fra de to målinger på den samme prøve.
Data findes i filen Jern.csv, som er organiseret i 12 rækker og
tre søjler: første søjle angiver
prøvenummer, anden søjle angiver -målingen og
tredje søjle angiver -målingen.
Indlæs data, og lav en figur, hvor indholdet af jern fra
metoden tegnes op mod indholdet fra
metoden. Indtegn identitetslinjen i figuren.
Prøv at beskrive i ord,
hvad figuren viser om forskel i jernindhold mellem de to målemetoder.
Betragt nu de 12 differenser mellem jernindhold fra de to målemetoder.
Lav et qqplot af data, og opskriv
den statistiske model, hvor differensen er normalfordelt.
Lav et test for hypotesen, at middelværdien af differensen er nul,
svarende til hypotesen, at der ikke er forskel mellem de to målemetoder.
Lav dernæst et 95%-konfidensinterval for middelværdien af differensen.
Hvad bliver konklusionen af disse udregninger ?
Når I laver et -test for at middelværdierne af differenserne er nul,
kaldes dette et parret -test: observationerne fra de
to målemetoder er
parret, ved at der er målt på det samme klippestykke.
For en given målemetode er
der stor variation i jernindholdet mellem klippestykkerne,
og det kan være svært at se
en forskel mellem to målemetoder, hvis vi forestiller os et alternativt
eksperiment, hvor der er indsamlet 12 klipestykker, der analyseres med den
ene målemetoder, og 12 andre klippestykker der analyseres med den
anden målemetode.
I kan se dette ved at prøve at lave et
two-sample -test for data i denne opgave, hvor det ene observationssæt er
data fra den ene målemetode, og det andet observationssæt er
data fra den anden målemetode (two-sample -test skal
I arbejde med i den næste opgave).
I artiklen Historical ablation rates on south-east Greenland
glaciers measured in the 1933 warm summer sammenlignes målinger fra Knud
Rasmussens 7.Thule ekspedition 1933 med målinger foretaget i perioden
1996-2012 af afsmeltningsraten fra gletchere. Artiklen er skrevet af
B.Hasholt, D.van As og T.Knudsen (sidstnævnte fra Aarhus
Universitet) og er
publiceret i Polar Research, 2016. Målingerne i de to perioder
er foretaget på de samme gletchere i Tasiilaq området i sydøst Grønland.
Målingerne er dog ikke foretaget det samme sted, eftersom gletcherne
har trukket sig tilbage i den mellemliggende periode. De værdier I skal se på
i denne opgave er degree day factor (DFF), som angiver, hvor meget
der er smeltet fra overfladen, målt i millimeter ækvivalent vandsøjle per dag
per grad.
Data ligger i filen Greenland.csv i form af to søjler, hvor første
søjle er tidsperiode, og anden
søjle er afsmeltningsraten DFF.
Indlæs data og dan vektorerne periode og dff
ud fra søjlerne i de indlæste data.
Dan dernæst to datasæt dff1930 og dff2000
med værdierne fra dff hørende til henholdsvis 1933 og
1996-2012 (se eventuelt opgave 1.4).Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at
lave flere qqplots i den samme figur, kan du se i
kodevinduet i
afsnit 4.8.
Synes du, at afsmeltningsraten for hver af de to perioder
kan beskrives med en normalfordeling ?Lav også en figur med boxplot
for hvert af de to datasæt. Flere boxplots i
den samme figur kan laves som vist i
kodevinduet i
afsnit 4.8, men kan også laves med kommandoen
boxplot(dffperiode).
Hvilke ligheder og forskelle mellem de to datasæt
kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt (dff1933 og dff2000)
følger sin egen normalfordeling.
Opsummer de to datasæt i form af en tabel, som for hvert datasæt
indeholder
antallet af observationer, gennemsnit, empirisk
spredning og et 95%-konfidensinterval for
middelværdien.
Antallet af elementer i en vektor kan i R findes
med funktionen length.
Opskriv hypotesen, at de to varianser er ens, og lav
-testet for ens varianser. Er det rimeligt at antage, at
variansen af afsmeltningsraten er den samme for de to perioder ?
Opstil nu modellen, hvor data er normalfordelt, og de to datasæt
har hver sin middelværdi, men samme varians.
Opstil hypotesen at de to middelværdier er ens, og lav et test af denne
hypotese. Er det rimeligt at antage, at afsmeltningsraten har samme middelværdi for de to
perioder ?
Angiv et
95%-konfidensinterval for forskellen i
middelværdi af afsmeltningsraten mellem perioderne 1933 og 1996-2012. Synes du, at forskellen mellem
de to middelværdier i denne opgave er stor
(se begrebet effektstørrelse i eksempel 4.10.2) ?
Forfatterne af artiklen, hvor data er taget fra, foreslår, at forskellen
i afsmeltningsraten skal ses i sammenhæng med tilbagetrækningen af gletcherne
til et højere niveau over havet.
I artiklen
Understanding Earth's eroding surface with Be
undersøges erosionsraten flere steder på jorden
og delt op på flodbækken og klippeområder. Specielt vil vi se på data fra
Nunnock River området i Australien. Der er 8 målinger fra flodbækken
og 20 målinger fra klipper. Erosionsraten bestemmes ud fra mængden af
Be. Mængden af denne isotop afspejler, hvor længe materialet
har befundet sig tæt ved jordoverfladen.
Data ligger
i filen Nunnock.csv i form af to søjler, hvor første
søjle er overfladetype (flodbækken henholdsvis klipper), og anden
søjle er erosionsraten (). Data i denne fil er
simulerede, men stemmer overens med informationen i figur fra
ovennævnte artikel.
Indlæs data fra filen Nunnock.csv. Lav to datasæt
med erosionsraten svarende til
de to overfladetyper. Du skal i den samme figur lave et
qqplot for begge
datasæt. Synes du, at erosionsraten for hver overfladetype kan beskrives med en
normalfordeling ?Lav en figur, der indeholder boxplot for de to overfladetyper.
Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling.
Opsummer de to datasæt i form af en tabel, som for hvert datasæt
indeholder
antallet af observationer, gennemsnit, empirisk
spredning og et 95%-konfidensinterval for
middelværdien.
Opstil hypotesen, at de to varianser er ens.
Eftervis, at data strider mod at sige,
at variansen på erosionsraten er
den samme for de to overfladetyper.
Angiv et 95%-konfidensinterval for
forskellen i
middelværdi af erosionsrate mellem flodbækken og klipper. Synes du, at forskellen mellem
de to middelværdier er stor ?
Prøv til sidst at betragte logaritmen til erosionsraten. Lav qqplots
for at se, om disse data kan beskrives med en normalfordeling.
Lav et test, for at varianserne er ens, og lav et 95%-konfidensinterval
for forskel i middelværdi af logaritmen til erosionsraten. Oversæt det fundne konfidensinterval for forskel i middelværdi
af logaritmen til erosionsraten til et
95%-konfidensinterval for forholdet mellem middelværdierne af
erosionsraterne, jævnfør underafsnit 4.13.3.
Hvor mange gange større er
middelværdien af erosionsraten for flodbækken i forhold til
klipper ?
I skal i denne opgave lave en figur, der illustrerer standard deviation i
forhold til standard error. Start med at dele plotvinduet op i
to dele med ordren
par(mfrow=c(1,2)).
Simuler observationer
fra en standard normalfordeling
(benyt rnorm(20) til dette).
Beregn den empiriske spredning beregn
skøn over middelværdien og standard error
for middelværdiskønnet,
Lav en figur med
kaldet
boxplot(x,xlim=c(0,3),ylim=c(-3,3)), hvor er en vektor med
de simulerede værdier.
Indsæt to lodrette linjestykker
med yderpunkter henholdsvis og
Disse skal placeres ud for
og på førsteaksen. Dette kan gøres med
funktionen errrobar omtalt under
punktet Egne funktioner i R i afsnit
1.2:
errorbar(c(1.5,2.0),c(),lower,upper)
hvor lower=c(-s,-s/sqrt(n)), og upper
er tilsvarende med plus i stedet for minus.
Indsæt endelig et
vandret linjestykke til at markere værdien af
Gentag ovenstående simulering og tegning med observationer.
Hvilke dele skal ligne hinanden i de to tegninger, og hvilke skal ikke ?