Afsnit 4.15: Øvelse 4: Geologi

Denne uges øvelse vedrører situationen med et enkelt normalfordelt observationssæt og situationen med to normalfordelte observationssæt. I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot. For $\acute{\text{e}}$ t observationssæt skal I lave inferens om middelværdien og variansen i normalfordelingen, hvor I for første gang skal bruge det vigtige $t$ -test. For to observationssæt skal I både sammenligne varianser og sammenligne middelværdier, og specielt lave konfidensinterval for forskel i middelværdi.

Alle opgaverne skal være forberedt hjemmefra og gennemgås ved tavlen til øvelserne.

Opgave 4.1: Inferens om middelværdi

I bjergegne danner floder en alluvialkegle når de aflejrer sedimenter ved foden af bjerget. Disse kegler beskrives ofte som værende symmetriske, men forfatterne til artiklen Interactions between alluvial fans and axial rivers in Yukon, Canada and Alaska, USA sætter spørgsmålstegn ved dette. For 63 alluvialkegler har forfatterne målt en længde af keglen i hver sin side og dannet forholdet mellem de to længder, kegleforholdet: $F=L_D/L_U,$ hvor $D$ og $U$ står for downstream og upstream for vandløbet nedenfor keglen. En symmetrisk kegle svarer til at kegleforholdet har værdien 1. Målingerne findes i filen Alluvialkegle.txt.

Indlæs data fra filen Alluvialkegle.txt med kommandoen scan("Alluvialkegle.txt"). Denne opgave kan nu formuleres kort som følger. Opstil en statistisk model for kegleforholdet, lav inferens for parametrene i modellen og overvej en hypotese, om at keglerne er symmetriske. Skrevet ud bliver dette til følgende spørgsmål.

Undersøg grafisk, om kegleforholdet kan beskrives med en normalfordeling via et histogram og et qqplot. Overvej om det er bedre at beskrive logaritmen til kegleforholdet med en normalfordeling. Opskriv en statistisk model for data.
Lav en tabel med skøn og 95%-konfidensinterval for middelværdien, variansen og spredningen i en normalfordelingsmodel.
Overvej, om data er i overenstemmelse med teorien om symmetriske kegler.

Uanset, om I beskriver de oprindelige kegleforhold eller logaritmen til disse, vil I finde, at spredningen er så stor, at et kegleforhold under 1 vil have en sandsynlighed på cirka 16% i den estimerede normalfordeling (overvej dette). Forfatterne diskuterer ud fra fluiddynamiske betragtninger, både hvorfor kegleforholdet ofte er større end 1, men også hvorfor værdier mindre end 1 kan forekomme.

Opgave 4.2: Parret $t$-test

I artiklen Effect of metallic iron from grinding on ferrous iron determinations måles indholdet af jern ( $\text{Fe}^0$ ) i en række klippestykker ved to målemetoder betegnet som $\text{HgCl}_2$ og $\text{CuCl}_2.$ I tabellen nedenfor er kun medtaget de prøver, hvor jernindholdet er under 0.05 procent.

$\begin{array}{|ccccc|cccc|} \hline \text{Nummer} & \text{HgCl}_2 & \text{CuCl}_2 & \text{Differens} && \text{Nummer} & \text{HgCl}_2 & \text{CuCl}_2 & \text{Differens} \\ \hline 1 & 0.025 & 0.030 & 0.005 && 7 & 0.003 & 0.016 & 0.013 \\ 2 & 0.022 & 0.031 & 0.009 && 8 & 0.009 & 0.018 & 0.009 \\ 3 & 0.014 & 0.019 & 0.005 && 9 & 0.008 & 0.012 & 0.004 \\ 4 & 0.001 & 0.000 & -0.001 && 10 & 0.004 & 0.013 & 0.009 \\ 5 & 0.002 & 0.004 & 0.002 && 11 & 0.031 & 0.037 & 0.006 \\ 6 & 0.003 & 0.016 & 0.013 && 12 & 0.020 & 0.041 & 0.021 \\ \hline \end{array}$ I denne opgave skal I ud fra differenserne mellem de to målinger angive den viden, vi har om en eventuel forskel mellem de to målemetoder. Middelværdien af differensen siger noget om, hvilken generel tendens der er i forskellen mellem de to metoder, og spredningen repræsenterer den kombinerede måleusikkerhed fra de to målinger på den samme prøve. Data findes i filen Jern.csv, som er organiseret i 12 rækker og tre søjler: første søjle angiver prøvenummer, anden søjle angiver $\text{HgCl}_2$ -målingen og tredje søjle angiver $\text{CuCl}_2$ -målingen.

Indlæs data, og lav en figur, hvor indholdet af jern fra $\text{CuCl}_2$ metoden tegnes op mod indholdet fra $\text{HgCl}_2$ metoden. Indtegn identitetslinjen i figuren. Prøv at beskrive i ord, hvad figuren viser om forskel i jernindhold mellem de to målemetoder.
Betragt nu de 12 differenser mellem jernindhold fra de to målemetoder. Lav et qqplot af data, og opskriv den statistiske model, hvor differensen er normalfordelt.
Lav et test for hypotesen, at middelværdien af differensen er nul, svarende til hypotesen, at der ikke er forskel mellem de to målemetoder. Lav dernæst et 95%-konfidensinterval for middelværdien af differensen. Hvad bliver konklusionen af disse udregninger ?

Når I laver et $t$ -test for at middelværdierne af differenserne er nul, kaldes dette et parret $t$ -test: observationerne fra de to målemetoder er parret, ved at der er målt på det samme klippestykke. For en given målemetode er der stor variation i jernindholdet mellem klippestykkerne, og det kan være svært at se en forskel mellem to målemetoder, hvis vi forestiller os et alternativt eksperiment, hvor der er indsamlet 12 klipestykker, der analyseres med den ene målemetoder, og 12 andre klippestykker der analyseres med den anden målemetode. I kan se dette ved at prøve at lave et two-sample $t$ -test for data i denne opgave, hvor det ene observationssæt er data fra den ene målemetode, og det andet observationssæt er data fra den anden målemetode (two-sample $t$ -test skal I arbejde med i den næste opgave).

Opgave 4.3: Two-sample $t$-test, samme varians

I artiklen Historical ablation rates on south-east Greenland glaciers measured in the 1933 warm summer sammenlignes målinger fra Knud Rasmussens 7. $\,$ Thule ekspedition 1933 med målinger foretaget i perioden 1996-2012 af afsmeltningsraten fra gletchere. Artiklen er skrevet af B. $\,$ Hasholt, D. $\,$ van As og T. $\,$ Knudsen (sidstnævnte fra Aarhus Universitet) og er publiceret i Polar Research, 2016. Målingerne i de to perioder er foretaget på de samme gletchere i Tasiilaq området i sydøst Grønland. Målingerne er dog ikke foretaget det samme sted, eftersom gletcherne har trukket sig tilbage i den mellemliggende periode. De værdier I skal se på i denne opgave er degree day factor (DFF), som angiver, hvor meget der er smeltet fra overfladen, målt i millimeter ækvivalent vandsøjle per dag per grad. Data ligger i filen Greenland.csv i form af to søjler, hvor første søjle er tidsperiode, og anden søjle er afsmeltningsraten DFF.

Indlæs data og dan vektorerne periode og dff ud fra søjlerne i de indlæste data. Dan dernæst to datasæt dff1930 og dff2000 med værdierne fra dff hørende til henholdsvis 1933 og 1996-2012 (se eventuelt opgave 1.4).
Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at lave flere qqplots i den samme figur, kan du se i kodevinduet i afsnit 4.8. Synes du, at afsmeltningsraten for hver af de to perioder kan beskrives med en normalfordeling ?
Lav også en figur med boxplot for hvert af de to datasæt. Flere boxplots i den samme figur kan laves som vist i kodevinduet i afsnit 4.8, men kan også laves med kommandoen boxplot(dff $\sim$ periode). Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt (dff1933 og dff2000) følger sin egen normalfordeling. Opsummer de to datasæt i form af en tabel, som for hvert datasæt indeholder antallet af observationer, gennemsnit, empirisk spredning og et 95%-konfidensinterval for middelværdien. Antallet af elementer i en vektor kan i R findes med funktionen length.
Opskriv hypotesen, at de to varianser er ens, og lav $F$ -testet for ens varianser. Er det rimeligt at antage, at variansen af afsmeltningsraten er den samme for de to perioder ?
Opstil nu modellen, hvor data er normalfordelt, og de to datasæt har hver sin middelværdi, men samme varians. Opstil hypotesen at de to middelværdier er ens, og lav et test af denne hypotese.
Er det rimeligt at antage, at afsmeltningsraten har samme middelværdi for de to perioder ?
Angiv et 95%-konfidensinterval for forskellen i middelværdi af afsmeltningsraten mellem perioderne 1933 og 1996-2012.
Synes du, at forskellen mellem de to middelværdier i denne opgave er stor (se begrebet effektstørrelse i eksempel 4.10.2) ? Forfatterne af artiklen, hvor data er taget fra, foreslår, at forskellen i afsmeltningsraten skal ses i sammenhæng med tilbagetrækningen af gletcherne til et højere niveau over havet.

Opgave 4.4: Two-sample $t$-test, forskellig varians

I artiklen Understanding Earth's eroding surface with $\,^{10}$ Be undersøges erosionsraten flere steder på jorden og delt op på flodbækken og klippeområder. Specielt vil vi se på data fra Nunnock River området i Australien. Der er 8 målinger fra flodbækken og 20 målinger fra klipper. Erosionsraten bestemmes ud fra mængden af $\,^{10}$ Be. Mængden af denne isotop afspejler, hvor længe materialet har befundet sig tæt ved jordoverfladen. Data ligger i filen Nunnock.csv i form af to søjler, hvor første søjle er overfladetype (flodbækken henholdsvis klipper), og anden søjle er erosionsraten ( $\text{m MY}^{-1}$ ). Data i denne fil er simulerede, men stemmer overens med informationen i figur fra ovennævnte artikel.

Indlæs data fra filen Nunnock.csv. Lav to datasæt med erosionsraten svarende til de to overfladetyper. Du skal i den samme figur lave et qqplot for begge datasæt.
Synes du, at erosionsraten for hver overfladetype kan beskrives med en normalfordeling ?
Lav en figur, der indeholder boxplot for de to overfladetyper. Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling. Opsummer de to datasæt i form af en tabel, som for hvert datasæt indeholder antallet af observationer, gennemsnit, empirisk spredning og et 95%-konfidensinterval for middelværdien.
Opstil hypotesen, at de to varianser er ens. Eftervis, at data strider mod at sige, at variansen på erosionsraten er den samme for de to overfladetyper.
Angiv et 95%-konfidensinterval for forskellen i middelværdi af erosionsrate mellem flodbækken og klipper.
Synes du, at forskellen mellem de to middelværdier er stor ?
Prøv til sidst at betragte logaritmen til erosionsraten. Lav qqplots for at se, om disse data kan beskrives med en normalfordeling. Lav et test, for at varianserne er ens, og lav et 95%-konfidensinterval for forskel i middelværdi af logaritmen til erosionsraten.
Oversæt det fundne konfidensinterval for forskel i middelværdi af logaritmen til erosionsraten til et 95%-konfidensinterval for forholdet mellem middelværdierne af erosionsraterne, jævnfør underafsnit 4.13.3. Hvor mange gange større er middelværdien af erosionsraten for flodbækken i forhold til klipper ?

Opgave 4.5: ``Standard error'' kontra ``standard deviation''

I skal i denne opgave lave en figur, der illustrerer standard deviation i forhold til standard error. Start med at dele plotvinduet op i to dele med ordren par(mfrow=c(1,2)).

Simuler $n=20$ observationer $x_1,\ldots,x_{20}$ fra en standard normalfordeling (benyt rnorm(20) til dette). Beregn den empiriske spredning $s,$ beregn skøn $\hat\mu=\bar x$ over middelværdien og standard error for middelværdiskønnet, $\text{sd}_s(\hat\mu).$
Lav en figur med kaldet boxplot(x,xlim=c(0,3),ylim=c(-3,3)), hvor $x$ er en vektor med de simulerede værdier.
Indsæt to lodrette linjestykker med yderpunkter henholdsvis $\hat\mu\pm s$ og $\hat\mu\pm s\big/\sqrt{n}.$ Disse skal placeres ud for $1.5$ og $2.0$ på førsteaksen. Dette kan gøres med funktionen errrobar omtalt under punktet Egne funktioner i R i afsnit 1.2:
errorbar(c(1.5,2.0),c( $\hat\mu,\hat\mu$ ),lower,upper)
hvor lower=c( $\hat\mu$ -s, $\hat\mu$ -s/sqrt(n)), og upper er tilsvarende med plus i stedet for minus. Indsæt endelig et vandret linjestykke til at markere værdien af $\hat\mu.$
Gentag ovenstående simulering og tegning med $n=200$ observationer. Hvilke dele skal ligne hinanden i de to tegninger, og hvilke skal ikke ?

Foregående Næste