Afsnit 6.9: Øvelse 6: Geologi

Denne uges øvelse har til formål at gøre jer fortrolige med den generelle lineære normale model gennem nogle grundlæggende eksempler. Efter øvelsen skal I vide, hvad en faktor er, og I skal have en forståelse af det generelle -test for reduktion af middelværdimodellen.
Opgaverne 6.1-6.3 skal være forberedt hjemmefra og gennemgås ved tavlen til øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 6.4.

Opgave 6.1: Ensidet variansanalyse

I denne opgave bruger vi data fra artiklen Grain size discrimination between sands of desert and coastal dunes from northwestern Mexico. Forfatterne ønsker at studere, om der er forskel i størrelsesfordelingen af sandprøver indsamlet tre steder i Altar ørkenen i det nordlige Mexico på grænsen til USA.
Størelsesfordelingen findes ved brug af en Laser Particle Size Analyser, og i denne opgave ser vi på middelkornstørrelsen for hver sandprøve. Der er 14 prøver fra San Luis Rio Colorado området (kodet som "SanLuis" i datafilen), 16 prøver fra Pinacate north (kodet som "PinaNorth"), og 8 prøver fra Pinacate south (kodet som "PinaSouth''). De tre områder ligger i størrelsesordenen 100 km fra hinanden. Data ligger i filen Sandproever.csv. Der er 38 rækker i filen svarende til de 38 sandprøver i eksperimentet, og to søjler med henholdsvis område og middelkornstørrelse. Kornstørrelsen måles på Phi-skalaen, der fremkommer ved at tage to-tals logaritmen til kornstørrelsen i millimeter. Gennemsnit og empirisk spredning for hvert område er gengivet i den følgende tabel.
  1. Indlæs data, og dan de to variable omraade og kornstr med indholdet af de to søjler. Lav et boxplot og et qqplot af kornstr opdelt efter område. Du kan lade dig inspirere af koden i afsnit 6.2. Overvej, hvad disse figurer viser om forholdet mellem spredningerne i de tre områder og forholdet mellem middelværdierne.
  2. Opskriv den statistiske model, hvor data er delt ind i tre grupper svarende til de tre områder, og data er normalfordelt med en middelværdi og varians, der afhænger af gruppen.
    Opskriv hypotesen, at de tre varianser er ens. Lav Bartletts test, for at de tre varianser er ens. Hvad bliver konklusionen af testet?
  3. Opskriv den statistiske model, hvor middelværdien afhænger af området, men de tre varianser er ens. Find estimater i denne model (både for middelværdierne og for spredningen). Benyt parametertabellen til at lave et -test for hypotesen, at
    Angiv et 95%-konfidensinterval for
  4. Opskriv hypotesen, at de tre middelværdier er ens, og lav et test for denne hypotese ved et passende kald til anova.
    Hvad bliver konklusionen i denne opgave: er det rimeligt at sige, at der er samme middelværdi af middelkornstørrelsen i de tre områder af Altar ørkenen?

Opgave 6.2: Tosidet variansanalyse

I artiklen Greenhouse gas emissions from two soils receiving nitrogen fertilizer and swine manure slurry undersøges, hvor meget der udledes fra to forskellige jordtyper, der testes med tre forskellige gødninger. De to jordtyper er sand og ler, og de tre forskellige gødninger er henholdsvis ingen gødning (kontrol), en kunstgødning (UAN) og svinegylle (gylle). Data i opgaven her er simuleret ud fra gennemsnit og empirisk spredning angivet i artiklen og vist i den følgende tabel.
Data findes i filen CO2Emis.csv, hvor hver række svarer til en måling, og søjle 1 angiver jordtype, søjle 2 angiver gødning og søjle 3 angiver -emissionen.
  1. Indlæs data, og dan de tre variable jord, goed og co2 med indholdet af de tre søjler. Bemærk, at faktoren goed har gylle som første niveau (leksikografisk ordning). For at ændre dette til kontrol kan du bruge kommandoen goed=relevel(goed,"kontrol").
    Med kun 4 observationer for hver kombination af jordtype og gødning kan vi ikke lave qqplots for at vurdere, om data er normalfordelte. For at få et overblik over data kan I bruge kommandoen plot(as.numeric(jord:goed),co2).
    Lav dernæst interaktionsplot for -emissionen i forhold til de to faktorer jordtype og gødning (se omtalen af funktionen additivitetsPlot i det skjulte punkt Interaktionsplot i afsnit 6.6).
  2. Opskriv modellen, hvor -emissionen hørende til hver gruppe bestemt af jordtype og gødning følger sin egen normalfordeling.
    Opskriv hypotesen, at varianserne i de 6 grupper er ens, og lav Bartletts test for denne hypotese Er det rimeligt at sige, at de seks varianser er ens?
  3. Opskriv modellen, hvor -emissionen er normalfordelt, og hver gruppe bestemt af faktoren jord*goed har sin egen middelværdi, og alle har den samme varians. Lav et qqplot af residualerne fra denne model. Opskriv inden for modellen additivitetshypotesen, hvor middelværdien består af et bidrag fra jordtype og et bidrag fra gødning.
    Lav et test, for at data kan beskrives med den additive model. Hvad bliver konklusionen af testet? Stemmer konklusionen, med hvad du kan se i interaktionsplottet?
  4. Lav et test for henholdsvis ingen effekt af jordtype og ingen effekt af gødning inden for den additive model.
  5. Angiv inden for den addititve model et 95%-konfidensinterval for forskellen mellem de to jordtyper af middelværdien af CO2-emissionen.

Opgave 6.3: Teste for en lineær sammenhæng

I hydrologi, når man skal beregne vandgennemstrømningen i jordlag, benyttes ofte Darcys lov. Denne siger, at vandgennemstrømningen er proportional med trykforskellen (trykgradienten). Darcy formulerede loven i 1856 baseret på eksperimenter, hvor vand strømmer gennem et rør fyldt med sand. Der er siden lavet forskellige tilføjelser til loven, hvor flere aspekter af vandgennemstrømningen inddrages.
Darcys lov, formuleret som fører til en lineær sammenhæng for logaritmiske størrelse: hvor er vandgennemstrømningen og er trykforskellen. Her forventer vi så, at I skal analysere data i denne opgave for at teste, om der er en lineær sammenhæng på den logaritmiske skala og dernæst se på, om Data, I skal bruge, er Darcys oprindelige data suppleret med 2 simulerede gentagelser af eksperimentet (i artiklen omtales det at chefingeniør Mr.Baumgarten har gentaget eksperimentet, men data herfra opgives ikke). Data findes i filen Darcy.csv. Filen har 30 rækker og 2 søjler, hvor hver række svarer til en måling, søjle 1 indeholder trykforskel (i meter vandsøjle), og søjle 2 indeholder vandgennemstrømningen (i liter per minut). For hver trykforskel er der tre målinger af vandgennemstrømningen.
  1. Indlæs data, og dan de to variable logTryk og logVand med logaritmen til trykforskel og logaritmen til vandgennemstrømningen. Lav en figur, hvor logaritmen til vandgennemstrømningen afsættes mod logaritmen til trykforskel. Dan en faktor fakTryk ud fra variablen logTryk. Beregn gennemsnit (benyt tapply(logVand,fakTryk,mean)) for hver trykforskelsgruppe og indtegn disse gennemsnit som en kurve i figuren. Indsæt endelig regressionslinjen fra en regression af logVandlogTryk.
  2. Opskriv den statistiske model hvor hver trykforskelsgruppe har sin egen middelværdi af logaritmen til vandgennemstrømningen, og varianserne er ens.
    Opskriv også den statistiske model hvor middelværdien af logVand afhænger lineært af logTryk.
    Lav nu -testet for reduktion fra model til model Hvad bliver konklusionen af testet: er det rimeligt at sige, at middelværdien af logaritmen til vandgennemstrømningen afhænger lineært af logaritmen til trykforskel?
  3. Angiv 95%-konfidensintervaller for skæring og hældning og for spredning omkring linjen i den lineære regressionsmodel. Kan det antages, at hældningen er 1 i overensstemmelse med Darcys lov?

Opgave 6.4: Afleveringsopgave

I modeller til prædiktion af erosionsraten af et jordområde indgår eroderbarheden af jorden. Et mål for denne er den såkaldte -værdi, der inddrager mængden af organisk materiale, mængden af sand og permeabiliteten. I denne opgave skal I se på data omkring -værdiens afhængighed af om jorden dyrkes eller ej (faktoren dyrk med niveauerne ja og nej), og afhængighed af positionen på bjergskråningen, hvor jordprøven indsamles (faktoren pos med niveauerne summit, shoulder, back slope, foot slope og toe slope). For hver kombination af dyrkning og position er fire jordprøver analyseret, således at der er i alt prøver. Alle prøver er fra Ashanområdet i det sydøstlige Aserbajdsjan i Iran. Data er fra artiklen Assessment of soil erosion on hillslopes (a case study carried out in the Ashan drainage basin, Iran), og er i filen Eroderbarhed.csv, der har tre søjler: dyrkning, position og K-værdi.
  1. Opskriv den statistiske model, hvor hver gruppe bestemt af faktoren dyrk og faktoren pos har sin egen middelværdi og sin egen varians af -værdien, og data er normalfordelt. Lav et test for hypotesen, at der er samme varians i de 10 grupper.
  2. Lav et interaktionsplot, og kommenter på hvad du ser i figuren. Opskriv modellen, hvor hver gruppe bestemt af faktoren dyrk og faktoren pos har sin egen middelværdi af -værdien, og alle grupperne har den samme varians. Opskriv hypotesen om en additiv struktur af middelværdien med et bidrag fra dyrk og et bidrag fra pos. Lav -testet for hypotesen om additivitet.
  3. Undersøg, om det kan antages, at positionen på bjergskråningen ikke har nogen effekt på -værdien. Undersøg også, om dyrkningsforhold har nogen effekt på -værdien. Husk at skrive modellerne op.
  4. Lav, inden for den additive model, et 95%-konfidensinterval for forskel i middelværdierne af -værdien når jorden dyrkes og når jorden ikke dyrkes. Lav også et skøn over spredningen af -værdien omkring middelværdien.

ForegåendeNæste