Denne uges øvelse har til formål at gøre jer fortrolige med
den generelle lineære normale model gennem nogle grundlæggende eksempler.
Efter øvelsen skal I vide, hvad en faktor er, og
I skal have en forståelse af det generelle -test for
reduktion af middelværdimodellen. Opgaverne 6.1-6.3 skal være forberedt hjemmefra og gennemgås ved tavlen til
øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 6.4.
Størelsesfordelingen findes ved brug af en
Laser Particle Size Analyser, og i denne opgave ser vi på
middelkornstørrelsen for hver sandprøve. Der er 14 prøver fra
San Luis Rio Colorado området (kodet som "SanLuis" i datafilen),
16 prøver fra Pinacate north (kodet som "PinaNorth"), og 8 prøver fra
Pinacate south (kodet som "PinaSouth''). De tre områder ligger i
størrelsesordenen 100 km fra hinanden.
Data ligger i filen Sandproever.csv.
Der er 38 rækker i filen svarende til de 38 sandprøver i eksperimentet,
og to søjler med henholdsvis
område og middelkornstørrelse.
Kornstørrelsen måles på Phi-skalaen, der fremkommer ved at tage to-tals
logaritmen til kornstørrelsen i millimeter.
Gennemsnit og empirisk
spredning for hvert område er gengivet i den følgende tabel.
Indlæs data, og dan de to variable omraade og
kornstr med indholdet af de to søjler.
Lav et boxplot og et qqplot af kornstr opdelt efter
område.
Du kan lade dig inspirere af koden i
afsnit 6.2.
Overvej, hvad disse figurer viser om forholdet mellem spredningerne
i de tre områder og forholdet mellem middelværdierne.
Opskriv
den statistiske model, hvor data er delt ind i tre
grupper svarende til de tre områder, og data er normalfordelt
med en middelværdi og varians, der afhænger af gruppen. Opskriv hypotesen, at de tre varianser er ens. Lav
Bartletts test, for at de tre varianser er ens.
Hvad bliver konklusionen af testet ?
Opskriv den statistiske model, hvor middelværdien
afhænger af området, men de tre varianser er ens.
Find estimater i denne model (både for middelværdierne og for spredningen).
Benyt parametertabellen til at lave et
-test for hypotesen, at Angiv et 95%-konfidensinterval for
Opskriv hypotesen, at de tre middelværdier er ens, og lav
et test for denne hypotese ved et passende kald til anova. Hvad bliver konklusionen i denne opgave: er det rimeligt at sige,
at der er samme middelværdi af middelkornstørrelsen i de
tre områder af Altar ørkenen ?
I artiklen
Greenhouse gas emissions from two soils receiving
nitrogen fertilizer and swine manure slurry
undersøges,
hvor meget der udledes fra to forskellige jordtyper,
der testes med tre forskellige gødninger. De to
jordtyper er sand og ler, og de tre forskellige gødninger
er henholdsvis ingen gødning (kontrol), en kunstgødning (UAN)
og svinegylle (gylle).
Data i opgaven her er simuleret ud fra gennemsnit og empirisk spredning
angivet i artiklen og vist i den følgende tabel.
Data findes i filen
CO2Emis.csv, hvor hver række svarer til en måling,
og søjle 1 angiver
jordtype, søjle 2 angiver gødning og søjle 3 angiver
-emissionen.
Indlæs data, og dan de tre variable
jord, goed og co2
med indholdet af de tre søjler.
Bemærk, at faktoren goed
har gylle som første niveau (leksikografisk ordning). For at ændre
dette til kontrol kan du bruge kommandoen
goed=relevel(goed,"kontrol").Med kun 4 observationer for hver kombination af jordtype og gødning
kan vi ikke lave qqplots for at vurdere, om data er normalfordelte.
For at få et overblik over data kan I bruge kommandoen
plot(as.numeric(jord:goed),co2).Lav dernæst interaktionsplot for
-emissionen i forhold til de to faktorer jordtype og gødning
(se omtalen af funktionen additivitetsPlot i det skjulte punkt
Interaktionsplot i afsnit 6.6).
Opskriv modellen, hvor -emissionen
hørende til hver gruppe bestemt af jordtype og gødning
følger sin egen normalfordeling. Opskriv hypotesen, at varianserne i de 6 grupper er ens, og lav
Bartletts test for denne hypotese
Er det rimeligt at sige, at de seks varianser er ens ?
Opskriv modellen, hvor -emissionen
er normalfordelt, og hver gruppe
bestemt af faktoren jord*goed har sin egen middelværdi, og
alle har den samme varians. Lav et qqplot af residualerne fra denne model.
Opskriv inden for
modellen additivitetshypotesen, hvor middelværdien består af et
bidrag fra jordtype og et bidrag fra gødning. Lav et test, for at data kan beskrives med
den additive model.
Hvad bliver konklusionen af testet ?
Stemmer konklusionen,
med hvad du kan se i interaktionsplottet ?
Lav et test for henholdsvis ingen effekt af jordtype
og ingen effekt af gødning inden for den additive model.
Angiv inden for den addititve model et
95%-konfidensinterval for forskellen mellem de to jordtyper
af middelværdien af CO2-emissionen.
I hydrologi, når man skal beregne vandgennemstrømningen i jordlag,
benyttes ofte
Darcys lov.
Denne siger, at vandgennemstrømningen er proportional med
trykforskellen (trykgradienten). Darcy formulerede loven i 1856 baseret
på eksperimenter, hvor vand strømmer
gennem et rør fyldt med sand. Der er siden
lavet forskellige tilføjelser til loven, hvor flere aspekter af
vandgennemstrømningen inddrages. Darcys lov, formuleret som fører til en lineær sammenhæng
for logaritmiske størrelse: hvor er
vandgennemstrømningen og er trykforskellen. Her forventer vi så,
at I skal analysere data i denne opgave for at teste, om der er
en lineær sammenhæng på den logaritmiske skala og dernæst se på, om
Data, I skal bruge, er Darcys oprindelige
data suppleret med
2 simulerede gentagelser af eksperimentet (i artiklen omtales det at
chefingeniør Mr.Baumgarten har gentaget eksperimentet, men data herfra
opgives ikke).
Data findes i filen Darcy.csv.
Filen har 30 rækker og 2 søjler, hvor
hver række svarer til en måling, søjle 1 indeholder trykforskel
(i meter vandsøjle), og søjle
2 indeholder vandgennemstrømningen (i liter per minut). For hver
trykforskel er der tre målinger af vandgennemstrømningen.
Indlæs data, og dan de to variable logTryk og logVand med
logaritmen til trykforskel og logaritmen til vandgennemstrømningen.
Lav en figur, hvor logaritmen til vandgennemstrømningen afsættes mod
logaritmen til trykforskel.
Dan en faktor fakTryk ud fra variablen logTryk.
Beregn gennemsnit (benyt tapply(logVand,fakTryk,mean))
for hver trykforskelsgruppe og indtegn disse gennemsnit som en
kurve i figuren. Indsæt endelig regressionslinjen fra
en regression af logVand på logTryk.
Opskriv den statistiske model
hvor hver trykforskelsgruppe har sin egen middelværdi af logaritmen
til vandgennemstrømningen,
og varianserne er ens. Opskriv også den statistiske model hvor middelværdien
af logVand afhænger lineært af logTryk. Lav nu -testet for reduktion fra model til
model
Hvad bliver konklusionen af testet: er det rimeligt at sige, at
middelværdien af logaritmen til vandgennemstrømningen
afhænger lineært af logaritmen til trykforskel ?
Angiv 95%-konfidensintervaller for skæring og hældning
og for spredning omkring linjen i den lineære regressionsmodel.
Kan det antages, at hældningen er 1 i
overensstemmelse med Darcys lov ?
I modeller til prædiktion af erosionsraten af et jordområde indgår
eroderbarheden af jorden. Et mål for denne er den såkaldte -værdi,
der inddrager mængden af organisk materiale, mængden af sand og
permeabiliteten. I denne opgave skal I se på data omkring -værdiens
afhængighed af om jorden dyrkes eller ej (faktoren dyrk
med niveauerne ja og nej),
og afhængighed af positionen på bjergskråningen, hvor jordprøven indsamles
(faktoren pos med niveauerne summit, shoulder,
back slope, foot slope og toe slope). For hver kombination af
dyrkning og position er fire jordprøver analyseret, således at der
er i alt prøver. Alle prøver er fra Ashanområdet i det
sydøstlige Aserbajdsjan i Iran.
Data er fra artiklen
Assessment of soil erosion on hillslopes (a case study carried out in the Ashan drainage basin, Iran),
og er i filen Eroderbarhed.csv, der har tre søjler:
dyrkning, position og K-værdi.
Opskriv den statistiske model, hvor hver gruppe bestemt af
faktoren dyrk og faktoren pos
har sin egen middelværdi
og sin egen varians af -værdien,
og data er normalfordelt. Lav et test for hypotesen, at
der er samme varians i de 10 grupper.
Lav et interaktionsplot, og kommenter på
hvad du ser i figuren. Opskriv modellen, hvor hver gruppe bestemt af
faktoren dyrk og faktoren pos har sin egen middelværdi
af -værdien, og alle
grupperne har den samme varians. Opskriv hypotesen om en
additiv struktur af middelværdien med et bidrag fra
dyrk og et bidrag fra pos.
Lav -testet for hypotesen om additivitet.
Undersøg, om det kan antages, at positionen på bjergskråningen
ikke har nogen
effekt på -værdien. Undersøg også, om dyrkningsforhold
har nogen effekt på -værdien. Husk at skrive modellerne op.
Lav, inden for den additive model, et 95%-konfidensinterval
for forskel i middelværdierne af -værdien når jorden dyrkes og når
jorden ikke dyrkes.
Lav også et skøn over spredningen af
-værdien omkring middelværdien.