Den globale opvarmning fører mange steder til mere nedbør og til
kraftigere regnbyer (skybrud). Især i byområder, hvor der ikke er
naturlige nedsivningsområder, kan dette give anledning til
oversvømmelser. Et bidrag til løsning af dette kan være
"grønne tage", det vil sige kasser, hvor planter vokser i
passende vækstmedier. Der er mange faktorer, der spiller ind
i designet af et grønt tag. For at få bedre viden om nogle af
disse faktorer er der i artiklen
Influence of water storage and plant crop
factor on green roof retention and plant
drought stress
lavet et eksperiment, hvor
evapotranspirationen
studeres, når højden af vækstkasserne ændres og når plantetætheden
ændres. Plantetætheden kan enten være 0, 1, 2 eller 4 planter per potte
(faktoren taethed),
og potterne kan enten være 15 cm høje eller 30 cm høje
(faktoren hoejde).
Der foretages en vægtmåling om morgenen og om aftenen, hvorefter
plantekasserne vandes grundigt. Forskellen mellem de to vægtmålinger
angiver evapotranspirationen for denne dag i gram, der efterfølgende
omregnes til et volumen og endelig en højde ved at dividere
med pottens overflade. Det endelige fordampningstal, ET, er summen af
de daglige evapotranspirationer hen over eksperimentets varighed.
Image by Alexa from Pixabay
For hver af de otte kombinationer af plantetæthed og pottehøjde er der målt på
5 potter. Data er ikke angivet i artiklen, men kan aflæses fra figur i
denne. I analysen nedenfor vil jeg som respons bruge logaritmen til
den målte ET-værdi ud fra en formodning om, at den procentvise ændring
fra for eksempel 1 til 2 planter kan være den samme for de to forskellige
pottehøjder. I kodevinduet nedenfor laves en figur med boxplot for de otte grupper.
At lave et boxplot baseret på blot 5 observationer er ækvivalent med
blot at vise de 5 dataværdier. Vi kan se, at gruppen med 1 plante og den
store pottehøjde skiller sig ud, ved at der er to observationer, der
er meget lave i relation til det generelle billede for alle data.
Vi kan ikke lave et qqplot for hver gruppe, da der kun er 5 observationer
i grupperne. I stedet laves der i kodevinduet et qqplot for hver
pottehøjde baseret på residualerne fra en ensidet variansanalyse for
hver højde, hvor der deles ind i de fire plantetæthedsgrupper.
De to qqplots viser, at det er rimeligt
at bruge en normalfordeling til beskrivelse af data. Der er en
lille tendens til større varians i den del med den store pottehøjde,
hvilket især skyldes gruppen med 1 plante og den store pottehøjde
som omtalt ovenfor.
Jeg vil nu beskrive den tosidede variansanalysemodel generelt.
Data består af målinger fra uafhængige stokastiske variable
Disse inddeles i grupper ved hjælp
af to faktorer og
Vi starter med en model, hvor både middelværdi og varians
afhænger af, hvilken af de grupper observationen
tilhører. For nemheds skyld betegnes niveauerne i de to faktorer
blot med tal.
Statistisk Model 6.6.2.
(Grundlæggende tofaktor gruppemodel)
Vi betragter uafhængige stokastiske variable
der deles ind i grupper efter en faktor med
faktorniveauerne og en faktor med
niveauerne Hver gruppe har sin egen middelværdi
og varians,
Når vi reducerer til modellen, hvor alle grupperne har den
samme varians, kaldes dette den tosidede variansanalysemodel.
Statistisk Model 6.6.3.
(Tosidet variansanalysemodel (twoway anova))
Vi betragter uafhængige stokastiske variable
der deles ind i grupper efter en faktor med
faktorniveauerne og en faktor med
niveauerne Hver gruppe har sin egen middelværdi
og alle grupperne har samme varians,
Den tosidede variansanalysemodel har en meget vigtig undermodel
kaldet den additive model. Modellen er vigtig, da den giver
mulighed for simple fortolkninger af de parametre, der indgår,
hvilket beskrives detaljeret i næste afsnit.
Statistisk Model 6.6.4.
(Additive model)
Vi betragter uafhængige stokastiske variable
der deles ind i grupper efter en faktor med
faktorniveauerne og en faktor med
niveauerne
Middelværdien i den additive model kan skrives som et bidrag fra
faktor
plus et bidrag fra faktor
Modellen har frie parametre i middelværdispecifikatioen.
Fra den additive model kan vi prøve at reducere modellen
til en model, hvor middelværdien kun har et bidrag fra
faktoren (eller kun har et bidrag fra faktoren ).
Dette fører os tilbage til den ensidede variansanalysemodel
6.2.3. For at få en fornemmelse af om data kan beskrives med den
additive model, kan man lave et interaktionsplot.
Den indbyggede funktion i R er lidt mangelfuld på dette punkt,
så i stedet anbefaler jeg en funktion additivitetsPlot,
som findes i filen Rfunktioner.txt, jævnfør
punktet Egne funktioner i R i afsnit 1.2. I et interaktionsplot beregner man gennemsnit i alle grupperne
givet ved opdeling efter Gennemsnit afsættes mod
niveauerne for den ene faktor, og alle gennemsnit, der ligger
på det samme niveau af den anden faktor, forbindes.
Hvis data kan beskrives med den additive model,
Statistisk Model 6.6.4 ovenfor, afspejler
gennemsnittene i figuren altså afsat mod
for eksempel og punkterne
med samme værdi af forbindes. De kurver, der fremkommer,
svarer altså til kurven der parallelforskydes
med værdierne fra I et interaktionsplot prøver vi derfor
at vurdere, om kurverne ser ud til at være parallelle.
I det følgende kodevindue vises interaktionsplots baseret på
funktionen additivitetsPlot der er indskrevet i
opstartsdelen. Input til denne funktion er de to faktorer,
der bruges til at dele data op i undergrupper, og vektoren med
responsværdierne. Efter at I har kørt koden så prøv at skifte
additivitetsPlot ud med den indbyggede R-funktion
interaction.plot.
Begge figurer viser approksimative parallelle kurver, hvilket tyder på,
at data kan beskrives med den additive model.
6.6.1 Analyse i R og parametrisering
Den tosidede variansanalysemodel 6.6.3
i foregående afsnit,
hvor hver gruppe har sin egen middelværdi,
analyseres med kaldet xG*H. Den additive model
6.6.4
analyseres med kaldet xG+H.
Lad os starte med at forstå
output fra summary for den sidste model. Vi kan forstå output
ved, for og at skrive
hvor højresiden viser de parametre, der bruges ved kaldet
xG+H. Vi ser her at modellen kan parametriseres med
parametre, nemlig ,
og
.
Går vi nu tilbage til den tosidede variansanalysemodel, skriver vi
i stedet
hvor den anden linje viser de parametre, der bruges ved kaldet
xG*H. Det sidste led kaldes interaktionen mellem
de to faktorer.
I den tosidede variansanalysemodel er Gu således
forskel mellem niveau og niveau 1 for faktoren
når faktoren ligger på niveau 1, og vice versa
for Hv.
Det nyttige ved den additive model er, at Gu nu er
forskel mellem niveau og niveau 1 for faktoren
uanset hvilket niveau faktoren befinder sig på,
og Hv er
forskel mellem niveau og niveau 1 for faktoren
uanset hvilket niveau faktoren befinder sig på.
Som for den ensidede variansanalyse
i afsnit 6.4 betragtes simulerede
data med spredning således at vi direkte kan se
parametrene, der bruges i R.
Vi betragter den additive model inden for
den tosidede variansanalysemodel.
Hvad er middelværdien for en observation med gFak på niveau
"2" og hFak på niveau "B" ? Hvad er værdien af Intercept+gFak2+hFakB ?
Udtryk R-parametrene
Intercept, gFak2, hFakB og hFakC ud fra
eta og zeta.
Opskriv de statistiske modeller svarende til henholdsvis kaldet
lm(x~gFak*hFak) og til kaldet lm(x~gFak+hFak).
Fra gFak kommer bidraget 3 til middelværdien og fra hFak bidraget
0, hvorfor middelværdien er som
er middelværdien, vi lige har udregnet.
Intercept=eta[1]+zeta[1], gFak2=eta[2]-eta[1], hFakB=zeta[2]-zeta[1] og
hFakC=zeta[3]-zeta[1].
Det 'te respons er og den 'te værdi af de to faktorer er
og Model svarende til det første kald siger, at hver
undergruppe
givet ved de to faktorer har sin egen middelværdi, Model svarende til det andet
kald siger, at middelværdien består af et bidrag fra gruppen bestemt
af faktoren gFak plus et bidrag fra gruppen bestemt af faktoren hFak,
Eksempel 6.6.6.
(Grønne tage)
Vi betragter data omtalt i starten af dette afsnit omkring
evapotranspirationen fra grønne tage.
Lad være den stokastiske variabel, der
angiver respons (logaritmen til ET) for den 'te måling,
og lad og
være de tilhørende værdier for de to faktorer taethed og
hoejde, hvor taethed har niveauerne "t0",, "t4",
og hoejde har niveauerne "h1" og "h2".
Lad os starte med den grundlæggende
tofaktormodel 6.6.2, her skrevet som
hvor hver gruppe bestemt af taethed*hoejde har sin egen
middelværdi og sin egen varians, og de otte middelværdier og
varianser kan variere frit. Først undersøges hypotesen om fælles varians:
Beregningerne nedenfor i R viser, at Bartlett teststørrelsen er 20.5,
og den tilhørende -værdi fra en -fordeling er 0.005.
Dette er en noget lav -værdi. Som vi har set i figur fra
den skjulte kode ovenfor,
er det især situationen med 1 plante og den store pottehøjde, der har
en afvigende stor varians. Vi kan også se dette direkte ved at lave et
test for ens varianser i de syv andre grupper. Fra beregningerne nedenfor
ses, at Bartlett teststørrelsen nu er 12.2, og den tihørende
-værdi er 0.058. Jeg vil nedenfor betragte modellen
med samme varians i alle 8 grupper og til sidst i næste afsnit i
eksempel 6.7.2 se på, at de konklusioner,
vi kommer frem til, er robuste over
for den afvigende varians i den ene gruppe.
Den tosidede variansanalysemodel 6.6.3,
med sammme varians i de 8 grupper, formuleres som
hvor de 8 middelværdier og den fælles varians kan variere frit.
Vi ønsker nu at teste reduktionen til den additive model
6.6.4 skrevet som
Vi har ovenfor lavet interaktionsplots, der viser overensstemmelse med
den additive model. Parametertabellen hørende til model
viser, at der er tre parametre, der vedrører interaktionen mellem
taethed og hoejde, nemlig taethedt1:hoejdeh2,
taethedt2:hoejdeh2 og taethedt4:hoejdeh2.
Test for, at hver enkel af disse tre parametre kan sættes lig med nul, aflæses
under -testet i parametertabellen, og giver alle en meget høj
-værdi, hvilket understøtter observationen fra
interaktionsplottet.
I næste afsnit indføres et -test for at
teste hypotesen om additivitet, og for data her fås
en -værdi på 0.80.
Konklusionen er derfor, at data ikke strider mod hypotesen om additivitet.Vi laver nu en parametertabel under den additive model.
Fra rækken hoejdenh2 ses, at et test for ingen effekt
af pottehøjden giver en -værdi på ,
hvorfor vi konkluderer, at pottehøjden har en stor effekt.
Samtidig viser tabellen en kraftig forskel mellem
nul planter og enten 1 2 eller 4 planter, hvorfor vi konkluderer,
at plantetaetheden har en effekt. Et formelt -test for
denne hypotese laves i eksempel 6.7.2 i næste afsnit.
Et 95%-konfidensinterval for forskel mellem middelværdierne
af logaritmen til ET
for den store og den lille pottehøjde er
Konfidensinterval for forskel mellem
1 og ingen plante er og mellem
4 planter og ingen plante er
Der er som forventeligt en stor forskel mellem
nul planter og 1 plante, hvorimod stigningen fra 1 til 2 planter
er cirka 0.16, og igen en stigning på cirka 0.16 fra 2 til 4 planter.
Da vi kigger på logaritmen til ET, vil en fordobling svare til en
stigning på cirka 0.7. Vi er således langt fra en fordobling,
når vi går fra 1 plante til 2 planter.