Øvelserne til kapitel 4 har til formål at gøre jer fortrolige med
den generelle lineære normale model gennem nogle grundlæggende eksempler.
Efter øvelsen skal I vide, hvad en faktor er, og
I skal have en forståelse af det generelle -test for
reduktion af middelværdimodellen.
Størelsesfordelingen findes ved brug af en
Laser Particle Size Analyser, og i denne opgave ser vi på
middelkornstørrelsen for hver sandprøve. Der er 14 prøver fra
San Luis Rio Colorado området (kodet som "SanLuis" i datafilen),
16 prøver fra Pinacate north (kodet som "PinaNorth"), og 8 prøver fra
Pinacate south (kodet som ``PinaSouth''). De tre områder ligger i
størrelsesordenen 100 km fra hinanden.
Data ligger i filen Sandproever.csv.
Der er 38 rækker i filen svarende til de 38 sandprøver i eksperimentet,
og to søjler med henholdsvis
område og middelkornstørrelse.
Kornstørrelsen måles på Phi-skalaen, der fremkommer ved at tage to-tals
logaritmen til kornstørrelsen i millimeter.
Gennemsnit og empirisk
spredning for hvert område er gengivet i den følgende tabel.
Indlæs data, og dan de to variable omraade og
kornstr med indholdet af de to søjler.
Lav et boxplot og et qqplot af kornstr opdelt efter
område.
Du kan lade dig inspirere af koden i
afsnit 4.2.
Overvej, hvad disse figurer viser om forholdet mellem spredningerne
i de tre områder og forholdet mellem middelværdierne.
Opskriv
den statistiske model, hvor data er delt ind i tre
grupper svarende til de tre områder, og data er normalfordelt
med en middelværdi og varians, der afhænger af gruppen. Opskriv hypotesen, at de tre varianser er ens. Lav
Bartletts test, for at de tre varianser er ens.
Hvad bliver konklusionen af testet ?
Opskriv den statistiske model, hvor middelværdien
afhænger af området, men de tre varianser er ens.
Find estimater i denne model (både for middelværdierne og for spredningen).
Benyt parametertabellen til at lave et
-test for hypotesen, at Angiv et 95%-konfidensinterval for
Opskriv hypotesen, at de tre middelværdier er ens, og lav
et test for denne hypotese ved et passende kald til anova. Hvad bliver konklusionen i denne opgave: er det rimeligt at sige,
at der er samme middelværdi af middelkornstørrelsen i de
tre områder af Altar ørkenen ?
I artiklen
Environmental heterogeneity does not affect levels of
phenotypic plasticity in natural populations of three
Drosophila species
undersøges, hvordan forskellige arter
og geografisk adskilte grupper af bananfluer
reagerer på miljøpåvirkninger. I denne opgave skal I se på en delmængde af
data, hvor der betragtes D.melanogaster indsamlet i henholdsvis
Danmark og Italien. Fra ægstadiet og frem udsættes fluerne for tre
forskellige behandlinger: C (constant), PF (predictable fluctuation) og
UF (unpredictalbe fluctuation). For C-gruppen holdes temperaturen
konstant på 23 (grader celsius) hen over døgnet, for PF følger
temperaturen en sinuskurve med maksimum på 18 og minimum på 13, og
for UF følger temperaturen også en sinuskurve, men med stokastiske
maksimum og minimum for hvert døgn. Ved en given alder udsættes fluerne for
en kritisk varmepåvirkning (37.5 grader celsius uafbrudt), og
tiden (minutter)
indtil fluen går i koma registreres. Med undersøgelsen ønsker man
således at se, om forskel i opvæksten har betydning for deres evne til at
klare varmepåvirkningen, og om der er forskel i de to geografiske populationer
med hensyn til denne evne. Gennemsnit og empirisk spredning
for logaritmen til tiden indtil koma er
gengivet for hver kombination af land og behandling i
nedenstående tabel.
Data i artiklen kan findes
under Dryad Digital Repository.
Data til opgaven her er i filen
Bananfluer.csv, hvor søjle 1 angiver
land, søjle 2 angiver behandling og søjle 3 angiver tiden i minutter,
indtil fluen går i koma.
Du skal først se på, om
tidsmålingerne kan beskrives med en
normalfordeling, eller om man først bør tage logaritmen til tidsmålingerne.
Indlæs data og dan variablene land, behandling og tid.
Udvælg tre af de seks kombinationer af land og behandling, og lav
qqplot af tid for hver af disse. Du kan lade dig inspirere af
koden i
afsnit 4.6.
Lav dernæst tilsvarende qqplots for logaritmen til tid. Hvad bliver din konklusion ud fra de to figurer ?Lav dernæst interaktionsplot for
logaritmen til tiden i forhold til de to faktorer land og behandling
(se omtalen af funktionen additivitetsPlot i det skjulte punkt
Interaktionsplot i afsnit 4.6).
Opskriv modellen, hvor logaritmen til tidsmålingen
hørende til hver gruppe bestemt af land og behandling
følger sin egen normalfordeling. Opskriv hypotesen, at varianserne i de 6 grupper er ens, og lav
Bartletts test for denne hypotese.
Er det rimeligt at sige, at de seks varianser er ens ?
Opskriv modellen, hvor logaritmen til tiden
er normalfordelt, og hver gruppe
bestemt af land og behandling har sin egen middelværdi, og
alle har den samme varians. Opskriv inden for
denne model additivitetshypotesen, hvor middelværdien består af et
bidrag fra land og et bidrag fra behandling. Lav et test, for at data kan beskrives med
den additive model.
Hvad bliver konklusionen af testet ?
Stemmer konklusionen,
med hvad du kan se i interaktionsplottet ?
Lav et test for henholdsvis ingen effekt af behandling
og ingen effekt af land inden for den additive model.
Angiv inden for den addititve model et
95%-konfidensinterval for forskellen i middelværdi af
logaritmen til tiden mellem de to lande. Oversæt det fundne interval til et interval for
forholdet mellem
middelværdierne af tid indtil koma for de to lande,
jævnfør underafsnit 2.13.3.
I hydrologi, når man skal beregne vandgennemstrømningen i jordlag,
benyttes ofte
Darcys lov.
Denne siger, at vandgennemstrømningen er proportional med
trykforskellen (trykgradienten). Darcy formulerede loven i 1856 baseret
på eksperimenter, hvor vand strømmer
gennem et rør fyldt med sand. Der er siden
lavet forskellige tilføjelser til loven, hvor flere aspekter af
vandgennemstrømningen inddrages. Darcys lov, formuleret som fører til en lineær sammenhæng
for logaritmiske størrelse: hvor er
vandgennemstrømningen og er trykforskellen. Her forventer vi så,
at I skal analysere data i denne opgave for at teste, om der er
en lineær sammenhæng på den logaritmiske skala og dernæst se på om
Data I skal bruge er Darcys oprindelige
data suppleret med
2 simulerede gentagelser af eksperimentet (i artiklen omtales det at
chefingeniør Mr.Baumgarten har gentaget eksperimentet, men data herfra
opgives ikke).
Data findes i filen Darcy.csv.
Filen har 30 rækker og 2 søjler, hvor
hver række svarer til en måling, søjle 1 indeholder trykforskel
(i meter vandsøjle), og søjle
2 indeholder vandgennemstrømningen (i liter per minut). For hver
trykforskel er der tre målinger af vandgennemstrømningen.
Indlæs data, og dan de to variable logTryk og logVand med
logaritmen til trykforskel og logaritmen til vandgennemstrømningen.
Lav en figur, hvor logaritmen til vandgennemstrømningen afsættes mod
logaritmen til trykforskel.
Dan en faktor fakTryk ud fra variablen logTryk.
Beregn gennemsnit (benyt tapply(logVand,fakTryk,mean))
for hver trykforskelsgruppe og indtegn disse gennemsnit som en
kurve i figuren. Indsæt endelig regressionslinjen fra
en regression af logVand på logTryk.
Opskriv den statistiske model
hvor hver trykforskelsgruppe har sin egen middelværdi af logaritmen
til vandgennemstrømningen,
og varianserne er ens. Opskriv også den statistiske model hvor middelværdien
af logVand afhænger lineært af logTryk. Lav nu -testet for reduktion fra model til
model
Hvad bliver konklusionen af testet: er det rimeligt at sige, at
middelværdien af logaritmen til vandgennemstrømningen
afhænger lineært af logaritmen til trykforskel ?
Angiv 95%-konfidensintervaller for skæring og hældning
og for spredning omkring linjen i den lineære regressionsmodel.
Kan det antages, at hældningen er 1 i
overensstemmelse med Darcys lov ?
I artiklen
Effects of user age on smartphone and tablet use, measured with an eye-tracker via fixation duration, scan-path duration, and saccades proportion
studeres, hvordan brugen af smartphones og tablets varierer mellem
forskellige aldersgrupper. Under brugen følges en persons øjenbevægelse, og
herudfra dannes et mål SPD (scan-path duration, målt i millisekunder),
der afspejler
en persons evne til at bruge redskabet. I artiklen siges der: "SPD measures
global processing of interfaces, where longer SPD indicates less
efficient scanning and browsing". Personer deles op i tre aldersgrupper:
unge, midaldrende og aeldre.
Desuden fordeles personerne på to eksperimenter (Ex1 og Ex2).
Hvert eksperiment består af ni opgaver inden for brugen af
forskellige smartphone apps, og opgaven hørende til en app er forskellig
mellem de to eksperimenter.
Data er i filen Smartphone.csv der har tre søjler med henholdsvis
eksperiment, aldersgruppe og SPD-målingen.
Lav en figur med 3 delplots med qqplots af SPD for de tre aldersgrupper
for eksperiment 1. Kommenter på figuren. Opskriv den statistiske model, hvor hver gruppe bestemt af
aldersgruppe og eksperiment har sin egen middelværdi
og sin egen varians af SPD,
og data er normalfordelt. Lav et test for hypotesen, at
der er samme varians i de 6 grupper.
Lav et interaktionsplot, og kommenter på
hvad du ser i figuren. Opskriv modellen, hvor hver gruppe bestemt af
aldersgruppe og eksperiment har sin egen middelværdi
af SPD, og alle
grupperne har den samme varians. Opskriv hypotesen om en
additiv struktur af middelværdien med et bidrag fra
aldersgruppe og fra eksperiment.
Lav -testet for hypotesen om additivitet.
Undersøg, om det kan antages, at aldersgruppe ikke har nogen
effekt på SPD. Undersøg også, om eksperiment
har nogen effekt på SPD. Husk at skrive modellerne op.
Angiv skøn over middelværdien blandt de aeldre for eksperiment
Ex1.
Angiv et 95%-konfidensinterval for forskellen i middelværdi
af SPD mellem gruppen af unge og gruppen af aeldre
inden for den additive model. Angiv skøn over spredningen på SPD i den additive model.
Betragt uafhængige variansskøn med
Skriver man tætheden
op for (jævnfør B.10 i MSRR), kan man se, at
logaritmen til likelihoodfunktionen baseret på er
Vis, at maksimum likelihoodskønnet for
baseret på tætheden af er . Vis dernæst,
at maksimum af log-likelihoodfunktionen er
Betragt nu hypotesen, at de varianser er ens, hvor vi
betegner den fælles værdi med .
Vis, at under hypotesen om ens varianser er
maksimum likelihoodskønnet for den fælles varians
givet ved
hvor
Betragt nu log-likelihoodratio teststørrelsen,
her betegnet med ,
på formen
Vis, at
Dette er Bartlett teststørrelsen fra (4.5.2)
pånær divisoren . Faktoren findes ved at lave en taylorudvikling
af middelværdien af .
Gå tilbage til opgave 4.1, hvor Bartletts test for ens
varianser betragtes.
Beregn Bartletts teststørrelse baseret udelukkende på informationen
i tabellen med gennemsnit og empiriske spredninger i de tre grupper.
Gå tilbage til spørgsmål (e) i opgave 4.2, hvor der findes et konfidensinterval
for forskellen i middelværdi af logaritmen til tiden mellem de to lande.
Beregn dette interval baseret på den information du får fra et
passende kald til summary(lm(modelformel)).