Afsnit 4.9: Opgaver til kapitel 4

Øvelserne til kapitel 4 har til formål at gøre jer fortrolige med den generelle lineære normale model gennem nogle grundlæggende eksempler. Efter øvelsen skal I vide, hvad en faktor er, og I skal have en forståelse af det generelle -test for reduktion af middelværdimodellen.

Opgave 4.1: Ensidet variansanalyse

I denne opgave bruger vi data fra artiklen Grain size discrimination between sands of desert and coastal dunes from northwestern Mexico. Forfatterne ønsker at studere, om der er forskel i størrelsesfordelingen af sandprøver indsamlet tre steder i Altar ørkenen i det nordlige Mexico på grænsen til USA.
Størelsesfordelingen findes ved brug af en Laser Particle Size Analyser, og i denne opgave ser vi på middelkornstørrelsen for hver sandprøve. Der er 14 prøver fra San Luis Rio Colorado området (kodet som "SanLuis" i datafilen), 16 prøver fra Pinacate north (kodet som "PinaNorth"), og 8 prøver fra Pinacate south (kodet som ``PinaSouth''). De tre områder ligger i størrelsesordenen 100 km fra hinanden. Data ligger i filen Sandproever.csv. Der er 38 rækker i filen svarende til de 38 sandprøver i eksperimentet, og to søjler med henholdsvis område og middelkornstørrelse. Kornstørrelsen måles på Phi-skalaen, der fremkommer ved at tage to-tals logaritmen til kornstørrelsen i millimeter. Gennemsnit og empirisk spredning for hvert område er gengivet i den følgende tabel.
  1. Indlæs data, og dan de to variable omraade og kornstr med indholdet af de to søjler. Lav et boxplot og et qqplot af kornstr opdelt efter område. Du kan lade dig inspirere af koden i afsnit 4.2. Overvej, hvad disse figurer viser om forholdet mellem spredningerne i de tre områder og forholdet mellem middelværdierne.
  2. Opskriv den statistiske model, hvor data er delt ind i tre grupper svarende til de tre områder, og data er normalfordelt med en middelværdi og varians, der afhænger af gruppen.
    Opskriv hypotesen, at de tre varianser er ens. Lav Bartletts test, for at de tre varianser er ens. Hvad bliver konklusionen af testet?
  3. Opskriv den statistiske model, hvor middelværdien afhænger af området, men de tre varianser er ens. Find estimater i denne model (både for middelværdierne og for spredningen). Benyt parametertabellen til at lave et -test for hypotesen, at
    Angiv et 95%-konfidensinterval for
  4. Opskriv hypotesen, at de tre middelværdier er ens, og lav et test for denne hypotese ved et passende kald til anova.
    Hvad bliver konklusionen i denne opgave: er det rimeligt at sige, at der er samme middelværdi af middelkornstørrelsen i de tre områder af Altar ørkenen?

Opgave 4.2: Tosidet variansanalyse

I artiklen Environmental heterogeneity does not affect levels of phenotypic plasticity in natural populations of three Drosophila species undersøges, hvordan forskellige arter og geografisk adskilte grupper af bananfluer reagerer på miljøpåvirkninger. I denne opgave skal I se på en delmængde af data, hvor der betragtes D.melanogaster indsamlet i henholdsvis Danmark og Italien. Fra ægstadiet og frem udsættes fluerne for tre forskellige behandlinger: C (constant), PF (predictable fluctuation) og UF (unpredictalbe fluctuation). For C-gruppen holdes temperaturen konstant på 23 (grader celsius) hen over døgnet, for PF følger temperaturen en sinuskurve med maksimum på 18 og minimum på 13, og for UF følger temperaturen også en sinuskurve, men med stokastiske maksimum og minimum for hvert døgn. Ved en given alder udsættes fluerne for en kritisk varmepåvirkning (37.5 grader celsius uafbrudt), og tiden (minutter) indtil fluen går i koma registreres. Med undersøgelsen ønsker man således at se, om forskel i opvæksten har betydning for deres evne til at klare varmepåvirkningen, og om der er forskel i de to geografiske populationer med hensyn til denne evne. Gennemsnit og empirisk spredning for logaritmen til tiden indtil koma er gengivet for hver kombination af land og behandling i nedenstående tabel.
Data i artiklen kan findes under Dryad Digital Repository. Data til opgaven her er i filen Bananfluer.csv, hvor søjle 1 angiver land, søjle 2 angiver behandling og søjle 3 angiver tiden i minutter, indtil fluen går i koma.
  1. Du skal først se på, om tidsmålingerne kan beskrives med en normalfordeling, eller om man først bør tage logaritmen til tidsmålingerne. Indlæs data og dan variablene land, behandling og tid. Udvælg tre af de seks kombinationer af land og behandling, og lav qqplot af tid for hver af disse. Du kan lade dig inspirere af koden i afsnit 4.6. Lav dernæst tilsvarende qqplots for logaritmen til tid.
    Hvad bliver din konklusion ud fra de to figurer?
    Lav dernæst interaktionsplot for logaritmen til tiden i forhold til de to faktorer land og behandling (se omtalen af funktionen additivitetsPlot i det skjulte punkt Interaktionsplot i afsnit 4.6).
  2. Opskriv modellen, hvor logaritmen til tidsmålingen hørende til hver gruppe bestemt af land og behandling følger sin egen normalfordeling.
    Opskriv hypotesen, at varianserne i de 6 grupper er ens, og lav Bartletts test for denne hypotese. Er det rimeligt at sige, at de seks varianser er ens?
  3. Opskriv modellen, hvor logaritmen til tiden er normalfordelt, og hver gruppe bestemt af land og behandling har sin egen middelværdi, og alle har den samme varians. Opskriv inden for denne model additivitetshypotesen, hvor middelværdien består af et bidrag fra land og et bidrag fra behandling.
    Lav et test, for at data kan beskrives med den additive model. Hvad bliver konklusionen af testet? Stemmer konklusionen, med hvad du kan se i interaktionsplottet?
  4. Lav et test for henholdsvis ingen effekt af behandling og ingen effekt af land inden for den additive model.
  5. Angiv inden for den addititve model et 95%-konfidensinterval for forskellen i middelværdi af logaritmen til tiden mellem de to lande.
    Oversæt det fundne interval til et interval for forholdet mellem middelværdierne af tid indtil koma for de to lande, jævnfør underafsnit 2.13.3.

Opgave 4.3: Teste for en lineær sammenhæng

I hydrologi, når man skal beregne vandgennemstrømningen i jordlag, benyttes ofte Darcys lov. Denne siger, at vandgennemstrømningen er proportional med trykforskellen (trykgradienten). Darcy formulerede loven i 1856 baseret på eksperimenter, hvor vand strømmer gennem et rør fyldt med sand. Der er siden lavet forskellige tilføjelser til loven, hvor flere aspekter af vandgennemstrømningen inddrages.
Darcys lov, formuleret som fører til en lineær sammenhæng for logaritmiske størrelse: hvor er vandgennemstrømningen og er trykforskellen. Her forventer vi så, at I skal analysere data i denne opgave for at teste, om der er en lineær sammenhæng på den logaritmiske skala og dernæst se på om Data I skal bruge er Darcys oprindelige data suppleret med 2 simulerede gentagelser af eksperimentet (i artiklen omtales det at chefingeniør Mr.Baumgarten har gentaget eksperimentet, men data herfra opgives ikke). Data findes i filen Darcy.csv. Filen har 30 rækker og 2 søjler, hvor hver række svarer til en måling, søjle 1 indeholder trykforskel (i meter vandsøjle), og søjle 2 indeholder vandgennemstrømningen (i liter per minut). For hver trykforskel er der tre målinger af vandgennemstrømningen.
  1. Indlæs data, og dan de to variable logTryk og logVand med logaritmen til trykforskel og logaritmen til vandgennemstrømningen. Lav en figur, hvor logaritmen til vandgennemstrømningen afsættes mod logaritmen til trykforskel. Dan en faktor fakTryk ud fra variablen logTryk. Beregn gennemsnit (benyt tapply(logVand,fakTryk,mean)) for hver trykforskelsgruppe og indtegn disse gennemsnit som en kurve i figuren. Indsæt endelig regressionslinjen fra en regression af logVandlogTryk.
  2. Opskriv den statistiske model hvor hver trykforskelsgruppe har sin egen middelværdi af logaritmen til vandgennemstrømningen, og varianserne er ens.
    Opskriv også den statistiske model hvor middelværdien af logVand afhænger lineært af logTryk.
    Lav nu -testet for reduktion fra model til model Hvad bliver konklusionen af testet: er det rimeligt at sige, at middelværdien af logaritmen til vandgennemstrømningen afhænger lineært af logaritmen til trykforskel?
  3. Angiv 95%-konfidensintervaller for skæring og hældning og for spredning omkring linjen i den lineære regressionsmodel. Kan det antages, at hældningen er 1 i overensstemmelse med Darcys lov?

Opgave 4.4: Scanning and browsing

I artiklen Effects of user age on smartphone and tablet use, measured with an eye-tracker via fixation duration, scan-path duration, and saccades proportion studeres, hvordan brugen af smartphones og tablets varierer mellem forskellige aldersgrupper. Under brugen følges en persons øjenbevægelse, og herudfra dannes et mål SPD (scan-path duration, målt i millisekunder), der afspejler en persons evne til at bruge redskabet. I artiklen siges der: "SPD measures global processing of interfaces, where longer SPD indicates less efficient scanning and browsing". Personer deles op i tre aldersgrupper: unge, midaldrende og aeldre. Desuden fordeles personerne på to eksperimenter (Ex1 og Ex2). Hvert eksperiment består af ni opgaver inden for brugen af forskellige smartphone apps, og opgaven hørende til en app er forskellig mellem de to eksperimenter. Data er i filen Smartphone.csv der har tre søjler med henholdsvis eksperiment, aldersgruppe og SPD-målingen.
  1. Lav en figur med 3 delplots med qqplots af SPD for de tre aldersgrupper for eksperiment 1. Kommenter på figuren.
    Opskriv den statistiske model, hvor hver gruppe bestemt af aldersgruppe og eksperiment har sin egen middelværdi og sin egen varians af SPD, og data er normalfordelt. Lav et test for hypotesen, at der er samme varians i de 6 grupper.
  2. Lav et interaktionsplot, og kommenter på hvad du ser i figuren. Opskriv modellen, hvor hver gruppe bestemt af aldersgruppe og eksperiment har sin egen middelværdi af SPD, og alle grupperne har den samme varians. Opskriv hypotesen om en additiv struktur af middelværdien med et bidrag fra aldersgruppe og fra eksperiment. Lav -testet for hypotesen om additivitet.
  3. Undersøg, om det kan antages, at aldersgruppe ikke har nogen effekt på SPD. Undersøg også, om eksperiment har nogen effekt på SPD. Husk at skrive modellerne op.
  4. Angiv skøn over middelværdien blandt de aeldre for eksperiment Ex1. Angiv et 95%-konfidensinterval for forskellen i middelværdi af SPD mellem gruppen af unge og gruppen af aeldre inden for den additive model.
    Angiv skøn over spredningen på SPD i den additive model.

Opgave 4.5: Bartletts test

Betragt uafhængige variansskøn med Skriver man tætheden op for (jævnfør B.10 i MSRR), kan man se, at logaritmen til likelihoodfunktionen baseret på er
  1. Vis, at maksimum likelihoodskønnet for baseret på tætheden af er . Vis dernæst, at maksimum af log-likelihoodfunktionen er
  2. Betragt nu hypotesen, at de varianser er ens, hvor vi betegner den fælles værdi med . Vis, at under hypotesen om ens varianser er maksimum likelihoodskønnet for den fælles varians givet ved hvor
  3. Betragt nu log-likelihoodratio teststørrelsen, her betegnet med , på formen
    Vis, at
    Dette er Bartlett teststørrelsen fra (4.5.2) pånær divisoren . Faktoren findes ved at lave en taylorudvikling af middelværdien af .

Opgave 4.6: Selv udregne $F$-test

Gå tilbage til spørgsmål (d) i opgave 4.1, hvor der laves et -test for at middelværdierne i de tre grupper er ens.
  1. Udregn -teststørrelsen ved kun at bruge output fra summary(lm(modelformel)) for passende valg af modelformler.
  2. -teststørrelsen er på formen . Udregn ved kun at benytte lm(modelformel)fitted.values for passende valg af modelformler.

Opgave 4.7: Selv udregne Bartletts teststørrelse

Gå tilbage til opgave 4.1, hvor Bartletts test for ens varianser betragtes. Beregn Bartletts teststørrelse baseret udelukkende på informationen i tabellen med gennemsnit og empiriske spredninger i de tre grupper.

Opgave 4.8: Selv udregne konfidensinterval

Gå tilbage til spørgsmål (e) i opgave 4.2, hvor der findes et konfidensinterval for forskellen i middelværdi af logaritmen til tiden mellem de to lande. Beregn dette interval baseret på den information du får fra et passende kald til summary(lm(modelformel)).

ForegåendeNæste