Denne uges øvelse vedrører situationen med et enkelt normalfordelt
observationssæt og situationen med
to normalfordelte observationssæt.
I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot.
For t observationssæt skal I lave inferens om
middelværdien og variansen
i normalfordelingen, hvor I for første gang skal bruge det vigtige
-test. For to observationssæt skal I både sammenligne varianser
og sammenligne middelværdier, og specielt lave konfidensinterval for
forskel i middelværdi.Alle opgaverne skal være forberedt hjemmefra og gennemgås ved tavlen
til øvelserne.
Inden for evolutionær biologi studeres kønsrationen for
forskellige organismer.
Data i dene opgave vedrører den encellede malaria parasit
(Plasmodium).
I parasittens livscykler udvikler nogle celler sig til han- og hunkønsceller
(gametocytes), og data i opgaven her er andelen af hankønsceller
i blodet fra hver af 130 firben. Andelen måles ved at betragte
100 parasitceller i en blodprøve.
Biologerne har en teori, kaldet
local mate competition, for denne andel.
En version af teorien angiver andelen af
hankønsceller til 0.45. Data er fra artiklen
Testing sex ratio theory with the malaria parasite plasmodium mexicanum in natural and experimental infections.
I filen Malaria.txt ligger andelen af hankønsceller for
malariaparasitten fra de 130 blodprøver.Umiddelbart kunne man tro, at binomialmodellen ville være en passende model
for antallet af hankønsceller blandt 100 celler.
Det viser sig imidlertid, at data viser langt
større spredning end forventet i en binomialmodel. Dette kan skyldes
en variation i kønsrationen fra dyr til dyr, fejlklassifikation
i han- og hunkønsceller, og andre ting. I stedet for binomialmodellen
skal I nedenfor bruge en normalfordelingsmodel for
andelen af hankønsceller. Vi benytter altså en model for kontinuerte
stokastiske variable, selvom andelen af hankønsceller kun
kan antage 101 værdier (nemlig værdierne ). Indlæs data fra filen Malaria.txt med kommandoen
scan("Malaria.txt").
Denne opgave kan nu formuleres kort som følger. Opstil en
statistisk model for andelen af hankønsceller,
lav inferens for parametrene i modellen
og overvej biologernes hypotese.
Skrevet ud bliver dette til følgende spørgsmål.
Undersøg grafisk, om andelen af hankønsceller
kan beskrives med en normalfordeling
via et histogram og et qqplot. Opskriv en statistisk model for data.
Lav en tabel med skøn og 95%-konfidensinterval for
middelværdien, variansen og spredningen i en normalfordelingsmodel.
Overvej, om data er i overenstemmelse med biologernes teori om
en andel af hankønsceller på 0.45.
Hvis antallet af hankønsceller blandt 100 celler er
binomialfordelt med sandsynlighedsparameter vil variansen
på andelen af hankønsceller være Hvordan
passer dette med data ?
I et større studie omkring farven på fjerene af
northern flicker
(spætte i USA) har forfatterne mærket 16 fugle
af hankøn og målt
farven på en fjer i to på hinanden følgende år.
Farveskalaen er konstrueret således, at en lav værdi svarer
til et højt indhold af gul farve, og en stor værdi
giver en mere rødlig farve.
Den gule farve fås gennem carotenoider fra føden. Data i denne opgave er aflæst fra figur 3 i artiklen
Variation in carotenoid-based color in northern flickers in a hybrid zone.
Data findes i filen
Spaette.csv, som er organiseret i
16 rækker og tre søjler: første søjle angiver
nummer på fugl, anden søjle angiver farven det første år og
tredje søjle angiver farven det andet år. I denne opgave skal I ud fra differensen mellem farven det første
og det andet år angive den viden, vi har
om forskel i farven mellem to år.
Middelværdien af differensen siger noget om,
hvilken generel tendens der er i forskellen
mellem de to år, og spredningen siger noget om den biologiske
variation i denne forskel mellem fuglene.
Indlæs data, og lav en figur, hvor farveværdien fra det andet
år tegnes op mod farveværdien det første år. Indtegn identitetslinjen
i figuren. Prøv at beskrive i ord,
hvad figuren viser om forskel i farven mellem de to år.
Betragt nu de 16 differenser med farveværdien fra det andet år
minus farveværdien det første år. Lav et qqplot af data, og opskriv
den statistiske model, hvor differensen er normalfordelt.
Lav et test for hypotesen, at middelværdien af differensen er nul,
svarende til hypotesen, at der ikke er forskel mellem de to år.
Lav dernæst et 95%-konfidensinterval for middelværdien af differensen.
Hvad bliver konklusionen af disse udregninger ?
Forklaringen på skift i farve fra det ene år til det følgende er uklar. En
undersøgelse for spætter af hunkøn viser ikke et tilsvarende
skift i farve. Dette antyder, at forklaringen ikke er et skift i føden. Når I laver et -test for at middelværdierne af differenserne er nul,
kaldes dette et parret -test: observationerne fra de to år er
parret, ved at der er målt på den samme fugl. Inden for det samme år er
der stor variation i farven mellem fuglene, og det kan være svært at se
en forskel mellem to år, hvis vi forestiller os et alternativt
eksperiment, hvor der er indsamlet 16 fugle det første år og 16 nye
fugle det næste år. I kan se dette ved at prøve at lave et
two-sample -test for data i denne opgave, hvor det ene observationssæt er
data fra det første år, og det andet observationssæt er
data fra det andet år (two-sample -test skal
I arbejde med i den næste opgave).
Indlæs data og dan
vektorerne art og form ud fra søjlerne i de indlæste data.
Dan dernæst to datasæt formEng og formVip
med værdierne fra form hørende til henholdsvis Engpibe og
Vipstjert (se eventuelt opgave 1.4).Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at
lave flere qqplots i den samme figur, kan du se i
kodevinduet i
afsnit 4.8.
Synes du, at gøgeæggenes form for hver værtsart
kan beskrives med en normalfordeling ?Lav også en figur med boxplot
for hvert af de to datasæt. Flere boxplots i
den samme figur kan laves som vist i
kodevinduet i
afsnit 4.8, men kan også laves med kommandoen
boxplot(formart).
Hvilke ligheder og forskelle mellem de to datasæt
kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt (formEng og formVip)
følger sin egen normalfordeling.
Opsummer de to datasæt i form af en tabel, som for hvert datasæt
indeholder
antallet af observationer, gennemsnit, empirisk
spredning og et 95%-konfidensinterval for
middelværdien.
Antallet af elementer i en vektor kan i R findes
med funktionen length.
Opskriv hypotesen, at de to varianser er ens, og lav
-testet for ens varianser. Er det rimeligt at antage, at
variansen af æggets form er den samme for de to værtsarter ?
Opstil nu modellen, hvor data er normalfordelt, og de to datasæt
har hver sin middelværdi, men samme varians.
Opstil hypotesen at de to middelværdier er ens, og lav et test af denne
hypotese. Er det rimeligt at antage, at æggets form har samme middelværdi for de to
værtsarter ?
Angiv et
95%-konfidensinterval for forskellen i
middelværdi af æggets form mellem værtsarten Engpiber og Hvid vipstjert. Synes du, at forskellen mellem
de to middelværdier i denne opgave er stor
(se begrebet effektstørrelse i eksempel 4.10.2) ?
I artiklen Eelgrass (Zostera marina) food web structure in different environmental settings undersøges
ålegræs fra to
lokaliteter i Danmark: Dalby Bugt (en åben bugt) og Kertinge Nor (et
beskyttet vandområde). Artiklen laver en sammenligning mellem de to lokaliteter
for mange forskellige variable baseret på data indsamlet 21-27 juni, 2011.
Her vil vi se på vækstraten af bladene, der fås ved at mærke nogle blade,
måle deres længde og måle denne længde igen efter 6-7 dage.
På hver af de to lokaliteter er der data fra 20 blade.
Data ligger i filen Aalegraes.csv i form af to søjler, hvor første
søjle er lokalitet (Dalby henholdsvis Kertinge), og anden
søjle er vækstraten i millimeter per dag. Data i denne fil er
simulerede, men stemmer overens med de gennemsnit og
spredninger, der er angivet i artiklen.
Indlæs data fra filen Aalegraes.csv. Lav to datasæt
med vækstraten svarende til
de to lokaliteter. Du skal i den samme figur lave et
qqplot for begge
datasæt. Synes du, at vækstraten af bladene for hver lokalitet kan beskrives med en
normalfordeling ?Lav en figur, der indeholder boxplot for de to lokaliteter.
Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling.
Opsummer de to datasæt i form af en tabel, som for hvert datasæt
indeholder
antallet af observationer, gennemsnit, empirisk
spredning og et 95%-konfidensinterval for
middelværdien.
Opstil hypotesen, at de to varianser er ens.
Eftervis, at data strider mod at sige,
at variansen på vækstraten er
den samme for de to lokaliteter.
Angiv et 95%-konfidensinterval for
forskellen i middelværdi af bladenes vækstrate mellem
Dalby Bugt og Kertinge Nor. Synes du, at forskellen mellem
de to middelværdier er stor ?
Prøv til sidst at betragte logaritmen til vækstraten. Lav qqplots
for at se, om disse data kan beskrives med en normalfordeling.
Lav et test, for at varianserne er ens, og lav et 95%-konfidensinterval
for forskel i middelværdi af logaritmen til vækstraten. Oversæt det fundne konfidensinterval for forskel i middelværdi
af logaritmen til vækstraten til et
95%-konfidensinterval for forholdet mellem middelværdierne
af vækstraten for de to lokaliteter, jævnfør underafsnit 4.13.3.
Hvor mange gange større er
middelværdien af vækstraten i Kertinge Nor i forhold til Dalby Bugt.
I skal i denne opgave lave en figur, der illustrerer standard deviation i
forhold til standard error. Start med at dele plotvinduet op i
to dele med ordren
par(mfrow=c(1,2)).
Simuler observationer
fra en standard normalfordeling
(benyt rnorm(20) til dette).
Beregn den empiriske spredning beregn
skøn over middelværdien og standard error
for middelværdiskønnet,
Lav en figur med
kaldet
boxplot(x,xlim=c(0,3),ylim=c(-3,3)), hvor er en vektor med
de simulerede værdier.
Indsæt to lodrette linjestykker
med yderpunkter henholdsvis og
Disse skal placeres ud for
og på førsteaksen. Dette kan gøres med
funktionen errrobar omtalt under
punktet Egne funktioner i R i afsnit
1.2:
errorbar(c(1.5,2.0),c(),lower,upper)
hvor lower=c(-s,-s/sqrt(n)), og upper
er tilsvarende med plus i stedet for minus.
Indsæt endelig et
vandret linjestykke til at markere værdien af
Gentag ovenstående simulering og tegning med observationer.
Hvilke dele skal ligne hinanden i de to tegninger, og hvilke skal ikke ?