Afsnit 4.15: Øvelse 4: Biologi

Denne uges øvelse vedrører situationen med et enkelt normalfordelt observationssæt og situationen med to normalfordelte observationssæt. I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot. For $\acute{\text{e}}$ t observationssæt skal I lave inferens om middelværdien og variansen i normalfordelingen, hvor I for første gang skal bruge det vigtige $t$ -test. For to observationssæt skal I både sammenligne varianser og sammenligne middelværdier, og specielt lave konfidensinterval for forskel i middelværdi.

Alle opgaverne skal være forberedt hjemmefra og gennemgås ved tavlen til øvelserne.

Opgave 4.1: Inferens om middelværdi

Inden for evolutionær biologi studeres kønsrationen for forskellige organismer. Data i dene opgave vedrører den encellede malaria parasit (Plasmodium). I parasittens livscykler udvikler nogle celler sig til han- og hunkønsceller (gametocytes), og data i opgaven her er andelen af hankønsceller i blodet fra hver af 130 firben. Andelen måles ved at betragte 100 parasitceller i en blodprøve. Biologerne har en teori, kaldet local mate competition, for denne andel. En version af teorien angiver andelen af hankønsceller til 0.45. Data er fra artiklen Testing sex ratio theory with the malaria parasite plasmodium mexicanum in natural and experimental infections. I filen Malaria.txt ligger andelen af hankønsceller for malariaparasitten fra de 130 blodprøver.

Umiddelbart kunne man tro, at binomialmodellen ville være en passende model for antallet af hankønsceller blandt 100 celler. Det viser sig imidlertid, at data viser langt større spredning end forventet i en binomialmodel. Dette kan skyldes en variation i kønsrationen fra dyr til dyr, fejlklassifikation i han- og hunkønsceller, og andre ting. I stedet for binomialmodellen skal I nedenfor bruge en normalfordelingsmodel for andelen af hankønsceller. Vi benytter altså en model for kontinuerte stokastiske variable, selvom andelen af hankønsceller kun kan antage 101 værdier (nemlig værdierne $0.00,0.01,0.02,\ldots,0.99,1.00$ ).

Indlæs data fra filen Malaria.txt med kommandoen scan("Malaria.txt"). Denne opgave kan nu formuleres kort som følger. Opstil en statistisk model for andelen af hankønsceller, lav inferens for parametrene i modellen og overvej biologernes hypotese. Skrevet ud bliver dette til følgende spørgsmål.

Undersøg grafisk, om andelen af hankønsceller kan beskrives med en normalfordeling via et histogram og et qqplot. Opskriv en statistisk model for data.
Lav en tabel med skøn og 95%-konfidensinterval for middelværdien, variansen og spredningen i en normalfordelingsmodel.
Overvej, om data er i overenstemmelse med biologernes teori om en andel af hankønsceller på 0.45.
Hvis antallet af hankønsceller blandt 100 celler er binomialfordelt med sandsynlighedsparameter $p=0.45,$ vil variansen på andelen af hankønsceller være $0.45\cdot 0.55/100.$ Hvordan passer dette med data ?

Opgave 4.2: Parret $t$-test

I et større studie omkring farven på fjerene af northern flicker (spætte i USA) har forfatterne mærket 16 fugle af hankøn og målt farven på en fjer i to på hinanden følgende år. Farveskalaen er konstrueret således, at en lav værdi svarer til et højt indhold af gul farve, og en stor værdi giver en mere rødlig farve. Den gule farve fås gennem carotenoider fra føden.

Data i denne opgave er aflæst fra figur 3 i artiklen Variation in carotenoid-based color in northern flickers in a hybrid zone. Data findes i filen Spaette.csv, som er organiseret i 16 rækker og tre søjler: første søjle angiver nummer på fugl, anden søjle angiver farven det første år og tredje søjle angiver farven det andet år.

I denne opgave skal I ud fra differensen mellem farven det første og det andet år angive den viden, vi har om forskel i farven mellem to år. Middelværdien af differensen siger noget om, hvilken generel tendens der er i forskellen mellem de to år, og spredningen siger noget om den biologiske variation i denne forskel mellem fuglene.

Indlæs data, og lav en figur, hvor farveværdien fra det andet år tegnes op mod farveværdien det første år. Indtegn identitetslinjen i figuren. Prøv at beskrive i ord, hvad figuren viser om forskel i farven mellem de to år.
Betragt nu de 16 differenser med farveværdien fra det andet år minus farveværdien det første år. Lav et qqplot af data, og opskriv den statistiske model, hvor differensen er normalfordelt.
Lav et test for hypotesen, at middelværdien af differensen er nul, svarende til hypotesen, at der ikke er forskel mellem de to år. Lav dernæst et 95%-konfidensinterval for middelværdien af differensen. Hvad bliver konklusionen af disse udregninger ?

Forklaringen på skift i farve fra det ene år til det følgende er uklar. En undersøgelse for spætter af hunkøn viser ikke et tilsvarende skift i farve. Dette antyder, at forklaringen ikke er et skift i føden.

Når I laver et $t$ -test for at middelværdierne af differenserne er nul, kaldes dette et parret $t$ -test: observationerne fra de to år er parret, ved at der er målt på den samme fugl. Inden for det samme år er der stor variation i farven mellem fuglene, og det kan være svært at se en forskel mellem to år, hvis vi forestiller os et alternativt eksperiment, hvor der er indsamlet 16 fugle det første år og 16 nye fugle det næste år. I kan se dette ved at prøve at lave et two-sample $t$ -test for data i denne opgave, hvor det ene observationssæt er data fra det første år, og det andet observationssæt er data fra det andet år (two-sample $t$ -test skal I arbejde med i den næste opgave).

Opgave 4.3: Two-sample $t$-test, samme varians

Gøgen lægger sine æg i andre fugles reder. I artiklen The eggs of Cuculus canorus. An Inquiry into the dimensions of the cuckoo's egg and the relation of the variations to the size of the eggs of the foster-parent, with notes on coloration undersøges det, om der er sket en selektion, således at gøgen er tilpasset den fugl, der bruges som vært for æggene. For de to værtsarter Engpiber og Hvid vipstjert er gøgens æg indsamlet, og bredden af ægget divideret med længden af ægget er beregnet (kaldet æggets form fremover). Data ligger i filen Goegen.csv i form af to søjler, hvor første søjle er værtsart, og anden søjle er æggets form.

Indlæs data og dan vektorerne art og form ud fra søjlerne i de indlæste data. Dan dernæst to datasæt formEng og formVip med værdierne fra form hørende til henholdsvis Engpibe og Vipstjert (se eventuelt opgave 1.4).
Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at lave flere qqplots i den samme figur, kan du se i kodevinduet i afsnit 4.8. Synes du, at gøgeæggenes form for hver værtsart kan beskrives med en normalfordeling ?
Lav også en figur med boxplot for hvert af de to datasæt. Flere boxplots i den samme figur kan laves som vist i kodevinduet i afsnit 4.8, men kan også laves med kommandoen boxplot(form $\sim$ art). Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt (formEng og formVip) følger sin egen normalfordeling. Opsummer de to datasæt i form af en tabel, som for hvert datasæt indeholder antallet af observationer, gennemsnit, empirisk spredning og et 95%-konfidensinterval for middelværdien. Antallet af elementer i en vektor kan i R findes med funktionen length.
Opskriv hypotesen, at de to varianser er ens, og lav $F$ -testet for ens varianser. Er det rimeligt at antage, at variansen af æggets form er den samme for de to værtsarter ?
Opstil nu modellen, hvor data er normalfordelt, og de to datasæt har hver sin middelværdi, men samme varians. Opstil hypotesen at de to middelværdier er ens, og lav et test af denne hypotese.
Er det rimeligt at antage, at æggets form har samme middelværdi for de to værtsarter ?
Angiv et 95%-konfidensinterval for forskellen i middelværdi af æggets form mellem værtsarten Engpiber og Hvid vipstjert.
Synes du, at forskellen mellem de to middelværdier i denne opgave er stor (se begrebet effektstørrelse i eksempel 4.10.2) ?

Opgave 4.4: Two-sample $t$-test, forskellig varians

I artiklen Eelgrass (Zostera marina) food web structure in different environmental settings undersøges ålegræs fra to lokaliteter i Danmark: Dalby Bugt (en åben bugt) og Kertinge Nor (et beskyttet vandområde). Artiklen laver en sammenligning mellem de to lokaliteter for mange forskellige variable baseret på data indsamlet 21-27 juni, 2011. Her vil vi se på vækstraten af bladene, der fås ved at mærke nogle blade, måle deres længde og måle denne længde igen efter 6-7 dage. På hver af de to lokaliteter er der data fra 20 blade. Data ligger i filen Aalegraes.csv i form af to søjler, hvor første søjle er lokalitet (Dalby henholdsvis Kertinge), og anden søjle er vækstraten i millimeter per dag. Data i denne fil er simulerede, men stemmer overens med de gennemsnit og spredninger, der er angivet i artiklen.

Indlæs data fra filen Aalegraes.csv. Lav to datasæt med vækstraten svarende til de to lokaliteter. Du skal i den samme figur lave et qqplot for begge datasæt.
Synes du, at vækstraten af bladene for hver lokalitet kan beskrives med en normalfordeling ?
Lav en figur, der indeholder boxplot for de to lokaliteter. Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling. Opsummer de to datasæt i form af en tabel, som for hvert datasæt indeholder antallet af observationer, gennemsnit, empirisk spredning og et 95%-konfidensinterval for middelværdien.
Opstil hypotesen, at de to varianser er ens. Eftervis, at data strider mod at sige, at variansen på vækstraten er den samme for de to lokaliteter.
Angiv et 95%-konfidensinterval for forskellen i middelværdi af bladenes vækstrate mellem Dalby Bugt og Kertinge Nor.
Synes du, at forskellen mellem de to middelværdier er stor ?
Prøv til sidst at betragte logaritmen til vækstraten. Lav qqplots for at se, om disse data kan beskrives med en normalfordeling. Lav et test, for at varianserne er ens, og lav et 95%-konfidensinterval for forskel i middelværdi af logaritmen til vækstraten.
Oversæt det fundne konfidensinterval for forskel i middelværdi af logaritmen til vækstraten til et 95%-konfidensinterval for forholdet mellem middelværdierne af vækstraten for de to lokaliteter, jævnfør underafsnit 4.13.3. Hvor mange gange større er middelværdien af vækstraten i Kertinge Nor i forhold til Dalby Bugt.

Opgave 4.5: ``Standard error'' kontra ``standard deviation''

I skal i denne opgave lave en figur, der illustrerer standard deviation i forhold til standard error. Start med at dele plotvinduet op i to dele med ordren par(mfrow=c(1,2)).

Simuler $n=20$ observationer $x_1,\ldots,x_{20}$ fra en standard normalfordeling (benyt rnorm(20) til dette). Beregn den empiriske spredning $s,$ beregn skøn $\hat\mu=\bar x$ over middelværdien og standard error for middelværdiskønnet, $\text{sd}_s(\hat\mu).$
Lav en figur med kaldet boxplot(x,xlim=c(0,3),ylim=c(-3,3)), hvor $x$ er en vektor med de simulerede værdier.
Indsæt to lodrette linjestykker med yderpunkter henholdsvis $\hat\mu\pm s$ og $\hat\mu\pm s\big/\sqrt{n}.$ Disse skal placeres ud for $1.5$ og $2.0$ på førsteaksen. Dette kan gøres med funktionen errrobar omtalt under punktet Egne funktioner i R i afsnit 1.2:
errorbar(c(1.5,2.0),c( $\hat\mu,\hat\mu$ ),lower,upper)
hvor lower=c( $\hat\mu$ -s, $\hat\mu$ -s/sqrt(n)), og upper er tilsvarende med plus i stedet for minus. Indsæt endelig et vandret linjestykke til at markere værdien af $\hat\mu.$
Gentag ovenstående simulering og tegning med $n=200$ observationer. Hvilke dele skal ligne hinanden i de to tegninger, og hvilke skal ikke ?

Foregående Næste