Afsnit 5.8: Øvelse 5: Biologi

I denne uges øvelser skal du blive fortrolig med den statistiske model for regressionsanalysen. Desuden skal du prøve at bruge funktionen lm i R til analysen. Denne funktion skal du også bruge i øvelse 6 og 7.
Opgaverne 5.1-5.4 skal være forberedt hjemmefra og gennemgås ved tavlen til øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 5.5.

Opgave 5.1: Regression

For at kunne studere forholdene i en population af marsvin er det vigtigt at kunne monitorere deres færden og se, i hvilke områder de tilbringer mest tid. I artiklen Comparing distribution of Harbour Porpoises (Phocoena phocoena) derived from satellite telemetry and passive acoustic monitoring sammenlignes to målemetoder til bestemmelse af marsvin i Østersøen. Ved den ene metode (Maerket) benyttes mærkede marsvin (mærket med udstyr, der sender signal til satellit) og en model, der benytter viden om havforholdene i forsøgsområdet. I den anden metode (Akust) benyttes stationære akustiske målestationer, der registrerer tilstedeværelsen af marsvin. Konklusionen i artiklen er, at to meget forskellige målemetoder giver sammenlignelige information om forekomsten af marsvin. I denne opgave skal I betragte data fra en sommerperiode (juni-august) for hver af 36 målestationer. For en given målestation er Akust-målingen andelen af dage, hvor der er registreret marsvin, og Maerket-målingen er en modelprædiktion for tilstedeværelsen af marsvin i en afstand af 1 km fra målestationen baseret på bevægelsesmønsteret for alle de mærkede marsvin. Data for de 36 målestationer ligger i filen Marsvin.csv i form af to søjler, hvor første søjle er Maerket, og anden søjle er Akust.
  1. Indlæs data, og dan variablene maerket og akust med indholdet af de to søjler. Lav en figur, hvor maerket tegnes op mod akust (akust langs førsteaksen og maerket langs andenaksen). Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable? (I artiklen siges der: ``data showed a significant linear relationship''.)
  2. Opskriv den lineære regressionsmodel for data. Estimer parametrene i modellen, og lav figurer til modelkontrol. I residualplottet skal du indtegne to vandrette linjer, der skærer andenaksen i punkterne hvor er skønnet over spredningen i regressionsmodellen.
  3. Beregn 95%-konfidensintervaller for henholdsvis skæring og hældning i den lineære sammenhæng mellem middelværdien af Maerket og Akust. Eftervis, at konfidensintervallet for hældningen, fundet gennem et kald til confint, er korrekt ved at bruge oplysninger i output fra summary.
  4. Overvej, hvordan du som biolog vil have det med at bruge Maerket-data til undersøgelse af en population af marsvin fremfor at bruge Akust-data.

Opgave 5.2: Regressionsanalyse med prædiktion

Data i denne opgave vedrører sammenhængen mellem biodiversitet og stabilitet af et økosystem. Udgangspunktet i artiklen Biodiversity and ecosystem stability in a decade-long grassland experiment er, at det er velkendt, at biodiversitet har indflydelse på økosystemets produktivitet, men det debateres, om biodiversiteten også har indflydelse på systemet stabilitet. I det eksperiment der omtales, er en mark delt ind i 168 jordstykker på I hvert jordstykke plantes enten 1,2,4,8 eller 16 forskellige græsarter (antal arter = biodiversitet).
Cedar Creek Natural History Area. Image by photographer Jacob Miller 2014, Available under Creative Commons License CC BY-SA 4.0.
Den producerede biomasse måles i 10 år, og et tidsstabilitetsmål dannes ud fra de 10 værdier som gennemsnit divideret med spredning omkring linjen i en lineær regression af biomasse på år. En høj værdi af tidsstabilitetsmålet svarer til en lav værdi for variationen omkring linjen i den 10-årige periode. Vi har således 168 sammenhørende værdier af biodiversitet og tidsstabilitetsmål. Data findes i filen TidStab.csv, hvor første søjle er biodiversitet og anden søjle er tidsstabilitetsmål.
I opgaven her skal I etablere en lineær sammenhæng mellem middelværdien af logaritmen til tidsstabilitet og biodiversitet, og bruge denne sammenhæng til at prædiktere tidsstabiliteten ved forskellige valg af biodiversitet.
  1. Lad biodiv være en vektor med de 168 biodiversitetsværdier, og lad logS indeholde logaritmen til tidsstabilitetsmålene. Lav en figur, hvor logS afsættes mod biodiv. Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable?
    Opskriv den lineære regressionsmodel for data, og estimer parametrene i denne via lm og summary. Indtegn den fundne linje i figuren med data.
    Prøv i ord at beskrive sammenhængen i data, ud fra hvad du ser i figuren.
  2. Lav et test, for hypotesen at hældningen er nul. Hvad bliver konklusionen af dit test? Lav dernæst et 95%-konfidensinterval for hældningen. Lav et skøn over ændringen i middelværdi af logaritmen til tidsstabilitet mellem en biodiversitet på 1 og 16, og sammenhold denne med spredningen omkring regressionslinjen (jævnfør din egen beskrivelse af sammenhængen i data sidst i foregående spørgsmål).
  3. Lav et 95%-konfidensinterval for middelværdien af logaritmen til tidsstabiliteten, når biodiversiteten er 12 (12 græsarter på det samme jordstykke).
    Lav dernæst et prædiktionsinterval for en kommende måling, når biodiversiteten er 12.
    Prøv at forklare, hvorfor konfidensintervallet er smalt, men prædiktionsintervallet er bredt.
  4. I dette spørgsmål skal du beregne konfidensintervallet og prædiktionsintervallet i mange punkter og indtegne disse som en kurve i figuren fra spørgsmål (a). Du kan finde inspiration til konstruktion af figuren i afsnit 5.5 i det skjulte punkt "Test dig selv". Til beregningen kan du kalde predict med nye datapunkter givet ved data.frame(Biodiv=c(1:20)).

Opgave 5.3: Regression med kendt skæring

I vildtpleje har det stor betydning at kunne vurdere antallet af dyr i et område. En direkte optælling kan være meget tidskrævende og måske ikke gennemførligt. For store rovdyr kan man anvende en metode, hvor man kører gennem området og tæller antallet af spor efter rovdyret. I artiklen Simplified large african carnivore density estimators from track indices studeres denne metode for blandt andet løver.
Tabellen nedenfor viser for 10 områder sammenhængen mellem dyretæthed fra optælling af spor og dyretæthed ved en direkte observation. Tallene findes også i filen Dyrespor.csv, der indeholder to søjler.
  1. Lav en figur, hvor dyr afsættes mod spor, og hvor førsteaksen går fra 0 til 25, og andenaksen går fra 0 til 7.
    Opstil regressionsmodellen hvor middelværdien af Dyr afhænger lineært af spor. Estimer denne model via lm, og indtegn den fundne linje.
    Angiv et 95%-konfidensinterval for hældning og for skæring.
    Angiv et 95%-konfidensinterval for middelværdien af tæthed af løver (linjens værdi), når tætheden af spor er per
  2. Det er rimeligt at forestille sig, at hvis der ikke er nogen spor, så er der heller ingen løver i området. Lav et -test, for at skæringen med andenaksen er i punktet nul. Er det rimeligt at sige, at linjen går gennem ?
  3. Opskriv regressionsmodellen hvor middelværdien af Dyr er proportional med spor (linjen har skæring med andenaksen i nul). Estimer denne model i R ved et passende kald til lm.
    Angiv et 95%-konfidensinterval for hældningen i model
    Angiv et 95%-konfidensinterval for middelværdien af tæthed af løver (linjens værdi), når tætheden af spor er per i model
    Prøv at beskrive i ord forskellen mellem de to konfidensintervaller i dette spørgsmål og de to konfidensintervaller i spørgsmål (a).

Opgave 5.4: Prøve kalibreringsberegning

Vend tilbage til data og problemstilling i opgave 5.1. I et nyt område af Østersøen er der lavet en måling af Maerket med værdien 0.4. Lav et 95%-konfidensinterval for fraktion af dage med marsvin (akust) for dette område. Hertil kan du bruge funktionen inversReg omtalt i den skjulte kode i underafsnit 5.5.1. Funktionen findes i filen Rfunktioner.txt.

Opgave 5.5: Afleveringsopgave

I denne opgave skal I bruge en lineær regressionsmodel til at sige noget om værdien af den forklarende variabel ud fra en målt responsværdi. I opgaven her er den forklarende variabel alderen af en løve, og respons er fraktion af sort pigment i løvens næsetip.
I artiklen Sustainable trophy hunting of African lions diskuteres, hvordan trofæjagt af løver kan gøres bæredygtigt. Forfatternes konklusion er, at man skal sørge for, at de løver, der jages, er hanløver over en vis alder. Ofte bruger jægeren størelsen og farven af løvens manke til at vurdere alderen, men dette er en meget usikker metode. En mere sikker metode består i at bruge andelen af sort pigment i løvens næsetip. I opgaven her skal I se på, hvordan andelen af sort pigment afhænger af alderen, og hvor godt vi kan estimere alderen ud fra dette.
Data for 32 hanløver fra Serengeti og Ngorongoro nationalparkerne ligger i filen Loeve.csv, der har to søjler med henholdsvis alder (år) og fraktion af sort.
  1. Lav en figur, hvor fraktion af sort afsættes mod alder. Styr start og slut på andenaksen med tilføjelsen ylim=c(0,1) til plot. Synes du, at der er en lineær sammenhæng i data? Synes du, at sammenhængen er god med henblik på at estimere alder ud fra fraktion af sort i næsetippen?
  2. Opskriv den lineære regressionsmodel, hvor respons er fraktion af sort i næsetippen, og den forklarende variabel er alder.
    Find skøn og 95%-konfidensinterval for hældning og skæring, og indtegn den skønnede linje i figuren fra foregående spørgsmål. Angiv også et skøn over spredningen omkring den lineære sammenhæng.
    Lav figurer, der kan bruges til modelkontrol, og kommenter på disse figurer.
  3. Betragt situationen, hvor en ny løve registreres, og fraktion af sort i næsen for denne løve er 0.2. Beregn et 95%-konfidensinterval for løvens alder i dette tilfælde.
    Gentag beregningen for tre andre løver, hvor observationen af fraktionen af sort i næsen er henholdsvis 0.4, 0.6 og 0.8. Lav en tabel med resultaterne for de fire tilfælde.
    Hvis vi kun ønsker at skyde løver, der er mindst 5 år gamle, hvor stor synes du så fraktionen af sort i næsen skal være, før du skyder?

ForegåendeNæste