I denne uges øvelser skal du blive fortrolig med den
statistiske model for regressionsanalysen. Desuden skal du
prøve at bruge funktionen lm i R til
analysen. Denne funktion skal du også bruge i
øvelse 6 og 7. Opgaverne 5.1-5.4 skal være forberedt hjemmefra og gennemgås ved tavlen til
øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 5.5.
For at kunne studere forholdene i en population af
marsvin
er det
vigtigt at kunne monitorere deres færden og se, i hvilke områder de
tilbringer mest tid. I artiklen
Comparing distribution of Harbour Porpoises (Phocoena phocoena) derived from satellite telemetry and passive acoustic monitoring
sammenlignes to målemetoder
til bestemmelse af marsvin i Østersøen. Ved den ene metode (Maerket) benyttes
mærkede marsvin (mærket med udstyr, der sender signal til satellit)
og en model, der benytter viden om havforholdene i forsøgsområdet.
I den anden metode (Akust) benyttes stationære akustiske målestationer,
der registrerer tilstedeværelsen af marsvin.
Konklusionen i artiklen er, at to meget forskellige målemetoder giver
sammenlignelige information om forekomsten af marsvin.
I denne opgave
skal I betragte data fra en sommerperiode (juni-august) for hver
af 36 målestationer.
For en given målestation er Akust-målingen
andelen af dage, hvor der er registreret marsvin, og
Maerket-målingen er en modelprædiktion for
tilstedeværelsen af marsvin i en
afstand af 1 km fra målestationen baseret på
bevægelsesmønsteret for alle de mærkede marsvin.
Data for de 36 målestationer ligger i
filen Marsvin.csv i form af to søjler,
hvor første søjle er
Maerket, og anden søjle er Akust.
Indlæs data, og dan variablene
maerket og akust
med indholdet af de to søjler. Lav en figur, hvor maerket tegnes
op mod akust (akust langs førsteaksen og
maerket langs andenaksen).
Er det rimeligt at sige, at der er en lineær
sammenhæng mellem de to variable ? (I artiklen siges der:
``data showed a significant
linear relationship''.)
Opskriv den lineære regressionsmodel for data. Estimer parametrene
i modellen, og lav figurer til modelkontrol.
I residualplottet skal du indtegne to vandrette linjer, der skærer
andenaksen i punkterne hvor er skønnet over
spredningen i regressionsmodellen.
Beregn 95%-konfidensintervaller for henholdsvis skæring og hældning
i den lineære sammenhæng mellem middelværdien af Maerket og
Akust. Eftervis, at konfidensintervallet for hældningen,
fundet gennem et kald til confint, er korrekt ved at bruge
oplysninger i output fra summary.
Overvej, hvordan du som biolog vil have det med at bruge
Maerket-data til undersøgelse af en population af marsvin
fremfor at bruge Akust-data.
Data i denne opgave vedrører sammenhængen mellem biodiversitet og
stabilitet af et økosystem. Udgangspunktet i artiklen
Biodiversity and ecosystem stability in a decade-long grassland experiment
er, at det er velkendt, at
biodiversitet har indflydelse på økosystemets produktivitet,
men det debateres, om biodiversiteten også har indflydelse på
systemet stabilitet. I det eksperiment der omtales, er en mark delt
ind i 168 jordstykker på I hvert jordstykke
plantes enten 1,2,4,8 eller 16 forskellige græsarter
(antal arter = biodiversitet).
Cedar Creek Natural History Area. Image by photographer Jacob Miller 2014,
Available under Creative Commons License CC BY-SA 4.0.
Den producerede biomasse måles i
10 år, og et tidsstabilitetsmål dannes ud fra de 10 værdier
som gennemsnit divideret med spredning omkring linjen i en lineær regression
af biomasse på år. En høj værdi af tidsstabilitetsmålet svarer til en
lav værdi for variationen omkring linjen i den 10-årige periode.
Vi har således 168 sammenhørende værdier af biodiversitet og
tidsstabilitetsmål.
Data findes i filen TidStab.csv,
hvor første søjle er biodiversitet og anden søjle er
tidsstabilitetsmål. I opgaven her skal I etablere en lineær sammenhæng mellem
middelværdien af logaritmen til tidsstabilitet og
biodiversitet, og bruge denne sammenhæng til at
prædiktere tidsstabiliteten ved forskellige valg af
biodiversitet.
Lad biodiv være en vektor med de 168 biodiversitetsværdier,
og lad logS indeholde logaritmen til tidsstabilitetsmålene.
Lav en figur, hvor logS
afsættes mod biodiv.
Er det rimeligt at sige, at der er en
lineær sammenhæng mellem de to variable ?Opskriv den lineære regressionsmodel for data, og estimer parametrene i
denne via lm og summary.
Indtegn den fundne linje i figuren med data. Prøv i ord at beskrive sammenhængen i data, ud fra hvad du ser i figuren.
Lav et test, for hypotesen at hældningen er nul. Hvad bliver
konklusionen af dit test ?
Lav dernæst et 95%-konfidensinterval for hældningen.
Lav et skøn over ændringen i middelværdi af logaritmen til tidsstabilitet
mellem en biodiversitet på 1 og 16, og sammenhold denne med spredningen
omkring regressionslinjen (jævnfør din egen beskrivelse af
sammenhængen i data
sidst i foregående spørgsmål).
Lav et 95%-konfidensinterval for middelværdien af
logaritmen til tidsstabiliteten,
når biodiversiteten er 12 (12 græsarter på det samme jordstykke). Lav dernæst et prædiktionsinterval for en kommende måling,
når biodiversiteten er 12. Prøv at forklare, hvorfor konfidensintervallet er smalt, men
prædiktionsintervallet er bredt.
I dette spørgsmål skal du beregne konfidensintervallet og
prædiktionsintervallet i mange punkter og indtegne disse som en kurve
i figuren fra spørgsmål (a).
Du kan finde inspiration til konstruktion af figuren
i afsnit 5.5 i det skjulte punkt "Test dig selv".
Til beregningen kan du kalde predict
med nye datapunkter givet ved
data.frame(Biodiv=c(1:20)).
I vildtpleje har det stor betydning at kunne vurdere antallet af dyr
i et område. En direkte optælling kan være meget tidskrævende og måske
ikke gennemførligt. For store rovdyr kan man anvende en metode, hvor man
kører gennem
området og tæller antallet af spor efter rovdyret. I artiklen
Simplified large african carnivore density estimators from track indices
studeres denne metode for blandt andet løver.
Tabellen nedenfor
viser for 10 områder sammenhængen mellem dyretæthed fra optælling af spor og
dyretæthed ved en direkte observation. Tallene
findes også i filen Dyrespor.csv, der indeholder to søjler.
Lav en figur, hvor dyr
afsættes mod spor, og hvor
førsteaksen går fra 0 til 25,
og andenaksen går fra 0 til 7. Opstil regressionsmodellen hvor middelværdien af Dyr afhænger
lineært af spor. Estimer denne model via lm,
og indtegn
den fundne linje. Angiv et 95%-konfidensinterval for hældning og for
skæring. Angiv et 95%-konfidensinterval for middelværdien af tæthed af løver
(linjens værdi),
når tætheden af spor er per
Det er rimeligt at forestille sig, at hvis der ikke er nogen spor, så
er der heller ingen løver i området.
Lav et -test,
for at skæringen med andenaksen er i punktet nul.
Er det rimeligt at sige, at linjen går gennem  ?
Opskriv regressionsmodellen hvor middelværdien af Dyr er
proportional med spor (linjen har skæring med andenaksen i nul).
Estimer denne model i R ved
et passende kald til lm. Angiv et 95%-konfidensinterval for hældningen i model Angiv et 95%-konfidensinterval for middelværdien af tæthed af løver
(linjens værdi),
når tætheden af spor er per i model Prøv at beskrive i ord forskellen mellem de to konfidensintervaller i dette
spørgsmål og de to konfidensintervaller i spørgsmål (a).
Vend tilbage til data og problemstilling i opgave 5.1.
I et nyt område af Østersøen er der lavet en måling af Maerket
med værdien 0.4.
Lav et 95%-konfidensinterval for fraktion af dage med marsvin (akust)
for dette område. Hertil kan du bruge funktionen inversReg
omtalt i den skjulte
kode i
underafsnit 5.5.1. Funktionen findes i filen
Rfunktioner.txt.
I denne opgave skal I bruge en lineær regressionsmodel til at sige noget
om værdien af den forklarende variabel ud fra en målt responsværdi.
I opgaven her er den forklarende variabel alderen af en løve, og respons er
fraktion af sort pigment i løvens næsetip.
I artiklen
Sustainable trophy hunting of African lions
diskuteres,
hvordan trofæjagt af løver kan gøres bæredygtigt. Forfatternes konklusion
er, at man skal sørge for, at de løver, der jages, er hanløver
over en vis alder. Ofte bruger jægeren størelsen og farven af løvens
manke til at vurdere alderen, men dette er en meget usikker metode.
En mere sikker metode består i at bruge andelen af sort pigment i løvens
næsetip. I opgaven her skal I se på, hvordan andelen af sort pigment
afhænger af alderen, og hvor godt vi kan estimere alderen ud fra dette. Data
for 32 hanløver fra Serengeti og Ngorongoro
nationalparkerne ligger i filen Loeve.csv, der har to søjler
med henholdsvis alder (år) og fraktion af sort.
Lav en figur, hvor fraktion af sort afsættes mod alder.
Styr start og slut på andenaksen med
tilføjelsen ylim=c(0,1) til
plot.
Synes du, at der er en lineær sammenhæng i data ?
Synes du, at sammenhængen er god med henblik på at estimere alder ud fra
fraktion af sort i næsetippen ?
Opskriv den lineære regressionsmodel, hvor respons er
fraktion af sort i næsetippen, og den forklarende variabel er
alder. Find skøn og 95%-konfidensinterval
for hældning og skæring, og
indtegn den skønnede linje i figuren fra foregående spørgsmål.
Angiv også et skøn over spredningen
omkring den lineære sammenhæng.Lav figurer, der kan bruges til modelkontrol, og kommenter på
disse figurer.
Betragt situationen, hvor en ny løve registreres, og fraktion af sort
i næsen for denne løve er 0.2.
Beregn et 95%-konfidensinterval for løvens alder i dette tilfælde. Gentag beregningen for tre andre løver, hvor observationen af
fraktionen af sort i næsen er
henholdsvis 0.4, 0.6 og 0.8.
Lav en tabel med resultaterne for de fire tilfælde.Hvis vi kun ønsker at skyde løver, der er mindst 5 år gamle,
hvor stor synes du så fraktionen af sort i næsen skal være, før du
skyder ?