I øvelserne hørende til kapitel 3 skal du blive fortrolig med den
statistiske model for regressionsanalysen. Desuden skal du
prøve at bruge funktionen lm i R til
analysen. Denne funktion skal du også bruge i
øvelserne hørende til kapitel 4 og kapitel 5.
Et mål for udviklingen af kompleksiteten af computerchips er
antallet af transistorer på en chip. På adressen
Transistor count
kan man finde en tabel med antallet af transistorer for
108 chips produceret i perioden 1971-2016.
Moore's lov
siger, at antallet af transitorer på en chip
fordobles cirka hvert andet år. Dette blev formuleret af Gordon Moore,
som var medstifter af Intel (Moore's udsagn går helt tilbage til
1965 og 1975).
I skal nedenfor undersøge dette udsagn
ved at se på de transformerede antal transistorers
afhængighed af produktionsår. Ved at bruge to-talslogaritmen
opnår vi, at en fordobling af antal transistorer svarer til
en stigning på 1.Filen Moore.csv indeholder data.
Filen har to søjler, hvor første søjle er produktionsår regnet
med udgangspunkt i 1950 (en værdi på 24 svarer således til 1974),
og anden søjle er
antal transistorer på chippen.
Indlæs data, og dan variablene
Aar og Antal
med indholdet af de to søjler.
Dan endvidere variablen log2Antal=log2(Antal) med de
transformerede antal transistorer.
Lav en figur, hvor log2Antal tegnes
op mod Aar (Aar langs førsteaksen og
log2Antal langs andenaksen).
Er det rimeligt at sige, at der er en lineær
sammenhæng mellem de to variable ?
Opskriv den lineære regressionsmodel for data. Estimer parametrene
i modellen, og lav figurer til modelkontrol.
I residualplottet skal du indtegne to vandrette linjer, der skærer
andenaksen i punkterne hvor er skønnet over
spredningen i regressionsmodellen.
Beregn 95%-konfidensintervaller for henholdsvis skæring og hældning
i den lineære sammenhæng mellem middelværdien af log2Antal og
Aar. Eftervis, at konfidensintervallet for hældningen,
fundet gennem et kald til confint, er korrekt ved at bruge
oplysninger i output fra summary.
Overvej, om data er i overensstemmelse med en teori,
der siger, at antallet af transitorer på en chip
fordobles hvert andet år ?
I denne opgave skal I se på muligheden for at prædiktere den tid, der
skal bruges til at teste et program ud fra oplysning om, hvor lang
tid der er brugt på at kode programmet.
Data i filen Testtid.csv indeholder oplysninger for 95 programmer.
Filen har to søjler, hvor første søjle
er tid brugt på at kode, og anden søjle er tid brugt på at teste programmet
(begge tider er i timer).
Data er simulerede ud fra oplysningerne i figur 3 i artiklen
Software effort estimation with multiple linear regression: review and practical application. I opgaven her skal I etablere en lineær sammenhæng mellem
middelværdien af logaritmen til testtiden og logaritmen til kodningstiden
og bruge denne sammenhæng til at
prædiktere testtiden ved forskellige givne værdier af
kodningstiden.
Lad logKode være en vektor med logaritmen til kodningstiderne, og
lad logTest være en vektor med logaritmen til testtiderne.
Lav en figur, hvor logTest
afsættes mod logKode.
Er det rimeligt at sige, at der er en
lineær sammenhæng mellem de to variable ?Opskriv den lineære regressionsmodel for data, og estimer parametrene i
denne via lm og summary.
Indtegn den fundne linje i figuren med data. Prøv i ord at beskrive sammenhængen i data, ud fra hvad du ser i figuren.
Lav et test, for hypotesen at hældningen er nul. Hvad bliver
konklusionen af dit test ?
Lav dernæst et 95%-konfidensinterval for hældningen.
Kommenter på betydningen af, at hældningen ser ud til at være væsentlig
mindre end 1.Lav et skøn over ændringen i middelværdi af logTest
mellem en værdi af logKode på 2 og 4,
og sammenhold denne med spredningen
omkring regressionslinjen (jævnfør din egen beskrivelse af
sammenhængen i data sidst i foregående spørgsmål).
Lav et 95%-konfidensinterval for middelværdien af logTest,
når logKode er 6. Lav dernæst et prædiktionsinterval for en kommende måling,
når logKode er 6. Prøv at forklare, hvorfor prædiktionsintervallet er noget bredere end
konfidensintervallet.
I dette spørgsmål skal du beregne konfidensintervallet og
prædiktionsintervallet i mange punkter og indtegne disse som en kurve i figuren fra spørgsmål (a).
Du kan finde inspiration til konstruktion af figuren
i afsnit 3.5 i det skjulte punkt "Test dig selv".
Til beregningen kan du kalde predict
med nye datapunkter givet ved
data.frame(logKode=c(0:100)*0.07).
Erosionsraten beregnes ud
fra en mere detaljeret nedbørsregistrering end årlig middelnedbør.
Data består af
årlig middelnedbør (mm) og erosionsraten (joule )
for 25 målepunkter i Highveld regionen af Rhodesia.
Data findes i filen RhodesiaHighveld.csv,
hvor første søjle er årlig middelnedbør (regnHigh) og anden søjle er
erosionsraten (erosionHigh).
Lav en figur, hvor erosionHigh
afsættes mod regnHigh, og hvor
førsteaksen går fra 0 til 1000, og andenaksen går fra 0 til 15000.Opstil regressionsmodellen hvor middelværdien af
erosionHigh afhænger
lineært af regnHigh. Estimer denne model via lm,
og indtegn
den fundne linje. Angiv et 95%-konfidensinterval for hældning og for
skæring. Angiv et 95%-konfidensinterval for middelværdien af erosionen
(linjens værdi), når den årlige nedbør er 500 mm.
Det er rimeligt at forestille sig, at hvis der ingen nedbør er, så
er der heller ikke nogen erosion.
Lav et -test,
for at skæringen med andenaksen er i punktet nul.
Er det rimeligt at sige, at linjen går gennem  ?
Opskriv regressionmodellen hvor middelværdien af
erosionHigh er
proportional med regnHigh (linjen har skæring med andenaksen i nul).
Estimer denne model i R ved
et passende kald til lm. Angiv et 95%-konfidensinterval for hældningen i model Angiv et 95%-konfidensinterval for middelværdien af erosionen
(linjens værdi),
når den årlige nedbør er 500 mm. Prøv at beskrive i ord forskellen mellem de to konfidensintervaller i dette
spørgsmål og de to konfidensintervaller i spørgsmål (a).
Denne opgave omhandler måden, hvorpå absorption af lys i en væske
afhænger af koncentrationen af et absorberende molekyle i væsken,
og hvordan vi kan bruge dette til at estimere koncentrationen
ud fra en målt lysintensitet.
Man måler lysintensiteten
ved forskellige kendte koncentrationer af det absorberende molekyle.
På denne måde får man
etableret en kalibreringkurve, der efterfølgende kan benyttes
til at finde koncentrationen af molekylet i en prøve ud fra en måling
af lysintensiteten efter lysets passage gennem prøven. Absorption af denne type beskrives typisk via
Lambert-Beers lov:
Her er absorptionskoefficienten for
det absorberende molekyle,
er vejlængden gennem materialet, er koncentrationen af
molekylet og er lysintensiteten når koncentrationen er nul. I denne opgave betragter vi en serie målinger af
lysintensiteten
som funktion af koncentrationen for en opløsning af Rhodamine 6G i ethanol.
Den benyttede vejlængde gennem opløsningen er .
Egentligt burde man i modelleringen af data også tage hensyn til, at
koncentrationen af opløsningsmidlet ethanol ændrer sig, når koncentrationen
af Rhodamine ændres, men denne effekt er så lille, at vi kan se bort fra den.
Tager vi logartimen på begge sider i Lambert-Beers lov (3.8.1),
får vi
hvor og . Data i filen LambertBeer.csv
giver den målte værdi
af lysintensiteten for 16 forskellige valg af
koncentrationen. Filen har to søjler,
hvor første søjle er koncentration, og anden søjle er lysintensiteten.
Dan en variabel logLys med
logaritmen til de
målte lysintensiteter og
en variabel konc med koncentrationerne af Rhodamine 6G.
Lav en figur, hvor afsættes mod koncentrationen konc.
Synes I, at der er en lineær sammenhæng i data\,?
Synes I, at sammenhængen er god, med henblik på at estimere koncentration
ud fra lysintensiteten\,?
Opskriv den lineære regressionsmodel, hvor respons er
logaritmen til lysintensiteten, og den forklarende variabel er
koncentration. Forklar, at regressionskoefficienten i denne
model er . Estimer modellen og
indtegn den estimerede linje i figuren ovenfor.
Beregn et 95%-konfidensinterval
for den ukendte koncentration af Rhodamine 6G i tre tilfælde
med en enkelt ny måling af lysintensiteten Lys.
Hertil kan du bruge funktionen inversReg
omtalt i den skjulte
kode i
underafsnit 3.5.1. Funktionen findes i filen
Rfunktioner.txt.
De tre tilfælde er , og
.
Lav en tabel med resultaterne.
I denne opgave skal I bruge en lineær regressionsmodel til at sige noget
om værdien af den forklarende variabel ud fra en målt responsværdi.
I opgaven her er den forklarende variabel alderen af en løve, og respons er
fraktion af sort pigment i løvens næsetip.
I artiklen
Sustainable trophy hunting of African lions
diskuteres
hvordan trofæjagt af løver kan gøres bæredygtigt. Forfatternes konklusion
er, at man skal sørge for, at de løver, der jages, er hanløver
over en vis alder. Ofte bruger jægeren størelsen og farven af løvens
manke til at vurdere alderen, men dette er en meget usikker metode.
En mere sikker metode består i at bruge andelen af sort pigment i løvens
næsetip. I opgaven her skal I se på, hvordan andelen af sort pigment
afhænger af alderen, og hvor godt vi kan estimere alderen ud fra dette. Data
for 32 hanløver fra Serengeti og Ngorongoro
nationalparkerne ligger i filen Loeve.csv, der har to søjler
med henholdsvis alder (år) og fraktion af sort.
Lav en figur, hvor fraktion af sort afsættes mod alder.
Styr start og slut på andenaksen med
tilføjelsen ylim=c(0,1) til
plot.
Synes du, at der er en lineær sammenhæng i data ?
Synes du, at sammenhængen er god med henblik på at estimere alder ud fra
fraktion af sort i næstippen ?
Opskriv den lineære regressionsmodel, hvor respons er
fraktion af sort i næsetippen, og den forklarende variabel er
alder. Find skøn og 95%-konfidensinterval
for hældning og skæring, og
indtegn den skønnede linje i figuren fra foregående spørgsmål.
Angiv også et skøn over spredningen
omkring den lineære sammenhæng.Lav figurer, der kan bruges til modelkontrol, og kommenter på
disse figurer.
Betragt situationen, hvor en ny løve registreres, og fraktion af sort
i næsen for denne løve er 0.2.
Beregn et 95%-konfidensinterval for løvens alder i dette tilfælde. Gentag beregningen i tre andre tilfælde, hvor en løve er observeret med
henholdsvis 0.4, 0.6 og 0.8 for fraktionen af sort i næsen.
Lav en tabel med resultaterne for de fire tilfælde.Hvis vi kun ønsker at skyde løver, der er mindst 5 år gamle,
hvor stor synes du så fraktionen af sort i næsen skal være, før du
skyder ?