Afsnit 3.8: Opgaver til kapitel 3

I øvelserne hørende til kapitel 3 skal du blive fortrolig med den statistiske model for regressionsanalysen. Desuden skal du prøve at bruge funktionen lm i R til analysen. Denne funktion skal du også bruge i øvelserne hørende til kapitel 4 og kapitel 5.

Opgave 3.1: Regression

Et mål for udviklingen af kompleksiteten af computerchips er antallet af transistorer på en chip. På adressen Transistor count kan man finde en tabel med antallet af transistorer for 108 chips produceret i perioden 1971-2016. Moore's lov siger, at antallet af transitorer på en chip fordobles cirka hvert andet år. Dette blev formuleret af Gordon Moore, som var medstifter af Intel (Moore's udsagn går helt tilbage til 1965 og 1975).

I skal nedenfor undersøge dette udsagn ved at se på de $\log_2$ transformerede antal transistorers afhængighed af produktionsår. Ved at bruge to-talslogaritmen opnår vi, at en fordobling af antal transistorer svarer til en stigning på 1.

Filen Moore.csv indeholder data. Filen har to søjler, hvor første søjle er produktionsår regnet med udgangspunkt i 1950 (en værdi på 24 svarer således til 1974), og anden søjle er antal transistorer på chippen.

Indlæs data, og dan variablene Aar og Antal med indholdet af de to søjler. Dan endvidere variablen log2Antal=log2(Antal) med de $\log_2$ transformerede antal transistorer. Lav en figur, hvor log2Antal tegnes op mod Aar (Aar langs førsteaksen og log2Antal langs andenaksen). Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable ?
Opskriv den lineære regressionsmodel for data. Estimer parametrene i modellen, og lav figurer til modelkontrol. I residualplottet skal du indtegne to vandrette linjer, der skærer andenaksen i punkterne $\pm 2s_r,$ hvor $s_r$ er skønnet over spredningen i regressionsmodellen.
Beregn 95%-konfidensintervaller for henholdsvis skæring og hældning i den lineære sammenhæng mellem middelværdien af log2Antal og Aar. Eftervis, at konfidensintervallet for hældningen, fundet gennem et kald til confint, er korrekt ved at bruge oplysninger i output fra summary.
Overvej, om data er i overensstemmelse med en teori, der siger, at antallet af transitorer på en chip fordobles hvert andet år ?

Opgave 3.2: Regressionsanalyse med prædiktion

I denne opgave skal I se på muligheden for at prædiktere den tid, der skal bruges til at teste et program ud fra oplysning om, hvor lang tid der er brugt på at kode programmet. Data i filen Testtid.csv indeholder oplysninger for 95 programmer. Filen har to søjler, hvor første søjle er tid brugt på at kode, og anden søjle er tid brugt på at teste programmet (begge tider er i timer). Data er simulerede ud fra oplysningerne i figur 3 i artiklen Software effort estimation with multiple linear regression: review and practical application.

I opgaven her skal I etablere en lineær sammenhæng mellem middelværdien af logaritmen til testtiden og logaritmen til kodningstiden og bruge denne sammenhæng til at prædiktere testtiden ved forskellige givne værdier af kodningstiden.

Lad logKode være en vektor med logaritmen til kodningstiderne, og lad logTest være en vektor med logaritmen til testtiderne. Lav en figur, hvor logTest afsættes mod logKode. Er det rimeligt at sige, at der er en lineær sammenhæng mellem de to variable ?
Opskriv den lineære regressionsmodel for data, og estimer parametrene i denne via lm og summary. Indtegn den fundne linje i figuren med data.
Prøv i ord at beskrive sammenhængen i data, ud fra hvad du ser i figuren.
Lav et test, for hypotesen at hældningen er nul. Hvad bliver konklusionen af dit test ? Lav dernæst et 95%-konfidensinterval for hældningen. Kommenter på betydningen af, at hældningen ser ud til at være væsentlig mindre end 1.
Lav et skøn over ændringen i middelværdi af logTest mellem en værdi af logKode på 2 og 4, og sammenhold denne med spredningen omkring regressionslinjen (jævnfør din egen beskrivelse af sammenhængen i data sidst i foregående spørgsmål).
Lav et 95%-konfidensinterval for middelværdien af logTest, når logKode er 6.
Lav dernæst et prædiktionsinterval for en kommende måling, når logKode er 6.
Prøv at forklare, hvorfor prædiktionsintervallet er noget bredere end konfidensintervallet.
I dette spørgsmål skal du beregne konfidensintervallet og prædiktionsintervallet i mange punkter og indtegne disse som en kurve i figuren fra spørgsmål (a). Du kan finde inspiration til konstruktion af figuren i afsnit 3.5 i det skjulte punkt "Test dig selv". Til beregningen kan du kalde predict med nye datapunkter givet ved data.frame(logKode=c(0:100)*0.07).

Opgave 3.3: Regression med kendt skæring

Data i denne opgave stammer oprindeligt fra artiklen Rainfall erosivity over Rhodesia, men er her taget fra Analysis of covariation and comparison of regression lines. Ønsket er at etablere en sammenhæng mellem årlig middelnedbør og erosionsraten, således at der kan laves et erosionskort over Rhodesia (nuværende Zambia og Zimbabwe).

Erosionsraten beregnes ud fra en mere detaljeret nedbørsregistrering end årlig middelnedbør. Data består af årlig middelnedbør (mm) og erosionsraten (joule $\text{mm/m}^2\text{/hr}$ ) for 25 målepunkter i Highveld regionen af Rhodesia. Data findes i filen RhodesiaHighveld.csv, hvor første søjle er årlig middelnedbør (regnHigh) og anden søjle er erosionsraten (erosionHigh).

Lav en figur, hvor erosionHigh afsættes mod regnHigh, og hvor førsteaksen går fra 0 til 1000, og andenaksen går fra 0 til 15000.
Opstil regressionsmodellen $M_1,$ hvor middelværdien af erosionHigh afhænger lineært af regnHigh. Estimer denne model via lm, og indtegn den fundne linje.
Angiv et 95%-konfidensinterval for hældning og for skæring.
Angiv et 95%-konfidensinterval for middelværdien af erosionen (linjens værdi), når den årlige nedbør er 500 mm.
Det er rimeligt at forestille sig, at hvis der ingen nedbør er, så er der heller ikke nogen erosion. Lav et $t$ -test, for at skæringen med andenaksen er i punktet nul. Er det rimeligt at sige, at linjen går gennem $(0,0)$ ?
Opskriv regressionmodellen $M_2,$ hvor middelværdien af erosionHigh er proportional med regnHigh (linjen har skæring med andenaksen i nul). Estimer denne model i R ved et passende kald til lm.
Angiv et 95%-konfidensinterval for hældningen i model $M_2.$
Angiv et 95%-konfidensinterval for middelværdien af erosionen (linjens værdi), når den årlige nedbør er 500 mm.
Prøv at beskrive i ord forskellen mellem de to konfidensintervaller i dette spørgsmål og de to konfidensintervaller i spørgsmål (a).

Opgave 3.4: Prøve kalibreringsberegning

Denne opgave omhandler måden, hvorpå absorption af lys i en væske afhænger af koncentrationen af et absorberende molekyle i væsken, og hvordan vi kan bruge dette til at estimere koncentrationen ud fra en målt lysintensitet. Man måler lysintensiteten $I$ ved forskellige kendte koncentrationer af det absorberende molekyle. På denne måde får man etableret en kalibreringkurve, der efterfølgende kan benyttes til at finde koncentrationen af molekylet i en prøve ud fra en måling af lysintensiteten efter lysets passage gennem prøven.

Absorption af denne type beskrives typisk via Lambert-Beers lov:

$I=I_0 \exp\big\{-\varepsilon v c\big\}. \tag{3.8.1}$ Her er $\varepsilon$ absorptionskoefficienten for det absorberende molekyle, $v$ er vejlængden gennem materialet, $c$ er koncentrationen af molekylet og $I_0$ er lysintensiteten når koncentrationen er nul.

I denne opgave betragter vi en serie målinger af lysintensiteten $I$ som funktion af koncentrationen for en opløsning af Rhodamine 6G i ethanol. Den benyttede vejlængde gennem opløsningen er $v=1.00\,\text{cm}$ . Egentligt burde man i modelleringen af data også tage hensyn til, at koncentrationen af opløsningsmidlet ethanol ændrer sig, når koncentrationen af Rhodamine ændres, men denne effekt er så lille, at vi kan se bort fra den. Tager vi logartimen på begge sider i Lambert-Beers lov (3.8.1), får vi

$H= \alpha -\varepsilon v c, \tag{3.8.2}$ hvor $\alpha=\log(I_0)$ og $H=\log(I)$ .

Data i filen LambertBeer.csv giver den målte værdi af lysintensiteten $I$ for 16 forskellige valg af koncentrationen. Filen har to søjler, hvor første søjle er koncentration, og anden søjle er lysintensiteten.

Dan en variabel logLys med logaritmen til de målte lysintensiteter og en variabel konc med koncentrationerne af Rhodamine 6G. Lav en figur, hvor $\mathit{logLys}$ afsættes mod koncentrationen konc. Synes I, at der er en lineær sammenhæng i data\,? Synes I, at sammenhængen er god, med henblik på at estimere koncentration ud fra lysintensiteten\,?
Opskriv den lineære regressionsmodel, hvor respons er logaritmen til lysintensiteten, og den forklarende variabel er koncentration. Forklar, at regressionskoefficienten $\beta$ i denne model er $\beta=-\varepsilon v$ . Estimer modellen og indtegn den estimerede linje i figuren ovenfor.
Beregn et 95%-konfidensinterval for den ukendte koncentration af Rhodamine 6G i tre tilfælde med en enkelt ny måling af lysintensiteten Lys. Hertil kan du bruge funktionen inversReg omtalt i den skjulte kode i underafsnit 3.5.1. Funktionen findes i filen Rfunktioner.txt. De tre tilfælde er $\mathit{Lys}=2654$ , $\mathit{Lys}=4512$ og $\mathit{Lys}=7688$ . Lav en tabel med resultaterne.

Opgave 3.5: Løvejagt

I denne opgave skal I bruge en lineær regressionsmodel til at sige noget om værdien af den forklarende variabel ud fra en målt responsværdi. I opgaven her er den forklarende variabel alderen af en løve, og respons er fraktion af sort pigment i løvens næsetip.

I artiklen Sustainable trophy hunting of African lions diskuteres hvordan trofæjagt af løver kan gøres bæredygtigt. Forfatternes konklusion er, at man skal sørge for, at de løver, der jages, er hanløver over en vis alder. Ofte bruger jægeren størelsen og farven af løvens manke til at vurdere alderen, men dette er en meget usikker metode. En mere sikker metode består i at bruge andelen af sort pigment i løvens næsetip. I opgaven her skal I se på, hvordan andelen af sort pigment afhænger af alderen, og hvor godt vi kan estimere alderen ud fra dette.

Data for 32 hanløver fra Serengeti og Ngorongoro nationalparkerne ligger i filen Loeve.csv, der har to søjler med henholdsvis alder (år) og fraktion af sort.

Lav en figur, hvor fraktion af sort afsættes mod alder. Styr start og slut på andenaksen med tilføjelsen ylim=c(0,1) til plot. Synes du, at der er en lineær sammenhæng i data ? Synes du, at sammenhængen er god med henblik på at estimere alder ud fra fraktion af sort i næstippen ?
Opskriv den lineære regressionsmodel, hvor respons er fraktion af sort i næsetippen, og den forklarende variabel er alder.
Find skøn og 95%-konfidensinterval for hældning og skæring, og indtegn den skønnede linje i figuren fra foregående spørgsmål. Angiv også et skøn over spredningen $\sigma$ omkring den lineære sammenhæng.
Lav figurer, der kan bruges til modelkontrol, og kommenter på disse figurer.
Betragt situationen, hvor en ny løve registreres, og fraktion af sort i næsen for denne løve er 0.2. Beregn et 95%-konfidensinterval for løvens alder i dette tilfælde.
Gentag beregningen i tre andre tilfælde, hvor en løve er observeret med henholdsvis 0.4, 0.6 og 0.8 for fraktionen af sort i næsen. Lav en tabel med resultaterne for de fire tilfælde.
Hvis vi kun ønsker at skyde løver, der er mindst 5 år gamle, hvor stor synes du så fraktionen af sort i næsen skal være, før du skyder ?

Opgave 3.6: Udlede skøn

Betragt regressionsmodellen $X_i\sim N(\beta t_i,\sigma^2)$ , $i=1,\ldots,n$ , $(\beta,\sigma^2)\in \mathbf{R}\times\mathbf{R}_+,$ hvor skæringen er kendt og lig med nul.

Udled formlen for maksimum likelihood estimatet $\hat\beta.$
Udled fordelingen af $\hat\beta.$
Idet du må bruge, at $\hat\beta$ og variansskøn er uafhængige, skal du udlede et $t$ -test for hypotesen $\beta=\beta_0.$

Opgave 3.7: Kovarians

Vis, ud fra definitionen på kovarians, at $\text{Cov}(a+bX,c+dY)=b\cdot d\cdot\text{Cov}(X,Y),$ hvor $a,b,c,d$ er konstanter.

Opgave 3.8: Fordeling af skøn

Betragt den lineære regressionsmodel $X_i\sim N(\alpha+\beta t_i,\sigma^2),$ $i=1,\ldots,n,$ og lad $t_*$ være en fast kendt værdi af den forklarende variabel $t.$ Som skøn over $\theta=\alpha+\beta t_*$ bruger vi $\hat\theta=\hat\alpha+\hat\beta t_*.$

Vis, at $\hat\theta\sim N\big(\theta,\sigma^2 \big(\frac{1}{n}+\frac{(t_*-\bar t)^2}{\mathit{SSD}_t}\big)\big).$

Foregående Næste