Afsnit 5.9: Opgaver til kapitel 5

I øvelserne hørende til kapitel 5 skal I arbejde med yderligere to modeller fra klassen af generelle lineære modeller. Den første model er en regression, hvor data er delt op i undergrupper. Den anden model er den multiple regressionsmodel, hvor man ønsker at beskrive respons ved hjælp af flere forklarende variable.

Opgave 5.1: Flere regressionslinjer

Opgaven kan ses som en forlængelse af opgave 3.1, hvor vi så på længde og bredde af sprækker i jordoverfladen i de canadiske Rocky Mountains. Vi vil udvide undersøgelsen og inddrage sprækker fra to andre steder på jorden, nemlig fra Kyushu i Japan og fra Kilve i England. Som i opgave 3.1 er data aflæst fra figur i A modern regression approach to determining fault displacement-length scaling relationships.

Data findes i filen Spraekker.csv, der har tre søjler. Den første søjle angiver området (med værdierne RM, Kyushu og Kilve), den anden søjle indeholder længden og den tredje søjle bredden af sprækkerne, begge målt i meter.

Indlæs data, og dan variablen omr med område og variablene logL og logB med henholdsvis logaritmen til længden og logaritmen til bredden. Hvis omr ikke er en faktor efter indlæsningen, skal du omdanne den til en faktor.
Lav en figur, hvor logaritmen til bredden afsættes mod logaritmen til længde, og hvor hver af de tre områder har sin egen farve (dette opnås med tilføjelsen col=omr til plot-kommandoen).
Estimer for hver af de tre områder parametrene i modellen, hvor middelværdien af logaritmen til bredden afhænger lineært af logaritmen til længden. Du kan lade dig inspirere af koden i afsnit 5.2. Indtegn efterfølgende de tre estimerede linjer i jeres figur (jeg minder om, at en regressionslinje kan indtegnes ved at benytte abline, hvor input er output fra et kald til lm).
Opstil den statistiske model, hvor hvert område har sin egen lineære sammenhæng mellem middelværdien af logB og logL, og hvert område har sin egen varians omkring den lineære sammenhæng. Opstil hypotesen, at der er samme varians for de tre områder. Benyt Bartletts test for at vurdere denne hypotese. (I kan igen lade jer inspirere af koden i afsnit 5.2).
Opstil nu den reducerede model, hvor der er samme varians i de tre regressionsmodeller (selvom $p$ -værdien i Bartletts test var lidt under 5%, vælger vi at sige samme varians). Undersøg, om det kan antages, at de tre hældninger er ens.
Undersøg dernæst, om det kan antages, at de tre skæringer er ens.
For modellen, hvor der er den samme hældning for de tre områder, skal du angive skøn og konfidensinterval for de parametre, der indgår i modellen.
Kan det antages, at hældningen er 1, svarende til at bredden er proportional med længden ?

Opgave 5.2: Multipel regression

Hvordan måler man vægten af en bjørn ? Umiddelbart kan man mene, at svaret er simpelt: man tager en stor vægt med ud i felten og beder bjørnen om at træde op på denne! I praksis er dette ikke så nemt, og inden for vildtpleje vil man gerne have mulighed for at vurdere vægten ud fra mål, der er nemmere at opnå. I denne opgave skal I bruge en multipel regressionsmodel til at beskrive vægten ud fra morfometriske mål på bjørnen. Disse sidste mål kan nemt foretages, efter at bjørnen er blevet bedøvet. Hvorfor vil man kende bjørnens vægt ? I artiklen Estimating the Live Body Weight of American Black Bears in Florida siger forfatteren "Collecting body weight measurement is therefore recommended during handling because demographic and reproductive variables are functionally dependent on weight rather than age." I opgaven her skal I ikke bruge data fra denne artikel, men derimod et datasæt der kan findes i R-pakken Bolstad. Oprindelsen til datasættet beskrives i R-pakken som "This data set was supplied by Gary Alt". Data fra R-pakken ligger på kursushjemmesiden i filen Bear.csv. Datasættet har søjlerne headlen (hovedlængde i tommer), headwid (hovedbredde i tommer), neck (nakkeomkreds i tommer), length (bjørnens længde i tommer), chest (brystomkreds i tommer) og weight (vægt i pund). En rumfangsbetragtning gør, at vi kan forestille os en relation, der siger, at vægt er proportional med længde gange brystomkreds. Denne type tankegang gør, at det er en fordel at bruge log-transformerede data i den multiple regressionsmodel.

Indlæs data fra filen Bear.csv, og dan variable med logaritmen til værdierne i de seks søjler.
Opskriv den fulde regressionsmodel, model $M_1,$ hvor middelværdien af logaritmen til vægten afhænger lineært af de fem logaritmer til de morfometriske mål.
Lav et qqplot af residualerne i denne model.
Reducer den fulde multiple regressionsmodel ved successivt at fjerne led i modellen (backward selektion). Lav en tabel som for hver model i den successive procedure indeholder model, spredningskøn $s(M),$ den største $p$ -værdi for test af hypotese om at en regessionskoefficient er nul og angivelse af den tilhørende hypotese.
Lav desuden et $F$ -test for reduktion fra den fulde model til slutmodellen ved backward selektionsproceduren.
Lav figurer med residualerne for slutmodellen afsat mod hver af de forklarende variable og med nullinjen indsat (linjen med skæring nul og hældning nul). Lav desuden et qqplot af residualerne. Lav endelig en figur hvor logaritmen til vægten afsættes mod de forventede værdier og indsæt identitetslinjen (linjen med skæring i nul og hældning 1) i denne figur.
Synes du, at slutmodellen giver en god beskrivelse af data? Inddrag eventuelt spredningsskønnet $s(M)$ for slutmodellen i din diskussion. Husk at din model er for logaritmen til vægten, således at en spredning på for eksempel 0.05 svarer til en 5 procents spredning på vægten.
Lav et 95%-konfidensinterval for middelværdien af logaritmen til vægten og et 95%-prædiktionsinteval for logaritmen til vægten for en ny bjørn med length=45, chest=25 og neck=13. Benyt predict i R som beskrevet i afsnit 5.3
Oversæt det sidste interval til et interval for vægten.
I en model på formen
$\text{weight}=\text{constant}\cdot\text{length}^\alpha \cdot\text{chest}^\gamma\cdot\text{neck}^\tau$ vil vi ud fra en "dimensionsanalyse" forvente at $\alpha+\gamma+\tau=3.$ Synes du at dette passer med skønnene over regressionscoefficienterne i din multiple regressionsmodel ?

Opgave 5.3: BMI for fisk

Data i filen Tampere.csv giver tre længdemål samt højde, bredde og vægt for 126 fisk fordelt på fem arter. De tre længdemål adskiller sig ved, hvor langt ud langs halen der måles. Data er oprindeligt publiceret i artiklen Bidrag till kaennedom on fiskbestondet i vaera sjoear. Laengelmaevesi, men er her hentet på adressen JSE Data Archive.

Indlæs data og dan variablene art (første søjle), logL1, logL2, logL3, logH, logB, logV med logaritmen til værdierne i søjlerne 2 til 8, og dan til sidst variablen logBMI=logV-3*logL3+log(1000). Den sidste variabel er logaritmen til et body mass index for fiskene på formen $\text{BMI}=V/(L3/10)^3$ .
Lav to deldatasæt for henholdsvis Aborre og Brasen med kommandoerne
logAborre=logBMI[art=="Aborre"] og logBrasen=logBMI[art=="Brasen"]
For de 56 aborre i datasættet er der 9, der har et BMI over 12. Opstil en statistisk model til beskrivelse af observationen 9, og lav et 95%-konfidensinterval for sandsynligheden, for at en aborre har et BMI over 12.
For de 34 brasen i datasættet er der 4, der har et BMI over 12. Undersøg, om der er samme frekvens af fisk med BMI over 12 blandt de to arter aborre og brasen.
Opstil en statistisk model til beskrivelse af data i logAborre og logBrasen. Lav et test for hypotesen, at der er samme middelværdi af logaritmen til BMI for de to fiskearter.
Betragt nu logaritmen til BMI for alle fem fiskearter. Opstil en statistisk model for data, og undersøg først, om der er samme varians for de fem arter, og dernæst, om der er samme middelværdi for de fem arter.
Opstil en multipel regressionsmodel til beskrivelse af logaritmen til vægten (logV) for aborre ud fra aborre-værdierne for de fem forklarende variable logL1, logL2, logL3, logH og logB. Reducer modellen ved brug af backward selektion og lav grafisk kontrol af slutmodellen. Lav et test for reduktion fra startmodel til slutmodel og angiv 95%-konfidensintervaller for parametrene i slutmodellen.

Opgave 5.4: Multipel regression baseret på NIR-spektrum

I artiklen Near-infrared spectroscopy as a novel non-invasive tool to assess Spiny Lobster nutritional condition undersøges muligheden af at bruge near-infrared (NIR) spektrometri til at vurdere den ernæringsmæssige tilstand i languster. Forfatterne skriver selv om motivationen: "A practical, rapid and non-invasive technique to analyse lobster nutritional condition has considerable potential to assist with the management of wild stocks, $\ldots$ " I denne opgave skal I se på muligheden for at beskrive "abdomial muscle dry matter content" (AMDM) ud fra NIR-spektret. Der er data for 89 languster i filen Lobster.txt. Hver række svarer til en languster, de første 495 søjler er NIR-spektret for bølgelængder i området 1063-1334 nm, og søjle 496 indeholder værdierne af AMDM. Spektret er oprindeligt målt for bølgelængder i området 1063-2354 nm, men forfatterne vælger kun at bruge området 1063-1334 til beskrivelse af AMDM.

Indlæs de 89 spektre og de 89 AMDM-værdier med kommandoerne
dat=matrix(scan("Lobster.txt"),89,496,byrow=TRUE)
spek=dat[,-496]; amdm=Dat[,496]
Benyt R-funktionen forward som vist i koden i afsnit 5.7 til at opbygge en multipel regressionsmodel ved forward selektion med op til 15 forklarende variable. Lav en figur med to delfigurer. Den venstre delfigur skal vise skøn over spredning $s(M_j),$ $j=1,\ldots,15,$ hvor $M_j$ er modellen med $j$ forklarende variable, og den højre delfigur skal vise $p$ -værdien for test af hypotesen $\beta_j=0,$ hvor $\beta_j$ er regresionskoefficienten hørende til det sidste led i modellen $M_j.$ Lav endvidere en tabel med numrene på de forklarende variable i den rækkefølge som de inkluderes.
Vurder ud fra disse figurer, hvor mange led du vil medtage i din multiple regressionsmodel.
Du skal nu vurdere kvaliteten af de forskellige multiple regressionsmodeller fra en forward selektionsprocedure ved brug af crossvalidation. Til dette skal du bruge R-funktionen cvForward som vist i koden i afsnit 5.7. Lav en figur, hvor både spredningsskøn $s(M_j)$ og crossvalidation prædiktionsspredningen $s_{\text{cv}}$ afsættes mod $j,$ med hver sin farve.
Hvilken model vil du vælge til beskrivelse af AMDM ud fra NIR-spektret ?
For din valgte multiple regressionsmodel skal du lave en figur, hvor den målte værdi af AMDM afsættes mod den forventede værdi, og identitetslinjen indtegnes. Indtegn desuden to linjer med hældning 1 i afstanden $\pm 2s_{\text{cv}},$ hvor $s_{\text{cv}}$ hører til din valgte model. Ser denne figur ud, som du forventer?
Lav desuden et qqplot af residualerne i modellen.
Diskuter størrelsen af crossvalidation prædiktionsspredningen $s_{\text{cv}}$ for den valgte model i forhold til variationsområdet for AMDM (forfatterne nævner en værdi på 1.41 for prædiktionsspredningen for en noget mere kompliceret model end den I betragter i opgaven her).

Foregående Næste