I øvelserne hørende til kapitel 5 skal I arbejde med yderligere to modeller
fra klassen af generelle lineære modeller. Den første model
er en regression, hvor data er delt op i undergrupper.
Den anden model er den multiple regressionsmodel, hvor
man ønsker at beskrive respons ved hjælp af flere forklarende variable.
Opgaven kan ses som en forlængelse af opgave 3.1, hvor vi så på
længde og bredde af sprækker i jordoverfladen i de canadiske Rocky
Mountains. Vi vil udvide undersøgelsen og inddrage sprækker fra to
andre steder på jorden, nemlig fra Kyushu i Japan og fra
Kilve i England.
Som i opgave 3.1
er data aflæst fra figur i
A modern regression approach to determining fault displacement-length scaling relationships. Data findes i filen Spraekker.csv, der har
tre søjler. Den første søjle angiver området (med værdierne
RM, Kyushu og Kilve),
den anden søjle indeholder længden og den tredje søjle bredden
af sprækkerne, begge målt i meter.
Indlæs data,
og dan variablen omr med område og
variablene logL og logB med henholdsvis logaritmen til
længden og logaritmen til bredden.
Hvis omr ikke er en faktor efter indlæsningen, skal du omdanne
den til en faktor. Lav en figur, hvor logaritmen til bredden afsættes mod
logaritmen til længde, og hvor hver af de tre områder har sin egen farve
(dette opnås med tilføjelsen col=omr til plot-kommandoen). Estimer for hver af de tre områder parametrene i modellen, hvor
middelværdien af logaritmen til bredden afhænger lineært af
logaritmen til længden.
Du kan lade dig inspirere af koden i
afsnit 5.2.
Indtegn efterfølgende de tre estimerede linjer i jeres figur
(jeg minder om, at en regressionslinje kan indtegnes ved at
benytte abline, hvor input er output fra et kald til lm).
Opstil den statistiske model, hvor hvert område har sin egen
lineære sammenhæng mellem middelværdien af logB og logL,
og hvert område har sin egen varians omkring den lineære sammenhæng.
Opstil hypotesen, at der er samme varians for de tre områder. Benyt
Bartletts test for at vurdere denne hypotese.
(I kan igen lade jer inspirere af koden i
afsnit 5.2).
Opstil nu den reducerede model, hvor der er samme varians i de tre
regressionsmodeller (selvom -værdien i Bartletts
test var lidt under 5%, vælger vi at sige samme varians).
Undersøg, om det kan antages, at de tre hældninger er ens. Undersøg dernæst, om det kan antages, at de tre skæringer er ens.
For modellen, hvor der er den samme hældning for de tre områder,
skal du angive skøn og konfidensinterval
for de parametre, der indgår i modellen. Kan det antages, at hældningen er 1, svarende til at bredden er
proportional med længden ?
Hvordan måler man vægten af en bjørn ? Umiddelbart kan man mene, at svaret er
simpelt: man tager en stor vægt med ud i felten og beder bjørnen om at træde
op på denne! I praksis er dette ikke så nemt, og inden for vildtpleje vil
man gerne have mulighed for at vurdere vægten ud fra mål, der er nemmere
at opnå. I denne opgave skal I bruge en multipel regressionsmodel
til at beskrive vægten ud fra morfometriske mål på bjørnen. Disse sidste mål
kan nemt foretages, efter at bjørnen er blevet bedøvet. Hvorfor vil man
kende bjørnens vægt ? I artiklen
Estimating the Live Body Weight of American Black Bears in Florida
siger forfatteren "Collecting body weight measurement is therefore
recommended during handling because demographic and
reproductive variables are functionally dependent on weight rather than age."
I opgaven her skal I ikke bruge data fra denne artikel, men derimod
et datasæt der kan findes i R-pakken Bolstad.
Oprindelsen til datasættet beskrives i R-pakken som
"This data set was supplied by
Gary Alt".
Data fra R-pakken ligger på
kursushjemmesiden i filen Bear.csv.
Datasættet har søjlerne headlen (hovedlængde i tommer),
headwid (hovedbredde i tommer),
neck (nakkeomkreds i tommer),
length (bjørnens længde i tommer),
chest (brystomkreds i tommer) og
weight (vægt i pund).
En rumfangsbetragtning gør, at vi kan forestille os en relation,
der siger, at vægt er proportional med længde gange brystomkreds. Denne type
tankegang gør, at det er en fordel at bruge
log-transformerede data i den multiple regressionsmodel.
Indlæs data fra filen Bear.csv, og dan variable
med logaritmen til værdierne i de seks søjler. Opskriv den fulde regressionsmodel, model
hvor middelværdien af logaritmen til vægten
afhænger lineært af de fem logaritmer til de morfometriske mål. Lav et qqplot af residualerne i denne model.
Reducer den fulde multiple regressionsmodel ved successivt at fjerne led
i modellen (backward selektion). Lav en tabel som for hver model
i den successive procedure indeholder model,
spredningskøn den største -værdi for test af
hypotese om at en regessionskoefficient er nul og angivelse af den
tilhørende hypotese. Lav desuden et -test for reduktion fra den fulde model til
slutmodellen ved backward selektionsproceduren.
Lav figurer med residualerne for slutmodellen afsat mod
hver af de forklarende variable og med nullinjen
indsat (linjen med skæring nul og hældning nul).
Lav desuden et qqplot af residualerne.
Lav endelig en figur hvor logaritmen til vægten afsættes mod de
forventede værdier og indsæt identitetslinjen
(linjen med skæring i nul og hældning 1) i denne figur. Synes du, at slutmodellen giver en god beskrivelse af data ?
Inddrag eventuelt spredningsskønnet for
slutmodellen i din diskussion. Husk at din model er for
logaritmen til vægten, således at en spredning på for eksempel
0.05 svarer til en 5 procents spredning på vægten.
Lav et 95%-konfidensinterval for middelværdien af logaritmen
til vægten og et 95%-prædiktionsinteval for logaritmen til vægten for en
ny bjørn med length=45, chest=25 og neck=13.
Benyt predict i R
som beskrevet i afsnit 5.3Oversæt det sidste interval til et interval for vægten.
I en model på formen
vil vi ud fra en "dimensionsanalyse" forvente at
Synes du at dette passer med skønnene
over regressionscoefficienterne i din multiple regressionsmodel ?
Data i filen Tampere.csv giver tre længdemål samt
højde, bredde og vægt for 126 fisk fordelt på
fem arter. De tre længdemål adskiller sig ved, hvor langt ud langs
halen der måles. Data er oprindeligt publiceret i artiklen
Bidrag till kaennedom on fiskbestondet i vaera
sjoear. Laengelmaevesi, men er her hentet på adressen
JSE Data Archive.
Indlæs data og dan variablene
art (første søjle),
logL1, logL2, logL3, logH,
logB, logV med logaritmen til værdierne i søjlerne 2 til 8,
og dan til sidst variablen logBMI=logV-3*logL3+log(1000).
Den sidste variabel er logaritmen til et body mass index for fiskene
på formen . Lav to deldatasæt for henholdsvis Aborre og Brasen med kommandoerne
logAborre=logBMI[art=="Aborre"] og logBrasen=logBMI[art=="Brasen"]
For de 56 aborre i datasættet er der 9, der har et BMI over 12.
Opstil en statistisk model til beskrivelse af observationen 9,
og lav et 95%-konfidensinterval for sandsynligheden, for at en
aborre har et BMI over 12.
For de 34 brasen i datasættet er der 4, der har et BMI over 12.
Undersøg, om der er samme frekvens af fisk med BMI over 12 blandt
de to arter aborre og brasen.
Opstil en statistisk model til beskrivelse af data i
logAborre og logBrasen.
Lav et test for hypotesen, at der er samme middelværdi
af logaritmen til BMI for de to fiskearter.
Betragt nu logaritmen til BMI for alle fem fiskearter.
Opstil en statistisk model for data, og undersøg først, om
der er samme varians for de fem arter, og dernæst, om der er samme
middelværdi for de fem arter.
Opstil en multipel regressionsmodel til beskrivelse af
logaritmen til vægten (logV) for aborre ud fra
aborre-værdierne for de fem forklarende variable
logL1, logL2, logL3, logH og
logB. Reducer modellen ved brug af backward selektion
og lav grafisk kontrol af slutmodellen.
Lav et test for reduktion fra startmodel til slutmodel og angiv
95%-konfidensintervaller for parametrene i slutmodellen.
I artiklen
Near-infrared spectroscopy as a novel non-invasive tool to assess Spiny Lobster nutritional condition
undersøges muligheden af at bruge near-infrared (NIR) spektrometri
til at vurdere den ernæringsmæssige tilstand i
languster.
Forfatterne skriver selv om motivationen: "A practical, rapid and non-invasive
technique to analyse lobster nutritional condition has considerable
potential to assist with the management of wild stocks,"
I denne opgave skal I se på muligheden for at beskrive
"abdomial muscle dry matter content" (AMDM) ud fra NIR-spektret.
Der er data for 89 languster i filen Lobster.txt. Hver række
svarer til en languster, de første 495 søjler er NIR-spektret for
bølgelængder i området 1063-1334 nm, og søjle 496 indeholder værdierne af
AMDM. Spektret er oprindeligt målt for bølgelængder i området 1063-2354 nm,
men forfatterne vælger kun at bruge området 1063-1334 til
beskrivelse af AMDM.
Indlæs de 89 spektre og de 89 AMDM-værdier
med kommandoerne
Benyt R-funktionen forward som vist i
koden
i afsnit 5.7
til at opbygge en multipel regressionsmodel ved forward selektion
med op til 15 forklarende variable.
Lav en figur med to delfigurer. Den venstre delfigur skal vise
skøn over spredning hvor er modellen
med forklarende variable, og den højre delfigur skal vise -værdien
for test af hypotesen hvor er regresionskoefficienten
hørende til det sidste led i modellen
Lav endvidere en tabel med numrene på de forklarende variable i den rækkefølge
som de inkluderes.Vurder ud fra disse figurer, hvor mange led du vil medtage i din multiple
regressionsmodel.
Du skal nu vurdere kvaliteten af de forskellige multiple
regressionsmodeller
fra en forward selektionsprocedure ved brug af crossvalidation.
Til dette skal du bruge R-funktionen cvForward
som vist i
koden
i afsnit 5.7.
Lav en figur, hvor både spredningsskøn
og crossvalidation prædiktionsspredningen
afsættes mod med hver sin farve.Hvilken model vil du vælge til beskrivelse af AMDM ud fra NIR-spektret ?
For din valgte multiple regressionsmodel skal du lave en figur, hvor
den målte værdi af AMDM afsættes mod den forventede værdi, og identitetslinjen
indtegnes. Indtegn desuden to linjer med hældning 1 i afstanden
hvor hører til din valgte model.
Ser denne figur ud, som du forventer ?Lav desuden et qqplot af residualerne i modellen.Diskuter størrelsen af crossvalidation prædiktionsspredningen
for den valgte model i forhold til variationsområdet for
AMDM (forfatterne nævner en værdi på 1.41 for prædiktionsspredningen
for en noget mere kompliceret model end den I betragter i opgaven her).