I denne sidste øvelse skal I arbejde med yderligere to modeller
fra klassen af generelle lineære modeller. Den første model
er en regression, hvor data er delt op i undergrupper.
Den anden model er den multiple regressionsmodel, hvor
man ønsker at beskrive respons ved hjælp af flere forklarende variable.Opgaverne 7.1 og 7.2 skal være forberedt hjemmefra og gennemgås ved
tavlen i den første time af øvelsen.
I den anden time af øvelsen kan I arbejde på afleveringsopgaven 7.3.
Efter øvelsen skal der afleveres en rapport over opgave 7.3.
Opgaven kan ses som en forlængelse af opgave 5.1, hvor vi så på
længde og bredde af sprækker i jordoverfladen i de canadiske Rocky
Mountains. Vi vil udvide undersøgelsen og inddrage sprækker fra to
andre steder på jorden, nemlig fra Kyushu i Japan og fra
Kilve i England.
Som i opgave 5.1
er data aflæst fra figur i
A modern regression approach to determining fault displacement-length scaling relationships. Data findes i filen Spraekker.csv, der har
tre søjler. Den første søjle angiver området (med værdierne
RM, Kyushu og Kilve),
den anden søjle indeholder længden og den tredje søjle bredden
af sprækkerne, begge målt i meter.
Indlæs data,
og dan variablen omr med område og
variablene logL og logB med henholdsvis logaritmen til
længden og logaritmen til bredden. Lav en figur, hvor logaritmen til bredden afsættes mod
logaritmen til længde, og hvor hver af de tre områder har sin egen farve
(dette opnås med tilføjelsen col=omr til plot-kommandoen). Estimer for hver af de tre områder parametrene i modellen, hvor
middelværdien af logaritmen til bredden afhænger lineært af
logaritmen til længden.
Du kan lade dig inspirere af koden i
afsnit 7.2.
Indtegn efterfølgende de tre estimerede linjer i jeres figur
(jeg minder om, at en regressionslinje kan indtegnes ved at
benytte abline, hvor input er output fra et kald til lm).
Opstil den statistiske model, hvor hvert område har sin egen
lineære sammenhæng mellem middelværdien af logB og logL,
og hvert område har sin egen varians omkring den lineære sammenhæng.
Opstil hypotesen, at der er samme varians for de tre områder. Benyt
Bartletts test for at vurdere denne hypotese
(I kan igen lade jer inspirere af koden i
afsnit 7.2).
Opstil nu den reducerede model, hvor der er samme varians i de tre
regressionsmodeller (selvom p-værdien i Bartletts
test var lidt under 5%, vælger vi at sige samme varians).
Undersøg, om det kan antages, at de tre hældninger er ens. Undersøg dernæst, om det kan antages, at de tre skæringer er ens.
For modellen, hvor der er den samme hældning for de tre områder,
skal du angive skøn og konfidensinterval
for de parametre, der indgår i modellen. Kan det antages, at hældningen er 1, svarende til at bredden er
proportional med længden?
I vandløb vil man gerne kunne sige noget om sandsynligheden for meget høje
vandføringer. Opgaven her går ud på at se på muligheden for at
bruge multipel regression til dette baseret på forskellige
beskrivende mål for vandløbet. Data stammer fra rapporten
Regionalization of Surface-Water Statistics Using Multiple Linear Regression,
og er gjort tilgængelige på addressen
An example data set for exploration of Multiple Linear Regression.
Der er data for 293 vandløb, og responsvariablen, I skal betragte, er
den empiriske 90% fraktil baseret på 60 års observationer af den daglige
maksimumsvandføring. Denne 90%-fraktil vil jeg i det følgende blot kalde
vandføringen.
Der er syv forklarende variable i datasættet:
På den skala data er målt på, er nogle af variablene langt fra at
udvise en variation, der ligner en normalfordeling.
Af denne grund skal I ikke betragte vandføring og variablene
1, 2 og 6 direkte, men bruge logaritmen til disse variable.
Prøv eventuelt at lave et histogram af vandføringen og et histogram
af logaritmen til vandføringen.
Datasættet findes i filen Vandfoering.csv, hvor de første syv søjler
er de forklarende variable omtalt ovenfor, søjle 8 er
vandføringen (med navnet max90), og søjle 9 er en variabel,
der inddeler data i seks grupper og først skal bruges i den
næste opgave.
Indlæs data fra filen Vandføring.csv, og dan variable
med indholdet i søjlerne 3, 4, 5 og 7 og variable med logaritmen
til indholdet i søjlerne 1, 2, 6, og 8
(benyt eventuelt navnene logDA, logPA, logPM
og logMax).Opskriv den fulde regressionsmodel, model M1,
hvor middelværdien af logaritmen til vandføringen
afhænger lineært af de syv dannede forklarende variable. Lav et qqplot af residualerne i denne model og kommenter på dette.
Reducer den fulde multiple regressionsmodel ved successivt at fjerne led
i modellen (backward selektion). Lav en tabel, som for hver model
i den successive procedure indeholder model,
spredningskøn s(M), den største p-værdi for test af
hypotese om at en regessionskoefficient er nul, samt angivelse af den
tilhørende hypotese. Lav desuden et F-test for reduktion fra den fulde model til
slutmodellen ved backward selektionsproceduren.
Lav figurer med residualerne for slutmodellen afsat mod
hver af de forklarende variable, og med nullinjen
indsat (linjen med skæring nul og hældning nul).
Lav desuden et qqplot af residualerne.
Lav endelig en figur, hvor logaritmen til vandføringen afsættes mod de
forventede værdier, og indsæt identitetslinjen
(linjen med skæring i nul og hældning 1) i denne figur. Er du tilfreds med det figurerne viser, eller kan du eventuelt se
behov for forbedringer?
Lav et 95%-konfidensinterval for middelværdien af
logaritmen til vandføringen
og et 95%-prædiktionsinterval for logaritmen til vandføringen
for et nyt vandløb med
værdierne 5.5, 4.8 og 10.0 for henholdsvis
logaritmen til drainage area, logaritmen til
basin-averaged precipitation og
basin-averaged temperature.
Benyt predict i R
som beskrevet i afsnit 7.3.Oversæt det sidste interval til et interval for vandføring.
I denne sidste afleveringsopgave er det meningen, at I
hovedsageligt skal bruge metoderne fra de 6 første kapitler
af webbogen
(undtagelsen er det sidste spørgsmål). I skal igen betragte data fra opgave 7.2 omkring
maksimumsvandføringer i 293 vandløb.
Indlæs data, og dan de samme variable som i opgave 7.2.
Dan desuden faktoren gr med værdierne i søjle 9
(med navnet Gruppe), der inddeler i seks grupper med
navnene A,…,F. Inddelingen i grupper er baseret på
værdien af produktet logPA*TB. Dan en ny variabel på formen
(VFI står for "vandføringsindeks").
Lav to deldatasæt med logVFI-værdierne
for henholdsvis gruppe C og D med kommandoerne
logVFIc=logVFI[gr=="C"] og logVFId=logVFI[gr=="D"].
For de 94 vandløb i gruppe C er der 15, der har en logVFI-værdi over 3.
Opstil en statistisk model til beskrivelse af observationen 15,
og lav et 95%-konfidensinterval for sandsynligheden, for at
logVFI-værdien er over 3 i gruppe C.
For de 42 vandløb i gruppe D er der 5, der har en logVFI-værdi over 3.
Undersøg, om der er samme frekvens af vandløb med en
logVFI-værdi over 3 blandt grupperne C og D.
Opstil en statistisk model til beskrivelse af logVFI-værdierne i
logVFIc og logVFId.
Lav et test for hypotesen, at der er samme middelværdi
af logaritmen til vandføringsindekset VFI i grupperne C og D.
Betragt nu logVFI-værdierne for alle seks grupper dannet
ud fra faktoren gr.
Opstil en statistisk model for data, og undersøg først, om
der er samme varians for de seks grupper, og dernæst, om der er samme
middelværdi for de seks grupper.
I det sidste spørgsmål skal I ikke længere betragte
logVFI-værdierne, men derimod logMax-vandføringen.
Ovenstående analyse viser, at der er information i produktet
logPA*TB, der kan bruges til at beskrive
vandføringen. I dette delspørgsmål skal I
analysere en multipel regressionsmodel til beskrivelse af
logMax, hvor I som forklarende variable bruger
logDA, logPA, TB, logDA*logDA, logPA*logPA, TB*TB,logDA*logPA, logDA*TB og logPA*TB.
Giv navne til de 6 nye variable, der består af produkt af
to variable, og opskriv derefter den multiple regressionsmodel,
hvor alle 9 forklarende variable inddrages.Reducer modellen ved brug af backward selektion
og lav grafisk kontrol af slutmodellen.
Lav et test for reduktion fra startmodel til slutmodel, og angiv et
95%-konfidensinterval for regressionskoefficienten
hørende til variablen logPA*TB i slutmodellen.