Afsnit 7.9: Øvelse 7: Geologi

I denne sidste øvelse skal I arbejde med yderligere to modeller fra klassen af generelle lineære modeller. Den første model er en regression, hvor data er delt op i undergrupper. Den anden model er den multiple regressionsmodel, hvor man ønsker at beskrive respons ved hjælp af flere forklarende variable.
Opgaverne 7.1 og 7.2 skal være forberedt hjemmefra og gennemgås ved tavlen i den første time af øvelsen. I den anden time af øvelsen kan I arbejde på afleveringsopgaven 7.3. Efter øvelsen skal der afleveres en rapport over opgave 7.3.

Opgave 7.1: Flere regressionslinjer

Opgaven kan ses som en forlængelse af opgave 5.1, hvor vi så på længde og bredde af sprækker i jordoverfladen i de canadiske Rocky Mountains. Vi vil udvide undersøgelsen og inddrage sprækker fra to andre steder på jorden, nemlig fra Kyushu i Japan og fra Kilve i England. Som i opgave 5.1 er data aflæst fra figur i A modern regression approach to determining fault displacement-length scaling relationships.
Data findes i filen Spraekker.csv, der har tre søjler. Den første søjle angiver området (med værdierne RM, Kyushu og Kilve), den anden søjle indeholder længden og den tredje søjle bredden af sprækkerne, begge målt i meter.
  1. Indlæs data, og dan variablen omr med område og variablene logL og logB med henholdsvis logaritmen til længden og logaritmen til bredden.
    Lav en figur, hvor logaritmen til bredden afsættes mod logaritmen til længde, og hvor hver af de tre områder har sin egen farve (dette opnås med tilføjelsen col=omr til plot-kommandoen).
    Estimer for hver af de tre områder parametrene i modellen, hvor middelværdien af logaritmen til bredden afhænger lineært af logaritmen til længden. Du kan lade dig inspirere af koden i afsnit 7.2. Indtegn efterfølgende de tre estimerede linjer i jeres figur (jeg minder om, at en regressionslinje kan indtegnes ved at benytte abline, hvor input er output fra et kald til lm).
  2. Opstil den statistiske model, hvor hvert område har sin egen lineære sammenhæng mellem middelværdien af logB og logL, og hvert område har sin egen varians omkring den lineære sammenhæng. Opstil hypotesen, at der er samme varians for de tre områder. Benyt Bartletts test for at vurdere denne hypotese (I kan igen lade jer inspirere af koden i afsnit 7.2).
  3. Opstil nu den reducerede model, hvor der er samme varians i de tre regressionsmodeller (selvom -værdien i Bartletts test var lidt under 5%, vælger vi at sige samme varians). Undersøg, om det kan antages, at de tre hældninger er ens.
    Undersøg dernæst, om det kan antages, at de tre skæringer er ens.
  4. For modellen, hvor der er den samme hældning for de tre områder, skal du angive skøn og konfidensinterval for de parametre, der indgår i modellen.
    Kan det antages, at hældningen er 1, svarende til at bredden er proportional med længden?

Opgave 7.2: Multipel regression

I vandløb vil man gerne kunne sige noget om sandsynligheden for meget høje vandføringer. Opgaven her går ud på at se på muligheden for at bruge multipel regression til dette baseret på forskellige beskrivende mål for vandløbet. Data stammer fra rapporten Regionalization of Surface-Water Statistics Using Multiple Linear Regression, og er gjort tilgængelige på addressen An example data set for exploration of Multiple Linear Regression. Der er data for 293 vandløb, og responsvariablen, I skal betragte, er den empiriske 90% fraktil baseret på 60 års observationer af den daglige maksimumsvandføring. Denne 90%-fraktil vil jeg i det følgende blot kalde vandføringen. Der er syv forklarende variable i datasættet:
På den skala data er målt på, er nogle af variablene langt fra at udvise en variation, der ligner en normalfordeling. Af denne grund skal I ikke betragte vandføring og variablene 1, 2 og 6 direkte, men bruge logaritmen til disse variable. Prøv eventuelt at lave et histogram af vandføringen og et histogram af logaritmen til vandføringen. Datasættet findes i filen Vandfoering.csv, hvor de første syv søjler er de forklarende variable omtalt ovenfor, søjle 8 er vandføringen (med navnet max90), og søjle 9 er en variabel, der inddeler data i seks grupper og først skal bruges i den næste opgave.
  1. Indlæs data fra filen Vandføring.csv, og dan variable med indholdet i søjlerne 3, 4, 5 og 7 og variable med logaritmen til indholdet i søjlerne 1, 2, 6, og 8 (benyt eventuelt navnene logDA, logPA, logPM og logMax).
    Opskriv den fulde regressionsmodel, model hvor middelværdien af logaritmen til vandføringen afhænger lineært af de syv dannede forklarende variable.
    Lav et qqplot af residualerne i denne model og kommenter på dette.
  2. Reducer den fulde multiple regressionsmodel ved successivt at fjerne led i modellen (backward selektion). Lav en tabel, som for hver model i den successive procedure indeholder model, spredningskøn den største -værdi for test af hypotese om at en regessionskoefficient er nul, samt angivelse af den tilhørende hypotese.
    Lav desuden et -test for reduktion fra den fulde model til slutmodellen ved backward selektionsproceduren.
  3. Lav figurer med residualerne for slutmodellen afsat mod hver af de forklarende variable, og med nullinjen indsat (linjen med skæring nul og hældning nul). Lav desuden et qqplot af residualerne. Lav endelig en figur, hvor logaritmen til vandføringen afsættes mod de forventede værdier, og indsæt identitetslinjen (linjen med skæring i nul og hældning 1) i denne figur.
    Er du tilfreds med det figurerne viser, eller kan du eventuelt se behov for forbedringer?
  4. Lav et 95%-konfidensinterval for middelværdien af logaritmen til vandføringen og et 95%-prædiktionsinterval for logaritmen til vandføringen for et nyt vandløb med værdierne 5.5, 4.8 og 10.0 for henholdsvis logaritmen til drainage area, logaritmen til basin-averaged precipitation og basin-averaged temperature. Benyt predict i R som beskrevet i afsnit 7.3.
    Oversæt det sidste interval til et interval for vandføring.

Opgave 7.3: Afleveringsopgave

I denne sidste afleveringsopgave er det meningen, at I hovedsageligt skal bruge metoderne fra de 6 første kapitler af webbogen (undtagelsen er det sidste spørgsmål).
I skal igen betragte data fra opgave 7.2 omkring maksimumsvandføringer i 293 vandløb. Indlæs data, og dan de samme variable som i opgave 7.2. Dan desuden faktoren gr med værdierne i søjle 9 (med navnet Gruppe), der inddeler i seks grupper med navnene Inddelingen i grupper er baseret på værdien af produktet logPA*TB.
Dan en ny variabel på formen
logVFI=logMax-0.83*logDA-1.61*logPA-0.035*TB+log(1000)
(VFI står for "vandføringsindeks"). Lav to deldatasæt med logVFI-værdierne for henholdsvis gruppe og med kommandoerne
logVFIc=logVFI[gr=="C"] og logVFId=logVFI[gr=="D"].
  1. For de 94 vandløb i gruppe er der 15, der har en logVFI-værdi over 3. Opstil en statistisk model til beskrivelse af observationen 15, og lav et 95%-konfidensinterval for sandsynligheden, for at logVFI-værdien er over 3 i gruppe .
  2. For de 42 vandløb i gruppe er der 5, der har en logVFI-værdi over 3. Undersøg, om der er samme frekvens af vandløb med en logVFI-værdi over 3 blandt grupperne og .
  3. Opstil en statistisk model til beskrivelse af logVFI-værdierne i logVFIc og logVFId. Lav et test for hypotesen, at der er samme middelværdi af logaritmen til vandføringsindekset VFI i grupperne og .
  4. Betragt nu logVFI-værdierne for alle seks grupper dannet ud fra faktoren gr. Opstil en statistisk model for data, og undersøg først, om der er samme varians for de seks grupper, og dernæst, om der er samme middelværdi for de seks grupper.
  5. I det sidste spørgsmål skal I ikke længere betragte logVFI-værdierne, men derimod logMax-vandføringen. Ovenstående analyse viser, at der er information i produktet logPA*TB, der kan bruges til at beskrive vandføringen. I dette delspørgsmål skal I analysere en multipel regressionsmodel til beskrivelse af logMax, hvor I som forklarende variable bruger
    Giv navne til de 6 nye variable, der består af produkt af to variable, og opskriv derefter den multiple regressionsmodel, hvor alle 9 forklarende variable inddrages.
    Reducer modellen ved brug af backward selektion og lav grafisk kontrol af slutmodellen. Lav et test for reduktion fra startmodel til slutmodel, og angiv et 95%-konfidensinterval for regressionskoefficienten hørende til variablen logPA*TB i slutmodellen.

ForegåendeNæste