I denne uges øvelse skal I blive fortrolige med multinomialfordelte
data og test af hypoteser om sandsynlighedsparametrene.
Specielt skal I se metoden brugt til at lave goodness of fit test.
Til sidst skal I sammenligne data fra flere multinomialfordelinger. Opgaverne 3.1 til 3.5 skal forberedes hjemmefra og gennemgås ved tavlen
til øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 3.6.
I 2009 publicerede Pieter Vermeesch en lille note med den provokerende
titel
Lies, damned lies, and statistics (in geology).
I noten betragter forfatteren
118415 jordskælv af styrke 4 eller over på Richterskalaen
i perioden 1/1-1999 til 1/1-2009 (data fra
earthquake.usgs.cov) og
fordeler disse på ugedag. Billedet her viser, hvor jordskælv optræder.
Data kan ses i den følgende tabel
og findes i filen JordskaelvDag.csv fra opgave
1.4.
Opstil multinomialmodellen for disse data, hvor
sandsynlighederne for at falde i de syv kasser er vilkårlige.
Opskriv, inden for den opstillede multinomialmodel, hypotesen om
ligelig fordeling på de syv ugedage. Udregn de forventede antal, og
lav G-testet for hypotesen. Hvad
bliver konklusionen af testet?
Den overraskende konklusion er, at jordskælvene ikke fordeler sig ligeligt
på de syv ugedage. Vermeesch ser dette resultat som udtryk for en
svaghed i de statistiske metoder. Har Vermeesch ret, eller bruger han metoderne forkert?
Når vi laver goodness of fit test for en ligelig fordeling på de
syv ugedage, sammenligner vi med uafhængige kast af en syvsidet
terning. Som påpeget af Sornette og Pisarenko i artiklen
On the correct use of statistical tests: Reply to "Lies, damned lies and statistics (in geology)",
er det helt store problem mangel på uafhængighed på grund af
efterskælv og klynger af små skælv. I datasættet er cirka 2/3 af
skælvene efterskælv! Et andet stort problem er, at for de små jordskælv
kan data indeholde menneskeskabte hændelser, og der kan være
forskel i baggrundsstøj på de syv ugedage. Sornette og Pisarenko
foreslår at betragte jordskælv med en styrke over 5 på Richterskalaen
for at komme ud over det sidstnævnte problem, og foretager også en
rensning af disse for at fjerne efterskælv (dette kan ikke gøres
fuldstændigt sikkert). Data kan ses i den følgende tabel.
Lav et G-test for en ligelig fordeling,
både for
alle jordskælv med en styrke over 5 og for delmængden, hvor
efterskælv er fjernet.
Ifølge Wikipedia blev udtrykket lies, damned lies and statistics gjort
kendt af Mark Twain, som skrev "There are three kinds of lies: lies,
damned lies, and statistics". Mark Twain mente, at udtrykket stammede fra
den britiske premierminister Benjamin Disraeli, men dette kan
tilsyneladende ikke bekræftes. Vermeesch var utilfreds med, at han fik en lav p-værdi for en
hypotese, der synes oplagt sand. Dette er dog en mulighed, vi
må være indstillet på, jævnfør omtalen af fejl af type 1
i afsnit 1.4.
Data i denne opgave vedrører positionen af kratere på
Mars.
Hvis kratere er spredt tilfældigt ud over Mars, vil antallet af kratere
i et område følge en poissonfordeling.
Data er hentet i
Mars Crater Database Search,
og vi betragter kun kratere med en diameter
over 4 km.
Området mellem 0 og 15 graders bredde
og 0 og 45 graders længde er delt op i 15×15 områder af lige
stort areal. Dette er vist i den følgende figur, og
antallet af kratere i de 225 områder findes i filen KraterAntal.txt.
Indlæs de 225 tællinger ved ordren
nKrater=scan("KraterAntal.txt"). Lav et antalshistogram af data med intervalendepunkter
endePkt=c(1:19)-0.5
(det første interval er fra 0.5 til 1.5, svarende til at den mindste
værdi i nKrater er 1, og det sidste interval er fra 17.5 til
18.5, svarende til at den største værdi i nKrater er 18).
Indsæt titler på akserne i figuren ved at benytte
xlab og ylab i kaldet til hist.
Placer antallet af observationer i hvert
interval i en vektor antal. Vælg et af intervallerne ud, og eftervis
antallet i antal ved en direkte optælling blandt de 225 dataværdier.
Opskriv multinomialmodellen for den stokastiske antalsvektor
Antal, hvor
sandsynligheden for at falde i de forskellige kasser er vilkårlig.
I denne opgave skal I lave et goodness of fit test for at antallet af
kratere i et område er poissonfordelt. Lad λ være
rateparameteren i poissonfordelingen (enhed: forventede antal per område).
Da den første "kasse" i multinomialmodellen indeholder tælletal
mindre end eller lig med 1, vil hypotesen om en poissonfordeling
betyde at sandsynligheden for at falde i den første kasse er
∑j=01(λj/j!)e−λ. Den anden kasse indeholder
alle tælletal med værdien 2, og sandsynligheden for at falde i den
anden kasse er (λ2/2!)e−λ, og så videre op til
kasse 17. Sandsynligheden for at falde i den sidste kasse
(kasse nummer 18) er 1 minus summen af sandsynlighederne for de
første 17 kasser. Som skøn over λ bruges gennemsnittet af de 225 observationer,
se underafsnit 2.5.1.
Opskriv, inden for din multinomialmodel, hypotesen om, at
antallet af kratere i et område er poissonfordelt. Beregn de forventede antal under hypotesen. Hertil
kan du benytte koden nedenfor. I R beregnes punktsandsynligheder i
poissonfordelingen med dpois(x,lambda), og
sandsynligheden for en værdi mindre end eller
lig med x beregnes med ppois(x,lambda).
Forklar, at koden giver de forventede værdier.
xxxxxxxxxx
1
lamhat=1528/225
2
endePkt=c(1:19)-0.5
3
endePkt0=endePkt[2:18]
4
pr0=ppois(endePkt0,lamhat)
5
pr=c(pr0,1)-c(0,pr0)
6
forvent=225*pr
7
round(forvent,2)
Messages
Indtegn de forventede antal i histogrammet fra spørgsmål (a)
som en rød kurve med kommandoen
lines(c(1:18),forvent,col=2), hvor
forvent er vektoren med de forventede antal.
Lav G-testet for hypotesen, at antal kratere i et område
er poissonfordelt. Slå kasser sammen, hvis de forventede
ikke er større end 5 (slå kasser sammen fra hver sin ende, indtil
det forventede antal er større end 5).Hvad bliver konklusionen af dit goodness of fit test?
Ovenstående undersøgelse var baseret på kratere med en diameter over 4 km.
Hvis man tager kratere med, som har en diameter mellem 1 og 4 km, viser
det sig, at antallet i et rektangel ikke længere kan beskrives med en
poissonfordeling. Kan du se nogle forklaringer på dette?
Data i denne opgave er mængden af krom i 61 prøver af vulkanske
lavabjergarter fra Ontario i Canada. Mængden af krom måles ved spektrokemiske
metoder. Data er fra artiklen
Minor element content of Ontario diabase.
I artiklen er 9 værdier blot angivet som større end 0.077.
I de data I skal bruge, er disse 9 værdier erstattet af simulerede værdier.
Data ligger i filen Ontario.txt.
Opgaven går ud på at lave et goodness of fit test for,
at kromindholdet kan beskrives med en normalfordeling.
Indlæs de 61 mængder af krom (enheden er koncentrationsprocent)
fra filen Ontario.txt, placer disse
i vektoren krom, og dan vektoren logKrom=log(krom) med logaritmen
til mængden.
Lav et tæthedshistogram af data i logKrom med intervalinddelingen
endePkt=-8+c(0:13)*0.5.
Placer antallet af observationer i hvert
af de 13 intervaller i en vektor antal.Hvis logaritmen til mængden af krom
skal beskrives med en normalfordeling, er det bedste valg
af middelværdi μ^=−4.8961, og det bedste valg af spredning er
σ^=1.6555. Indtegn normalfordelingstætheden i histogrammet med
kommandoen
Opskriv multinomialmodellen for den stokastiske vektor Antal, hvor
sandsynlighederne for at falde i de forskellige intervaller er vilkårlige. Opskriv dernæst hypotesen, at sandsynlighederne for at falde i de
13 intervaller
er givet ved sandsynlighederne for intervallerne i en normalfordeling med
middelværdi μ og spredning σ. Husk at i denne sammenhæng
skal det første interval opfattes som intervallet fra minus uendelig
til -7.5, og det sidste interval skal opfattes som intervallet
fra -2.0 til uendelig. Beregn de forventede antal under hypotesen. Hertil
kan du benytte koden nedenfor. I R beregnes
sandsynligheden for en værdi mindre end eller
lig med x i en normalfordeling med
kommandoen pnorm(x,μ,σ).
Forklar, at koden giver de forventede værdier.
xxxxxxxxxx
1
muhat=-4.8961
2
sigmahat=1.6555
3
endePkt=-8.5+c(1:14)*0.5
4
endePkt0=endePkt[2:13]
5
pr0=pnorm(endePkt0,muhat,sigmahat)
6
pr=c(pr0,1)-c(0,pr0)
7
forvent=61*pr
8
round(forvent,2)
Messages
Lav G-testet for hypotesen, at kromindholdet
er normalfordelt.
Kan disse data beskrives med en normalfordeling?
Omra˚deRocky Flats 47Rocky Flats 50Big Dry Creek 62Big Dry Creek 64Gneiss21162420Pegmatite953033Vein quartz3889Quartzite646977Total97986969
En eventuel forskel i fordelingen på litologi kan indgå i en
forståelse af de geologiske processer, der har formet floden.
Opstil den statistiske model,
hvor tælletallene for hvert område i Rocky Flats
følger sin egen multinomialfordeling.
Angiv inden for den opstillede model hypotesen, at der er samme
sandsynlighedsvektor for kategorierne
(Gneiss, Pegmatite, Vein quartz, Quartzite)
for de to områder.
Undersøg, om data er i overensstemmelse med
hypotesen om samme sandsynlighedsvektor
for kategorierne
(Gneiss, Pegmatite, Vein quartz, Quartzite)
for de to Rocky Flats områder (benyt eventuelt R-koden
fra eksempel 3.7.2).
En tilsvarende undersøgelse for de to Big Dry Crek områder viser, at
det også her kan antages at fordelingen
på de fire kategorier (Gneiss, Pegmatite, Vein quartz, Quartzite)
er den samme. I skal nu sammenligne Rocky Flats områderne med Big Dry Creek områderne.
Baseret på resultaterne ovenfor vil det være naturligt
at se på sum-tallene fra de to dele af flodsystemet. Disse tal er vist
i den følgende tabel.
Omra˚deRocky Flats 47+50Big Dry Creek 62+64Gneiss3744Pegmatite1463Vein quartz1117Quartzite13314Total195138
Opstil en statstisk model for disse sum-data. Opskriv hypotesen,
at der er samme fordeling på litologi for de to dele af flodsystemet,
og lav et test for denne hypotese. Hvad bliver resultatet af dette test?
Lad os vende tilbage til data i
opgave 2.4 med tælletal
for antallet af jordskælv i tre styrkeintervaller. I opgaven her
betragtes kun de to første styrkeintervaller, 6.0-6.3 og 6.3-6.6.
Raterne i de to styrkeintervaller skrives som
86λ1 og 86λ2, således at λj er
det forventede antal jordskælv per år.
Under Gutenberg-Richter loven (med "b-value" lig med 1) er
raten i det andet styrkeinterval halvt så stor som raten i det
første styrkeinterval, altså λ2=21λ1.
Opstil en poissonmodel til beskrivelse af eksperimentet,
hvor rateparametrene λ1 og λ2 er som beskrevet ovenfor.
Lav et test for hypotesen, svarende til Gutenberg-Richter loven,
at raten i det andet styrkeinterval er det halve af raten i det
første styrkeinterval (se Resultat 3.8.1).Hvad bliver konklusionen af dette test?
Bemærkning:Hvis data strider mod hypotesen
λ2=21λ1, vil vi være interesseret
i at indføre en parameter θ, således at λ2=θλ1.
Parameteren θ angiver, hvor mange gange større λ2 er
i forhold til λ1.
Et konfidensinterval for forholdet θ kan beregnes som angivet efter
Resultat 3.8.1. Hvis denne metode benyttes på data i første og tredje
styrkeinterval i opgave 2.4,
får vi intervallet [0.22,0.55] for forholdet λ3/λ1
mellem de to rater. Dette interval indeholder
værdien 41, som svarer til Gutenberg-Richter
loven i dette tilfælde.
DMI vedligeholder en side med alle
storme i Danmark
fra 1891 og fremefter. Stormene kalssificeres i fire styrkekategorier ud fra
vindstyrken. I nedenstående tabel har jeg optalt antallet af storme
i de forskellige kategorier for fire 30-års perioder.
Periode1891-19201921-19501951-19801981-2010Stormstyrke 139211418Stormstyrke 21681212Stormstyrke 3 og 448510
Opstil den statistiske model, hvor antallet af storme for hver periode
følger sin egen multinomialfordeling på de tre kategorier
1, 2 og 3+4.
Angiv inden for den opstillede model hypotesen, at der er samme
sandsynlighedsvektor for de tre styrkekategorier 1, 2 og 3+4 for
de fire tidsperioder.
Undersøg, om data er i overensstemmelse med
hypotesen om samme sandsynlighedsvektor for kategorierne
1, 2 og 3+4 for de fire tidsperioder.
For storme i Danmark finder I således ikke en ændring over tid
i sandsynlighedsvektoren for de tre styrkekategorier.
Den næste tabel viser klassifikationen af
hurricanes
fra verdenshavene på styrkekategorierne 1-3 og 4-5. Der er data fra to
tidsperioder: 1975-1989 og 1990-2004.
Data er fra artiklen
Changes in Tropical Cyclone Number, Duration, and Intensity in a Warming Environment.
Undersøg om sandsynlighedsvektoren for de to styrkekategorier
er den samme for de to tidsperioder.
For hurricanes ser det således ud til, at der er sket en ændring i
sandsynlighedsvektoren, således at der er kommet flere kategori 4-5
hurricanes relativt til kategori 1-3 hurricanes.
Vi er derfor interesserede i, om denne øgede mængde af kategori 4-5
hurricanes kun ses i visse verdenshave eller ses overalt.
Du skal derfor se på hvordan kategori 4-5 hurricanes, for en
given tidsperiode,
fordeles ud på 5 verdenshave, og sammenligne de to tidsperioder. Den næste tabel viser fordelingen
af de største hurricanes (kategori 4-5) på fem verdenshave
for de to tidsperioder. Data er i den næste tabel, hvor søjleoverskrifterne er
NA: North Atlantic, EPO: East Pacific Ocean, WPO: West Pacific Ocean,
SwP: Southwestern Pacific og In: Indian.
Opstil model for data, og undersøg, om
sandsynlighedsvektoren for fordelingen af kategori 4-5 hurricanes på
de fem verdenshave
er den samme i de to tidsperioder.