Afsnit 2.7: Øvelse 2: Geologi

Denne uges øvelse vedrører inferens i binomialmodellen og i poissonmodellen. I skal lave test i binomialmodellen og konfidensinterval i både binomialmodellen og poissonmodellen. I den første opgave skal I træne i at afgøre, om binomialmodellen eller poissonmodellen skal bruges til at beskrive data. Husk altid i opgaverne at opskrive den statistiske model til beskrivelse af data.

Opgaverne 2.1-2.5 skal være forberedt hjemmefra og gennemgås ved tavlen til øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 2.6.

Opgave 2.1: Identificere fordeling

Betragt følgende fem datasæt. Forklar i hvert enkelt tilfælde, hvorfor du vil beskrive data med enten en binomialfordeling eller en poissonfordeling. Opskriv den statistiske model for hver observation.

I et snit af en kalksten er der lagt et gitter ned over, og blandt 100 gitterpunkter er der i 28 fundet en bestemt fossil. Hvilken fordeling vil du bruge til at beskrive observationen $\mathit{fossil} = 28$ ?
I en jordprøve på 8 kilo er der fundet 17 guldkorn. Hvilken fordeling vil du bruge til at beskrive observationen $\mathit{guldkorn} = 17$ ?
På et geologihold på Aarhus Universitet er der startet 23 studerende, men efter et år har 4 valgt at skifte studie til kemi. Hvilken fordeling vil du bruge til at beskrive observationen $\mathit{skifter} = 4$ ?
I New Zealand har der i en periode på 30 år været 7 jordskælv med en styrke over 6 på Richterskalaen. Hvilken fordeling vil du bruge til at beskrive observationen $\mathit{over6} = 7$ ?

Opgave 2.2: Test i binomialmodellen

I Opgave 1.5 er omtalt en opdeling af jordskælv i forhold til tidevandsfasen. Af de 266 jordskælv er der 117, der falder under den opadgående fase af tidevandet og 149 i den nedadgående fase.

Start med den tænkte situation, at der ud af 266 jordskælv er observeret 133 i den opadgående tidevandsfase. Opstil binomialmodellen til beskrivelse af denne tænkte situation. Forklar, at $p$ -værdien er lig med 1 for test af hypotesen, at sandsynlighedsparameteren i binomialmodellen har værdien $\frac{1}{2}.$
Betragt nu den faktiske datasituation med 117 observerede jordskælv i den opdgående tidevandsfase. Opstil binomialmodellen for dette eksperiment og find $p$ -værdien for test af hypotesen, at sandsynlighedsparameteren i binomialmodellen har værdien $\frac{1}{2}$ (benyt eventuelt R-koden nederst i afsnit 1.3). Hvordan passer resultatet med dine simulationer i Opgave 1.5 ?

I Afsnit 1.1 omtalte jeg et af Mendels eksperimenter. Mendel undersøgte mange egenskaber ved ærteplanten. I tabellen nedenfor er et udsnit af Mendels eksperimenter. For alle de viste data er Mendels hypotese, at sandsynligheden for en recessiv er $\frac{1}{4}.$

$\begin{array}{lcccc} \hline \text{Egenskab} & \text{Recessiv} & \text{Dominant} & \text{Total} & P\text{-værdi}\\ \hline \text{Frøform} & 1850 & 5474 & 7324 & \\ \text{Kimbladsfarve} & 2001 & 6022 & 8023 & \\ \text{Frøskalsfarve} & 224 & 705 & 929 & 0.54 \\ \text{Bælgform} & 299 & 882 & 1181 & 0.81 \\ \text{Bælgfarve} & 152 & 428 & 580 & \\ \text{Bloomsterfordeling} & 207 & 651 & 858 & 0.58 \\ \text{Plantehøjde} & 277 & 787 & 1064 & 0.46 \\ \hline \end{array}$

Betragt binomialmodellen for hver række i tabellen, og find de manglende $p$ -værdier for test af hypotesen, at sandsynligheden for recessiv er $\frac{1}{4}.$ Hvor mange af de syv $p$ -værdier er under 0.5 ?

Hvis alle hypoteser er sande, forventer vi, at $p$ -værdien cirka halvdelen af gangene vil være under 0.5 og halvdelen af gangene være over 0.5. Mendels eksperimenter har været kritiseret for, at $p$ -værdierne generelt er for høje. I kan finde en diskussion af dette i artiklen Are Mendel's Data Reliable?.

Opgave 2.3: Konfidensinterval i binomialmodellen

Betragt data fra spørgsmål (b) i Opgave 2.2.

Opstil en statistisk model for data, og lav et 95%-konfidensinterval for sandsynligheden for, at et jordskælv falder i den opadgående tidevandsfase (benyt eventuelt R-koden i Eksempel 2.2.3).

Opgave 2.4: Konfidensinterval i poissonmodellen

Antallet af jordskælv i et bestemt område og med en styrke i et givet interval beskrives ofte med en poissonfordeling. Et eksempel er artiklen A Poisson model for earthquake frequency uncertainties in seismic hazard analysis. I artiklen betragtes blandt andet jordskælv i New Zealand. Information om disse kan findes på nettet under adressen info.geonet.org.nz. Data i tabellen nedenfor viser antallet for tre styrkeintervaller og for perioden 1930-2015. Styrken er på Richterskalaen, som er en logaritmisk skala. Hvis styrken stiger med 1, stiger den samlede energi i jordskælvet med $10^{3/2}=31.6.$ Gutenberg-Richter loven for jordskælv angiver forholdet mellem antallet af jordskælv af forskellig styrke. I tabellen er dette forhold angivet for de tre styrkeintervaller (med "b-value" i Gutenberg-Richter loven sat til 1).

$\begin{array}{ccc}\hline \text{Styrkeinterval} & \text{Antal} & \text{Forhold} \\ \hline \text{6.0-6.3} & 72 & 1 \\ \text{6.3-6.6} & 41 & 1/2 \\ \text{6.6-6.9} & 25 & 1/4 \\ \hline \end{array}$

Betragt styrkeintervallet 6.0-6.3. Opskriv poissonmodellen for data, idet raten i poissonmodellen er det forventede antal jorkskælv per år for det betragtede styrkeinterval. Lav et 95%-konfidensinterval for raten (benyt eventuelt R-koden i Eksempel 2.5.4).
Betragt styrkeintervallet 6.3-6.6. Hvis Gutenberg-Richter loven holder, er det ifølge tabellen ovenfor relevant at skrive raten per år som $\frac{1}{2}\lambda,$ hvor $\lambda$ så tolkes som raten per år for styrkeintervallet 6.0-6.3. Lav et 95%-konfidensinterval for $\lambda$ baseret på data i styrkeintervallet 6.3-6.6.
Hvad er din umiddelbare vurdering: er der samme værdi af raten $\lambda$ her som i det foregående spørgsmål ?
Hvis vi tror på Gutenberg-Richter loven, kan vi kombinere data for alle tre styrkeintervaller i tabellen ovenfor for at lave et fælles konfidensinterval for raten $\lambda$ per år i styrkeintervallet 6.0-6.3. Det samlede antal jordskælv er $72+41+25=138,$ og raten per år er $(1+\frac{1}{2}+\frac{1}{4})\lambda.$ Opskriv poissonmodellen for det samlede antal jordskælv, og lav et 95%-konfidensinterval for $\lambda.$

Opgave 2.5: Fortolkning af konfidensinterval

Denne opgave går ud på at eftervise fortolkningen af et konfidensinterval for poissonfordelte data ved hjælp af simulationer. For at løse opgaven skal I bruge koden i kodevinduet nedenfor. I R kan man simulere observationer fra en poissonfordeling med kommandoen rpois, Således vil kommandoen rpois(10,3) give 10 observationer fra en poissonfordeling med rate (middelværdi) lig med 3.

Til hjælp i opgaven er der i kodevinduet nedenfor angivet en kode, der simulerer observationer fra en $\text{pois}(t\lambda)$ -fordeling, og for hver simuleret værdi beregner det tilhørende 95%-konfidensinterval. I beregningen bruges funktionen mean, som beregner gennemsnit af data i en vektor.

Først følger en række spørgsmål til forståelse af koden.

Hvilken poissonfordeling simuleres der fra i kodevinduet ?
Hvor mange observationer bliver der simuleret ?
Hvad beregnes i lower ?
Hvad repræsenterer den sidste værdi der udskrives ?
Prøv at køre koden et par gange og se variationen i resultatet.

Nu følger en række spørgsmål til belysning af et konfidensinterval.

Simuler for $t$ lig med henholdsvis $5,$ $20,$ $80$ og $320$ en enkelt værdi (nSim sættes til 1) fra en poissonfordeling med middelværdi $t\lambda$ med raten $\lambda=1.$
Lav en tabel med fem søjler med henholdsvis værdien af $t,$ den simulerede værdi fra poissonfordelingen, nedre og øvre grænse i konfidensintervallet og længden af konfidensintervallet. Tabellen har fire rækker svarende til de fire værdier af $t.$
Kan du formulere en grov regel for, hvad der sker med længden af konfidensintervallet, når tælletiden $t$ firedobles ?
Betragt igen de fire tilfælde med $t=5,20,80,320$ og $\lambda=1.$ Benyt for hver værdi af $t$ koden ovenfor med nSim=100000.
Lav en tabel med tre søjler med henholdsvis værdien af $t,$ andel af de simulerede konfidensintervaller der indeholder den sande værdi af $\lambda,$ og middellængden af de nSim konfidensintervaller. Tabellen har fire rækker svarende til de fire værdier af $t.$
Kan du genfinde din grove regel fra foregående spørgsmål, når du kigger på middellængden af konfidensintervallerne ?
I din tabel vil du se, at andelen af intervaller indeholdende den sande værdi af parameteren næsten ikke afhænger af $t.$ Kan du forklare, hvorfor dette er tilfældet ?

Opgave 2.6: Afleveringsopgave

Ved restaurering og vedligehold af vandløb i bymæssige omgivelser vil man gerne have viden om, hvor stabilt det opbyggede system er. For eksempel kan man lave en bund af store sten et sted, hvor vandløbet har et fald, og vil så gerne vide, om stenene bliver liggende eller flytter sig i perioder med stor vandføring. Dette kan man gøre ved at mærke nogle sten. Et sådant studie er beskrevet i Assessing the performance of in-stream restoration projects using radio frequncy identification (RFID) transponders. I artiklen foregår mærkningen ved, at der bores hul i stenen, og en sender indsættes i hullet. På denne måde kan man individuelt mærke sten. I artiklen omtales et eksperiment vedrørende restaurering af Wilket Creek, som er et sideløb til Don River i Toronto. I efteråret 2013 er der lagt mærkede sten ud to steder, henholdsvis det restaurerede område og et kontrolområde uden restaurering. I foråret 2014 har man fundet, hvor mange af de mærkede sten der har flyttet sig. Eksperimentet er gentaget henover august måned 2014. Resultaterne fremgår af tabellen nedenfor. I den første periode har vandstanden en enkelt gang været oppe på det maksimale niveau, som restaureringen er designet til.

$\begin{array}{cccccc}\hline \text{Prøvenummer} & \text{Periode} & \text{Område} & \text{Flyttet} & \text{Ikke-Flyttet} & \text{Total} \\ \hline 1 & 1 & \text{Restaureret} & 56 & 204 & 260 \\ 2 & 1 & \text{Kontrol} & 71 & 56 & 127 \\ 3 & 2 & \text{Restaureret} & 32 & 221 & 253 \\ 4 & 2 & \text{Kontrol} & 28 & 94 & 122 \\ \hline \end{array}$ Vi er interesseret i at lave skøn og konfidensinterval for den andel (populationsfrekvensen) af alle stenene i vandløbet, der potentielt vil flytte sig ved store vandføringer.

Betragt data fra periode 1 og restaureringsområdet (prøvenummer 1). Angiv en statistisk model til beskrivelse af data, og beregn et 95%-konfidensinterval for andelen af sten, der flyttes.
Lav en tabel, hvor skøn og konfidensinterval for andelen af sten, der flyttes, angives for alle fire prøvenumre i ovenstående tabel.
Til sidst skal du lave en grafisk illustration af dine resultater. Lav en figur, hvor skøn over andel af sten, der flyttes, afsættes mod prøvenummer med kommandoen
plot(proevenr,skoen,ylim=c(0,1))
hvor proevenr er vektoren c(1,2,3,4), og skoen er en vektor med de fire skøn over andel af sten, der flyttes. Undersøg, hvad tilføjelsen ylim=c(0,1) betyder ved at prøve at ændre tallene 0 og 1.
Du skal slutte af med at indtegne de fundne konfidensintervaller i figuren i form af lodrette linjestykker. Der er ikke nogen oplagt funktion i R til at gøre dette, og jeg har derfor selv kodet en funktion errorbar. Se punktet Egne funktioner i R i afsnit 1.2 med hensyn til adgang til denne funktion. Når funktionen er hentet ind i R, kan du indtegne konfidensintervallerne i figuren med kommandoen
errorbar(proevenr,skoen,nedre,oevre)
hvor nedre er en vektor med nedre endepunkter for de fire konfidensintervaller og oevre en vektor med de øvre endepunkter.

Bemærkning: Konfidensintervallet i en binomialmodel kan udregens i R med kommandoen prop.test(x,n,correct="FALSE") $\text{\textdollar}$ conf.int. Prøv denne funktion med en af dine udregninger ovenfor.

Foregående Næste