Afsnit 1.10: Opgaver til kapitel 1

I opgaverne hørende til kapitel 1 skal I blive fortrolige med multinomialfordelte data og test af hypoteser om sandsynlighedsparametrene. Specielt skal I se metoden brugt til at lave goodness of fit test. Til sidst skal I sammenligne data fra flere multinomialfordelinger.

Opgave 1.1: Goodness of fit test: Uniform fordeling

I 2009 publicerede Pieter Vermeesch en lille note med den provokerende titel Lies, damned lies, and statistics (in geology). I noten betragter forfatteren 118415 jordskælv af styrke 4 eller over på Richterskalaen i perioden 1/1-1999 til 1/1-2009 (data fra earthquake.usgs.cov) og fordeler disse på ugedag. Billedet her viser, hvor jordskælv optræder.

Data kan ses i den følgende tabel og findes i filen JordskaelvDag.csv.

$\begin{array}{lccccccc} \hline \text{Data} & \text{Mandag} & \text{Tirsdag} & \text{Onsdag} & \text{Torsdag} & \text{Fredag} & \text{Lørdag} & \text{Søndag} \\ \hline \text{Observeret} & 16853&16553&16490&17399&16348&17019&17753 \\ \hline \end{array}$

Opstil multinomialmodellen for disse data, hvor sandsynlighederne for at falde i de syv kasser er vilkårlige.
Opskriv, inden for den opstillede multinomialmodel, hypotesen om ligelig fordeling på de syv ugedage. Udregn de forventede antal, og lav $G$ -testet for hypotesen. Hvad bliver konklusionen af testet ?

Den overraskende konklusion er, at jordskælvene ikke fordeler sig ligeligt på de syv ugedage. Vermeesch ser dette resultat som udtryk for en svaghed i de statistiske metoder.

Har Vermeesch ret, eller bruger han metoderne forkert ? Når vi laver goodness of fit test for en ligelig fordeling på de syv ugedage, sammenligner vi med uafhængige kast af en syvsidet terning. Som påpeget af Sornette og Pisarenko i artiklen On the correct use of statistical tests: Reply to "Lies, damned lies and statistics (in geology)", er det helt store problem mangel på uafhængighed på grund af efterskælv og klynger af små skælv. I datasættet er cirka $2/3$ af skælvene efterskælv! Et andet stort problem er, at for de små jordskælv kan data indeholde menneskeskabte hændelser, og der kan være forskel i baggrundsstøj på de syv ugedage. Sornette og Pisarenko foreslår at betragte jordskælv med en styrke over 5 på Richterskalaen for at komme ud over det sidstnævnte problem, og foretager også en rensning af disse for at fjerne efterskælv (dette kan ikke gøres fuldstændigt sikkert). Data kan ses i den følgende tabel.

$\begin{array}{lccccccc} \hline \text{Data} & \text{Mandag} & \text{Tirsdag} & \text{Onsdag} & \text{Torsdag} & \text{Fredag} & \text{Lørdag} & \text{Søndag} \\ \hline \text{Over 5} & 2374&2511&2291&2497&2153&2282&2360 \\ \text{Renset} & 780&847&793&831&785&821&779 \\ \hline \end{array}$

Lav et $G$ -test for en ligelig fordeling, både for alle jordskælv med en styrke over 5 og for delmængden, hvor efterskælv er fjernet.

Ifølge Wikipedia blev udtrykket lies, damned lies and statistics gjort kendt af Mark Twain, som skrev "There are three kinds of lies: lies, damned lies, and statistics". Mark Twain mente, at udtrykket stammede fra den britiske premierminister Benjamin Disraeli, men dette kan tilsyneladende ikke bekræftes.

Vermeesch var utilfreds med, at han fik en lav $p$ -værdi for en hypotese, der synes oplagt sand. Dette er dog en mulighed, vi må være indstillet på, jævnfør omtalen af fejl af type 1 i afsnit 8.4 i MSRR.

Opgave 1.2: Goodness of fit, poissonfordeling

Data i denne opgave tager udgangspunkt i forsøg med bakterieceller, hvor man ofte har behov for at tælle, hvor mange af disse man har i en given opløsning. Dette gøres ved at udtage en mindre del af opløsningen og tage billede af denne i et mikroskop, hvor bakterierne så kan tælles. Et eksempel på et sådant billede er vist nedenfor, hvor de små sorte områder er enkelte E. coli bakterier. De store områder i midten af billedet er hver på $50\times 50\,\mu\text{m}^2,$ og her inden for tælles antallet af bakterier. For at sikre konsistens tælles en bakteriecelle, der ligger ind over en kant, kun med hvis det er den venstre eller den øverste kant, der berøres.

I filen CelleData.txt ligger data fra optælling fra 14 sådanne billeder, hver med 16 områder. Data er indsamlet med henblik på opgaven her og stillet til rådighed af Morten Bormann Nielsen.

Indlæs de 224 kvadrattællinger med ordren nColi=scan("CelleData.txt").
Lav et antalshistogram af data med intervalendepunkter endePkt=c(4:32)-0.5 (det første interval er fra 3.5 til 4.5, svarende til at den mindste værdi i nColi er 4, og det sidste interval er fra 30.5 til 31.5, svarende til at den største værdi i nColi er 31). Indsæt titler på akserne i figuren ved at benytte xlab og ylab i kaldet til hist. Placer antallet af observationer i hvert interval i en vektor antal. Vælg et af intervallerne ud, og eftervis antallet i antal ved en direkte optælling blandt de 224 dataværdier.
Opskriv multinomialmodellen for den stokastiske antalsvektor Antal, hvor sandsynligheden for at falde i de forskellige kasser er vilkårlig.

I denne opgave skal I lave et goodness of fit test for at antallet af bakterier i et kvadrat er poissonfordelt. Lad $\lambda$ være rateparameteren i poissonfordelingen (enhed: antal per $50^2\mu\text{m}^2$ ). Da den første "kasse" i multinomialmodellen indeholder tælletal mindre end eller lig med fire, vil hypotesen om en poissonfordeling betyde at sandsynligheden for at falde i den første kasse er $\sum_{j=0}^4(\lambda^j/j!)e^{-\lambda}.$ Den anden kasse indeholder alle tælletal med værdien 5, og sandsynligheden for at falde i den anden kasse er $(\lambda^5/5!)e^{-\lambda},$ og så videre op til kasse 27. Sandsynligheden for at falde i den sidste kasse (kasse nummer 28) er 1 minus summen af sandsynlighederne for de første 27 kasser.

Som skøn over $\lambda$ bruges gennemsnittet af de 224 observationer, se Proposition 6.1.2 i MSRR.

Opskriv, inden for din multinomialmodel, hypotesen om, at antallet af bakterier i et kvadrat er poissonfordelt.
Beregn de forventede antal under hypotesen. Hertil kan du benytte koden nedenfor. I R beregnes punktsandsynligheder i poissonfordelingen med dpois(x,lambda), og sandsynligheden for en værdi mindre end eller lig med $x$ beregnes med ppois(x,lambda). Forklar, at koden giver de forventede værdier.
Indtegn de forventede antal i histogrammet fra spørgsmål (a) som en rød kurve med kommandoen lines(c(4:31),forvent,col=2), hvor forvent er vektoren med de forventede antal.
Lav $G$ -testet for hypotesen, at antal bakterier i et kvadrat er poissonfordelt. Slå kasser sammen, hvis de forventede ikke er større end 5 (slå kasser sammen fra hver sin ende, indtil det forventede antal er større end 5).
Hvad bliver konklusionen af dit goodness of fit test ? Kan du give en forklaring på resultatet ?

Forklaring

Konklusionen af ovenstående analyse er, at poissonfordelingen ikke er en særlig god beskrivelse af data. Man kan indse, at de 224 tællingerne viser større spredning, end hvad man forventer i en poissonfordeling. Fortolkningen af dette er, at bakterierne ikke er tilfældigt spredt ud over området, nogle områder har større intensitet af bakterier end andre områder (bakterierne klumper).

Opgave 1.3: Goodness of fit, normalfordeling

I menneske-maskine-interaktion betragtes blandt andet, hvordan man flytter pointeren på en computerskærm via musen. Figuren nedenfor viser en typisk opstilling, hvor en person skal flytte pointeren fra område $A$ til område $B.$

Data er simulerede baseret på informationen i figur 1 i artiklen An error model for pointing based on Fitts' Law. Der er 269 observationer målt relativt til midtpunkt af målområdet (enheden angives i figuren som "pixels"). Data ligger i filen Position.txt. Opgaven går ud på at lave et goodness of fit test for, at pointerpositionen kan beskrives med en normalfordeling.

Indlæs de 269 positioner med kommandoen scan("Position.txt"), og placer disse i variablen pointer. Lav et tæthedshistogram af data med intervalinddelingen endePkt=c((-9):8)*2+0.5. Placer antallet af observationer i hvert af de 17 intervaller i en vektor antal.
Hvis positionen af pointer skal beskrives med en normalfordeling, er det bedste valg af middelværdi $\hat\mu=0.1843,$ og det bedste valg af spredning er $\hat\sigma=4.9938.$ Indtegn normalfordelingstætheden i histogrammet med kommandoen
curve(dnorm(x,0.1843,4.9938),from=-20,to=20,add=TRUE)
Opskriv multinomialmodellen for den stokastike vektor Antal, hvor sandsynlighederne for at falde i de forskellige intervaller er vilkårlige.
Opskriv dernæst hypotesen, at sandsynlighederne for at falde i de 17 intervaller er givet ved sandsynlighederne for intervallerne i en normalfordeling med middelværdi $\mu$ og spredning $\sigma.$ Husk at i denne sammenhæng skal det første interval opfattes som intervallet fra minus uendelig til -15.5, og det sidste interval skal opfattes som intervallet fra 14.5 til uendelig.
Beregn de forventede antal under hypotesen. Hertil kan du benytte koden nedenfor. I R beregnes sandsynligheden for en værdi mindre end eller lig med $x$ i en normalfordeling med kommandoen pnorm(x, $\mu$ , $\sigma$ ). Forklar, at koden giver de forventede værdier.
Lav $G$ -testet for hypotesen, at pointerpositionenen er normalfordelt. Kan disse data beskrives med en normalfordeling ?

Opgave 1.4: Homogenitetstest

I bogen Human-Computer Interaction: An Empirical Research Perspective omtales kort et eksperiment, hvor kvinder og mænd observeres for at vurdere deres måde at scrolle i en tekst. Hver person klassificeres efter, om vedkommende bruger enten rullehjulet på musen til at scrolle i en tekst, bruger rullepanel på skærmen eller bruger tastaturtasterne. Der er 65 kvinder og 43 mænd i undersøgelsen. Fordelingen på de tre metoder for henholdsvis kvinder og mænd kan ses i tabellen nedenfor.

$\begin{array}{lcccc } \hline \text{Køn} & \text{Rullehjul} & \text{Rullepanel} & \text{Tastatur} & \text{Total} \\ \hline \text{Kvinder} & 37 & 16 & 12 & 65 \\ \text{Mænd} & 20 & 16 & 7 & 43 \\ \hline \end{array}$ Vi ønsker med data at se, om der er kønsspecifikke måder at arbejde med computeren på.

Opstil den statistiske model, hvor tælletallene for hvert køn følger sin egen multinomialfordeling. Angiv inden for den opstillede model hypotesen, at der er samme sandsynlighedsvektor for kategorierne (Rullehjul, Rullepanel, Tastatur) for de to køn.
Undersøg, om data er i overensstemmelse med hypotesen om samme sandsynlighedsvektor for kategorierne (Rullehjul, Rullepanel, Tastatur) for de to køn (benyt eventuelt R-koden fra det skjulte kodevindue i eksempel 1.6.2).

Opgave 1.5: Poissonmodel med proportionale parametre

Antallet af jordskælv i et bestemt område og med en styrke i et givet interval beskrives ofte med en poissonfordeling. Et eksempel er artiklen A Poisson model for earthquake frequency uncertainties in seismic hazard analysis. I artiklen betragtes blandt andet jordskælv i New Zealand. Information om disse kan findes på nettet under adressen info.geonet.org.nz. Data i tabellen nedenfor viser antallet for tre styrkeintervaller og for perioden 1930-2015. Styrken er på Richterskalaen, som er en logaritmisk skala. Hvis styrken stiger med 1, stiger den samlede energi i jordskælvet med $10^{3/2}=31.6.$ Gutenberg-Richter loven for jordskælv angiver forholdet mellem antallet af jordskælv af forskellig styrke. I tabellen er dette forhold angivet for de tre styrkeintervaller (med "b-value" i Gutenberg-Richter loven sat til 1).

$\begin{array}{ccc}\hline \text{Styrkeinterval} & \text{Antal} & \text{Forhold} \\ \hline \text{6.0-6.3} & 72 & 1 \\ \text{6.3-6.6} & 41 & 1/2 \\ \text{6.6-6.9} & 25 & 1/4 \\ \hline \end{array}$ I opgaven her skal I kun betragte de to første styrkeintervaller, 6.0-6.3 og 6.3-6.6. Idet vi vil bruge data til at vurdere holdbarheden af Gutenberg-Richter loven, skrives raterne i de to intervaller som $86\lambda_1$ og $0.5\cdot 86\lambda_2,$ eftersom en beregning viser, at under Gutenberg-Richter loven (med "b-value" lig med 1) er raten i det andet styrkeinterval halvt så stor som raten i det første styrkeinterval. Enheden på $\lambda$ er antal forventede jordskælv per år. Gutenberg-Richter loven svarer således til hypotesen $\lambda_1=\lambda_2.$

Lad os formulere situationen generelt gennem modellen

$Y_1\sim\text{pois}(t_1\lambda_1),\quad Y_2\sim\text{pois}(t_2\lambda_2),\quad t_1=86,\enspace t_2=0.5\cdot 86,$ hvor $Y_1$ og $Y_2$ er de stokastiske tælletal svarende til de to styrkeintervaller.

For at teste hypotesen $\lambda_1=\lambda_2$ kan man benytte følgende teoretiske resultat. Hvis vi forestiller os, at $Y_1+Y_2$ er fast (vi "betinger" med summen), så vil $Y_1$ være binomialfordelt:

$\big(Y_1\enspace\text{givet at}\enspace Y_1+Y_2=n\big)\sim \text{binom}\big(n,p \big), \quad p=\frac{t_1\lambda_1}{t_1\lambda_1+t_2\lambda_2}. \tag{1.10.1}$ Hvis $\lambda_1=\lambda_2$ bliver $p=t_1\big/(t_1+t_2).$ Et test for hypotesen $\lambda_1=\lambda_2$ kan derfor laves som et test i binomialfordelingen for hypotesen, at sandsynlighedsparameteren $p$ har værdien $p=t_1\big/(t_1+t_2).$ I vores tilfælde bliver dette hypotesen, at $p=2/3.$

Find $p$ -værdien for et test af hypotesen $\lambda_1=\lambda_2$ , for data i de to første rækker af tabellen ovenfor, ved at teste $p=2/3$ i modellen (1.10.1). Hvad bliver konklusionen af dette test ?

Bemærkning: $\enspace$ Hvis data strider mod hypotesen $\lambda_1=\lambda_2,$ vil vi være interesseret i at indføre en parameter $\theta,$ således at $\lambda_2=\theta\lambda_1.$ Parameteren $\theta$ angiver, hvor mange gange større $\lambda_2$ er i forhold til $\lambda_1.$ Hvis vi lader $p=t_1\big/(t_1+\theta t_2),$ kan vi løse for $\theta,$ og får $\theta=(1-p)t_1\big/(pt_2).$ Konfidensinterval for sandsynlighedsparameteren $p$ i binomialmodellen (1.10.1) kan derfor oversættes til et konfidensinterval for forholdet $\theta.$

Hvis denne metode benyttes på data i første og tredje styrkeinterval i tabellen ovenfor, får vi intervallet $[0.65,\,0.82]$ for 95%-konfidensintervallet af sandsynlighedsparameteren $p.$ Oversat til forholdet $\theta$ mellem rateparametrene i de to styrkeintervaller giver dette intervallet $[0.22,\,0.55].$ Dette interval indeholder værdien $\frac{1}{4},$ som svarer til Gutenberg-Richter loven.

Opgave 1.6: Ændring i stormmønster

DMI vedligeholder en side med alle storme i Danmark fra 1891 og fremefter. Stormene kalssificeres i fire styrkekategorier ud fra vindstyrken. I nedenstående tabel har jeg optalt antallet af storme i de forskellige kategorier for fire 30-års perioder.

$\begin{array}{lccc } \hline \text{Periode} & \text{Stormstyrke 1} & \text{Stormstyrke 2} & \text{Stormstyrke 3 og 4} \\ \hline \text{1891-1920} & 39 & 16 & 4 \\ \text{1921-1950} & 21 & 8 & 8 \\ \text{1951-1980} & 14 & 12 & 5 \\ \text{1981-2010} & 18 & 12 & 10 \\ \hline \end{array}$

Opstil den statistiske model, hvor antallet af storme for hver periode følger sin egen multinomialfordeling på de tre kategorier 1, 2 og 3+4. Angiv inden for den opstillede model hypotesen, at der er samme sandsynlighedsvektor for de tre styrkekategorier 1, 2 og 3+4 for de fire tidsperioder.
Undersøg, om data er i overensstemmelse med hypotesen om samme sandsynlighedsvektor for kategorierne 1, 2 og 3+4 for de fire tidsperioder.

For storme i Danmark finder I således ikke en ændring i fordeling på styrkekategori. Den næste tabel viser fordelingen af hurricanes fra verdenshavene på styrkekategorierne 1-3 og 4-5. Der er data fra to tidsperioder: 1975-1989 og 1990-2004. Data er fra artiklen Changes in Tropical Cyclone Number, Duration, and Intensity in a Warming Environment.

$\begin{array}{lcc } \hline \text{Periode} & \text{Hurricanes 1-3} & \text{Hurricanes 4-5} \\ \hline \text{1975-1989} & 617 & 171 \\ \text{1990-2004} & 508 & 269 \\ \hline \end{array}$

Undersøg om fordelingen af hurricanes på de to styrkekategorier er den samme for de to tidsperioder.

For hurricanes ser det således ud til, at der er sket en ændring. I det sidste spørgsmål i denne opgave skal du se på, om ændringen er den samme i de forskellige verdenshave. Den næste tabel viser fordelingen af de største hurricanes (kategori 4-5) på fem verdenshave for de to tidsperioder.

$\begin{array}{lcc } \hline \text{Verdenshav} & \text{1975-1989} & \text{1990-2004} \\ \hline \text{East Pacific Ocean} & 36 & 49 \\ \text{West Pacific Ocean} & 85 & 116 \\ \text{North Atlantic} & 16 & 25 \\ \text{Southwestern Pacific} & 10 & 22 \\ \text{Indian} & 24 & 57 \\ \hline \end{array}$

Opstil model for data, og undersøg, om fordeling på de fem verdenshave er den samme i de to perioder.

Opgave 1.7: Uafhængighedstest

I opgave 10.5 i MSRR benyttes et datasæt fra artiklen Corporate Social Responsibility and Workers’ Well-being in Nigerian Banks. Forfatterne har spurgt 137 personer, der arbejder i banksektoren, om de bruger de sundhedsmuligheder banken stiller til rådighed og om sundhedstilbuddene er tilstrækkelige. Data er i følgende tabel

$\begin{array}{lcc } \hline \text{Tilbud tilstrækkelige} & \text{Ja} & \text{Nej} \\ \hline \text{Bruger muligheder: Ja} & 97 & 8 \\ \text{Bruger muligheder: Nej} & 26 & 6 \\ \hline \end{array}$

Opstil en model for data i tabellen. Opstil dernæst en hypotese om sammenhængen mellem de to inddelingskriterier.
Lav både $G$ -testet for den opstillede hypotese, såvel som permutationstetet og Fishers eksakte test. Kommenter på resultaterne.

Opgave 1.8: Betingning i poissonmodel

Lad $X_i\sim\text{pois}(\lambda_i)$ , $i=1,\ldots,k,$ være uafhængige stokastiske variable.

Angiv fordelingen af $N=X_1+X_2+\cdots+X_k$ .
Find den betingede sandsynlighed $P(X_1=x_1,\ldots,X_k=x_k| N=n).$ Angiv i ord den betingede fordeling af $(X_1,\ldots,X_k)$ givet at $N=n.$

Opgave 1.9: Simulere styrke

I denne opgave skal I finde styrken af et test ved simulering. I skal betragte modellen $X_1\sim\text{binom}(n_1,p_1)$ , $X_2\sim\text{binom}(n_2,p_2),$ uafhængige, og test af hypotesen $p_1=p_2.$ Styrken skal beregnes i tilfældet, hvor vi forkaster hypotesen, når $p$ -værdien fra Resultat 1.6.1 er mindre end 0.05. I kodevinduet nedenfor er vist det meste af den nødvendige kode.

Indsæt de manglende argumenter i de to kald til rbinom. Henvis til formel i webbogen med hensyn til beregningen af likelihood ratio teststørrelsen qTest og indsæt den manglende kode for gTest. Indsæt den manglende kode i sum i den sidste linje for at beregne den simulerede styrke.
Benyt koden til at finde ud af, hvor stor $n_1=n_2$ skal være, for at styrken er mindst 0.80 i tilfældet, hvor $p_1=0.4$ og $p_2=0.5.$

Foregående Næste