Afsnit 3.9: Øvelse 2

I denne uges øvelse skal I blive fortrolige med multinomialfordelte data og test af hypoteser om sandsynlighedsparametrene. Specielt skal I se metoden brugt til at lave goodness of fit test. Til sidst skal I sammenligne data fra flere multinomialfordelinger.

Opgave 2.1: Teste uniform fordeling

I et eksperiment er der dannet CdSe nanostrukturer på en overflade belagt med guld. Nanostrukturerne er delt op i tre kategorier nanosaws, nanowires og nanobelts. Efter dannelsen kategoriseres 180 strukturer ud fra et scanning elektronmikroskopi-billede. Resultatet fremgår af følgende tabel (data fra Statistical Modeling and Analysis for Robust Synthesis of Nanostructures).
nanosawsnanowiresnanobeltsTotalAntal strukturer774756180 \begin{array}{lcccc} \hline & \text{nanosaws} & \text{nanowires} & \text{nanobelts} & \text{Total} \\ \hline \text{Antal strukturer} & 77 & 47 & 56 & 180 \\ \hline \end{array}
  1. Opstil en statistisk model for data, og angiv med modellen parametre hypotesen, at der er samme sandsynlighed for dannelsen af de tre forskellige nanostrukturer.
  2. Lav et test for hypotesen om samme sandsynlighed for dannelsen af de tre strukturer.

Opgave 2.2: G-test med en parameter

Denne opgave vedrører det samme eksperiment som i opgave 1.7. I stedet for at se på hvor mange molekyler der kommer i et tidsrum, ser vi på tiden, der går mellem to ankomster. Blandt 234 ventetider er der 87, der ligger mellem 0 og 1 sekund, 72 mellem 1 og 2 sekunder, 33 mellem 2 og 3 sekunder, 21 mellem 3 og 4 sekunder og 21, der er over 4 sekunder (disse data er en grov aflæsning fra figur 3 i artikel, der henvises til i opgave 1.7).
Kassenummer12345Interval011223344Observerede antal8772332121 \begin{array}{lccc cc}\hline \text{Kassenummer} & 1 & 2 & 3 & 4 & 5 \\ \text{Interval} & 0-1 & 1-2 & 2-3 & 3-4 & 4- \\ \text{Observerede antal} & 87 & 72 & 33 & 21 & 21 \\ \hline \end{array}
Hvis molekylerne kommer tilfældigt i tid, forventer vi, at ventetiden mellem 2 molekyler følger en såkaldt eksponentialfordeling. Dette har som konsekvens, at sandsynlighederne for, at en ventetid falder i et af intervallerne brugt ovenfor, kan skrives på samme form som i eksempel 3.2.1. Fortolkningen er som følger. Hvis θ\theta er sandsynligheden for en ankomst i et tidsinterval af længde 1 sekund, kan for eksempel sandsynligheden for en ventetid mellem 3 og 4 sekunder skrives som (1θ)3θ.(1-\theta)^3\theta. Dette skal tolkes som sandsynligheden for ingen ankomst i 0-1, ganget med sandsynligheden for ingen ankomst i 1-2, ganget med sandsynligheden for ingen ankomst i 2-3, og ganget med sandsynlighed for ankomst i intervallet 3-4.
Hvis et skøn over θ\theta findes som beskrevet i afsnit 3.3, baseret på antallene i ovenstående tabel, får man θ^=0.4277.\hat\theta=0.4277.
  1. Opstil en statistisk model for data, og angiv med modellens parametre hypotesen om tilfældig ankomst som beskrevet ovenfor.
  2. Lav et test for hypotesen om tilfældig ankomst (angiv resultat i bogen, der bruges til testet, angiv om betingelse for at bruge GG-test er opfyldt, og forklar antallet af frihedsgrader i den χ2\chi^2-fordeling der bruges).

Opgave 2.3: Goodness of fit, poissonfordeling

Data i denne opgave tager udgangspunkt i forsøg med bakterieceller, hvor man ofte har behov for at tælle, hvor mange af disse man har i en given opløsning. Dette gøres ved at udtage en mindre del af opløsningen og tage billede af denne i et mikroskop, hvor bakterierne så kan tælles. Et eksempel på et sådant billede er vist nedenfor, hvor de små sorte områder er enkelte E. coli bakterier. De store områder i midten af billedet er hver på 50×50μm2,50\times 50\,\mu\text{m}^2, og her inden for tælles antallet af bakterier. For at sikre konsistens tælles en bakteriecelle, der ligger ind over en kant, kun med hvis det er den venstre eller den øverste kant, der berøres.
I filen CelleData.txt ligger data fra optælling fra 14 sådanne billeder, hver med 16 områder. Data er indsamlet med henblik på opgaven her og stillet til rådighed af Morten Bormann Nielsen.
  1. Læs de 224 kvadrattællinger ind i en vektor nColi (se indlæsningskommandoer i afsnit 1.6).
    Lav et antalshistogram af data med intervalendepunkter givet ved vektoren
    endePkt=np.array([0,9,11,13,15,17,19,21,23,32])-0.5
    Indsæt titler på akserne i figuren.
    Beregn antallene (a1,a2,a9)(a_1,a_2\ldots,a_{9}) af observationer i de 9 intervaller med endepunkter i endePkt (svaret er gengivet i tabel nedenfor).
  2. Opstil en statistisk model for de stokastiske variable (A1,,A9)(A_1,\ldots,A_{9}) svarende til observerede antal (a1,,a9).(a_1,\ldots,a_{9}).
  3. Det antages ofte, at tælletal af typen i denne opgave er poissonfordelte (tælletallene her er de 224 tal svarende til antallet af bakterier i de 224 kvadrater). Opskriv, i modellen fra foregående spørgsmål, hypotesen om, at de underliggende 224 tælletal er udfald fra en poissonfordeling med parameter λ.\lambda.
  4. Hvis et skøn over λ\lambda findes som beskrevet i afsnit 3.3, baseret på antallene (a1,,a9),(a_1,\ldots,a_{9}), får man λ^=14.799\hat\lambda=14.799 De forventede værdier i de 9 kasser (intervaller) kan ses i følgende tabel.
    Kassenummer12345Interval08910111213141516Observerede antal3017392731Forventede antal9.3119.4934.9545.2044.11Kassenummer6789Interval17181920212223Observerede antal22201919Forventede antal33.6220.5610.316.46 \begin{array}{lccc cc}\hline \text{Kassenummer} & 1 & 2 & 3 & 4 & 5 \\ \text{Interval} & 0-8 & 9-10 & 11-12 & 13-14 & 15-16 \\ \text{Observerede antal} & 30 & 17 & 39 & 27 & 31 \\ \text{Forventede antal} & 9.31 & 19.49 & 34.95 & 45.20 & 44.11 \\ \hline &&&&& \\ \hline \text{Kassenummer} & 6 & 7 & 8 & 9 &\\ \text{Interval} & 17-18 & 19-20 & 21-22 & 23- & \\ \text{Observerede antal} & 22 & 20 & 19 & 19 &\\ \text{Forventede antal} & 33.62 & 20.56 & 10.31 & 6.46 & \\ \hline \end{array}
    Beregn det forventede antal i kasse 6 med fire decimaler.
    Udfør GG-testet for hypotesen om, at tælletallene kan beskrives med en poissonfordeling (hypotesen om, at antal bakterier i et kvadrat er poissonfordelt).
  5. Hvad bliver konklusionen af dit goodness of fit test? Kan du komme med en formodning om, hvad der ligger bag ved resultatet?

Forklaring

Konklusionen af ovenstående analyse er, at poissonfordelingen ikke er en særlig god beskrivelse af data. Man kan indse, at de 224 tællingerne viser større spredning, end hvad man forventer i en poissonfordeling. Fortolkningen af dette er, at bakterierne ikke er tilfældigt spredt ud over området, nogle områder har større intensitet af bakterier end andre områder (bakterierne klumper).

Opgave 2.4: Homogenitetstest: dambrug

I dambrug kan vandet indeholde smags- og duftforbindelser (taste and odor compound: TOC), der optages i fisken og nedsætter dens værdi. Det er omkostningsfyldt at analysere en fisk både ved en kemisk analyse og ved sensorisk måling (vurdering af et smagspanel). Omvendt er det nemmere at analysere vandet i dambruget, og det er derfor af interesse, om der er en klar forbindelse mellem indholdet af TOC i vandet og fiskens tilstand. Tabellen nedenfor viser resultatet af en sensorisk analyse for fisk fra dambrug med forskelligt indhold af geosmin (organisk forbindelse med en jordlugt) i vandet. Smagspanelet vurderer fisken på en såkaldt muddy-skala, og i tabellen er angivet antallet af fisk under og over 3 på denne skala. Der er undersøgt 50 fisk fra dambrug med et lavt indhold af geosmin (<10ng/L<10\,\text{ng/L}), 74 fisk fra dambrug med et middelindhold af geosmin (1020ng/L10-20\,\text{ng/L}), og 25 fisk med et højt indhold af geosmin (>20ng/L>20\,\text{ng/L}). Data stammer fra Chemical and sensory quantification of geosmin and 2-methylisoborneol in Rainbow Trout (Oncorhynchus mykiss) from Recirculated Aquacultures in Relation to Concentrations in Basin Water..
DambrugUnderOverTotalLav41950Middel482674Høj12425 \begin{array}{lccc} \\ \hline \text{Dambrug} & \text{Under} & \text{Over} & \text{Total} \\ \hline \text{Lav} & 41 & 9 & 50 \\ \text{Middel} & 48 & 26 & 74 \\ \text{Høj} & 1 & 24 & 25 \\ \hline \end{array}
Her er først en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse.
  1. Homogenitetshypotesen er ikke relevant her, da der kun er to søjler (to kategorier for opdeling af data).
  2. For at vurdere om vi har tiltro til homogenitetshypotesen bruges Resultat 3.7.1.
  3. Homogenitetshypotesen er ikke relevant her, da der er flere end 2 rækker i tabellen.
  4. Hvis der er 2 forventede værdier under 5 bruger vi ikke GG-testet.
Her følger nu spørgsmål til en analyse af data.
  1. Opstil en statistisk model for tælletallene fra de tre grupper af dambrug.
  2. Angiv, inden for den opstillede model, hypotesen at der er samme fordeling på kategorierne Under og Over for de tre grupper af dambrug.
  3. Undersøg, om data er i overensstemmelse med hypotesen formuleret i foregående spørgsmål.
  4. Beregn også den alternative teststørrelse C=((observeretforventet)2/forventet.C=\sum ((\text{observeret}-\text{forventet})^2/\text{forventet}. Bliver pp-værdien fra denne teststørrelse større eller mindre end pp-værdien fra foregående spørgsmål?

Opgave 2.5: Uniform fordeling af p-værdier

I afsnit 1.3 er det nævnt, at selvom en hypotese er sand, så vil vi i cirka 5 procent af tilfældene få en pp-værdi mindre end eller lig med 0.05. Mere generelt gælder der, at når hypotesen er sand, så vil pp-værdien, betragtet som stokastisk variabel, approksimativt fordele sig uniformt over intervallet fra 0 til 1. Dette skal I grafisk se på i denne opgave baseret på simulerede data. I kodevinduet nedenfor simuleres nSim pp-værdier i en binomialmodel, og der laves et tæthedshistogram med inddeling i intervallerne 0.000.050.00-0.05, 0.050.10.05-0.1, 0.10.20.1-0.2, 0.20.5,0.2-0.5, og 0.51.0.5-1. Hvis pp-værdierne fordeler sig uniformt, vil højden af kasserne i tæthedshistogrammet ligge omkring 1.
  1. Hvilken binomialfordeling simuleres der fra? Hvilken hypotese testes?
  2. Kør koden nogle gange. Er resultaterne som forventet, specielt for intervallet 0.000.050.00-0.05?
  3. Ændr nu det simulerede antal fra 1000 til 100000, og kør koden nogle gange.
  4. Ændr dernæst n=33n=33 til n=330n=330. Kommenter på figuren.
  5. Ændr pHyp=0.7 til pHyp=0.5, og kør først tilfældet med n=33n=33 og dernæst n=330.n=330.
    Sandsynligheden for at få en pp-værdi under 0.05, når hypotesen der testes ikke er sand, kaldes styrken af testet. Højden af kassen i histogrammet i intervallet 0.000.050.00-0.05 afspejler styrken, når der testes p=0.5p=0.5, og den sande værdi af pp er 0.70.

Opgave 2.6: Sammenligne to poissonrater

Et laboratorie er inddelt i to grupper af medarbejdere. I den første gruppe er der 12 medarbejdere og i anden gruppe er der 8 medarbejdere. I løbet af et år er der 39 pipetteglas der er gået i stykker i gruppe 1 og 18 i gruppe 2.
Gruppe 1Gruppe 2TotalAntal medarbejdere12820Antal pipetteglas391857 \begin{array}{lccc} \hline & \text{Gruppe 1} & \text{Gruppe 2} & \text{Total} \\ \hline \text{Antal medarbejdere} & 12 & 8 & 20 \\ \text{Antal pipetteglas} & 39 & 18 & 57 \\ \hline \end{array}
  1. Opstil en poissonmodel til beskrivelse af eksperimentet, hvor rateparametrene λ1\lambda_1 og λ2\lambda_2 for de to grupper angiver det forventede antal (i et år) per medarbejder.
  2. Opskriv hypotesen, at der ikke er forskel mellem de to grupper.
  3. Lav et test for hypotesen, at der er samme rate i de to grupper (se Resultat 3.8.1).
    Hvad bliver konklusionen af dette test?

Opgave 2.7: Homogenitetstest: opdage lungekræft

Ved at analysere indhold af forskellige duftmolekyler i en persons udåndingsluft kan man muligvis påvise forskellige sygdomme. I artiklen Determination of volatile organic compounds as potential markers of lung cancer by gas chromatography–mass spectrometry versus trained dogs bruges en gaskoromotograf og et massespektrometer til at analyse inholdet af duftmolekylerne. I ovenstående artikel sammenlignes detekteringen af lungekræft ud fra indholdet af duftmolekyler med en optrænet hunds evne til at reagere på udåndingsluften fra en person. Ud af 107 personer med lungekræft reagerer hunden ved 95 prøver, og ud af 121 raske personer reagerer hunden ikke ved 97 prøver. Data er vist i den følgende tabel.
Korrekt reaktionForkert reaktionTotalLungekraft9512107Raske9724121Samlet19236228 \begin{array}{lccc} \hline & \text{Korrekt reaktion} &\text{Forkert reaktion} & \text{Total} \\ \hline \text{Lungekraft} & 95 & 12 & 107 \\ \text{Raske} & 97 & 24 & 121 \\ \hline \text{Samlet} & 192 & 36 & 228 \\ \hline \end{array}
Her er først en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse.
  1. P-værdien kan ikke beregnes, da den ene af de forventede værdier er over 5.
  2. Hvis GG-værdien for test af homogenitet er over 1, har vi tiltro til hypotesen.
  3. Frihedsgradsantallet for den approksimative χ2\chi^2-fordeling for GG-teststørrelsen for test af homogenitet er 2+212+2-1.
  4. Hvis GG-værdien for test af homogenitet er under 1, har vi tiltro til hypotesen.
Her følger nu spørgsmål til en analyse af data.
  1. Opstil en statistisk model for tælletallene fra de to grupper af personer (husk, at angive det "Statistisk Model" nummer der bruges).
  2. Undersøg, om data er i overensstemmelse med hypotesen om samme sandsynlighed, for at hunden reagerer korrekt i de to gruppper af personer.
  3. Anvend nu data fra rækken "Samlet" i ovenstående tabel, og lav et 95%-konfidensinterval for sandsynligheden for, at hunden reagerer korrekt.

Opgave 2.8: Afleveringsopgave 1

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering1.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.
I et eksperiment dannes der enten nanosaws eller nanowires på en overflade belagt med guld. Ud af 180 nanostrukturer der er undersøgt på overfladen er de 74 nanosaws og de resterende er nanowires (data fra Statistical Modeling and Analysis for Robust Synthesis of Nanostructures).
Her er først en multiple choice opgave. Nedenfor er der 1 eller 2 korrekte svar. Find disse. Du skal også indskrive svaret i filen svarAflevering1.txt under "multiple choice" del
  1. De 74 nanosaws er tilfældigt fordelt på guldoverfladen, og er derfor et udfald fra en poissonfordeling.
  2. Hver af de 180 undersøgte strukturer kan enten være nanosaws eller nanowires, og de 74 nanosaws er derfor et udfald fra en binomialfordeling.
  3. For at undersøge hypotesen at der er lige stor sandsynlighed for at få en nanosaw som en nanowire, bruges resultat 3.7.1
  4. Da 74 er mindre end 12180=90\frac{1}{2}\cdot 180=90, forkastes hypotesen, at sandsynligheden for en nanosaw er 12\frac{1}{2}.
  5. Hvis pp-værdien er mindre end 0.050.05, for et test af hypotesen at sandsynligheden for en nanosaw er 12\frac{1}{2}, forkastes hypotesen.
Her følger nu spørgsmål til en analyse af data.
  1. Opstil en statistisk model til beskrivelse af observationen 74 nanosaws. Overfør bogens Statistisk Model nummer til svarAflevering1.txt.
  2. Undersøg, om data er i overensstemmelse med hypotesen, at sandsynligheden for en nanosaw er 12.\frac{1}{2}. Overfør pp-værdien fra dit test, med fire decimaler, til svarAflevering1.txt.
  3. Lav et 95%-konfidensinterval for sandsynligheden for en nanosaw. Overfør den øvre grænse i konfidensintervallet, med fire decimaler, til svarAflevering1.txt.

Opgave 2.9: Dosis-respons, figur

I et dosis-respons eksperiment testes effekten af et stof ved forskellige doser. For hver dosis tit_i testes nin_i individer, og der registreres, at xix_i af disse reagerer. Den relevante model er binomialmodellen (samme som multinomialmodellen med k=2k=2 kasser)
Xibinom(ni,pi),i=1,,r, X_i\sim\text{binom}(n_i,p_i),\enspace i=1,\ldots,r,
hvor rr er antallet af forskellige doser der testes.
Tabellen nedenfor viser resultatet af et eksperiment med r=4r=4 forskellige doser.
Dosis (t)Antal testede (n)Antal der reagerer (x)1.068140.560290.576471.08462 \begin{array}{ccc}\hline \text{Dosis }(t) & \text{Antal testede }(n) & \text{Antal der reagerer }(x) \\ \hline -1.0 & 68 & 14 \\ -0.5 & 60 & 29 \\ 0.5 & 76 & 47 \\ 1.0 & 84 & 62 \\ \hline \end{array}
  1. Lav for hver dosis et 95%-konfidensinterval for pi.p_i.
  2. Oversæt de fundne konfidensintervaller til konfidensintervaller for parameteren θ=log(p1p)\theta=\log\big(\frac{p}{1-p}\big) (kaldes log-odds).
  3. Lav en figur, hvor skøn θ^i\hat\theta_i afsættes mod dosis ti.t_i.
    Indsæt i figuren lodrette linjestykker, svarende til konfidensintervallet for log-odds for hver dosis.
  4. Beskriv den sammenhæng, du ser i figuren mellem log-odds og dosis.

Opgave 2.10: Dosis-respons, test

Betragt situation og data som i foregående opgave (opgave 2.9). Idet binomialmodellen er ækvivalent med multinomialmodellen med k=2k=2 kasser kan vi skrive data som
Antal der reagerer (x)Antal der ikke reagerer (nx)1454293147296222 \begin{array}{cc}\hline \text{Antal der reagerer }(x) & \text{Antal der ikke reagerer }(n-x) \\ \hline 14 & 54 \\ 29 & 31 \\ 47 & 29 \\ 62 & 22 \\ \hline \end{array}
De forventede i den logistiske dosis-responsmodel er
ei1=nieα^+β^ti1+eα^+β^tiogei2=ni11+eα^+β^ti, e_{i1}=n_i\frac{e^{\hat\alpha+\hat\beta t_i}}{1+e^{\hat\alpha+\hat\beta t_i}} \enspace\text{og}\enspace e_{i2}=n_i\frac{1}{1+e^{\hat\alpha+\hat\beta t_i}},
for i=1,2,3,4.i=1,2,3,4. Hvis man fitter den logistiske dosis-responsmodel til data, bliver skøn over de to parametre
α^=0.03532,β^=1.03691. \hat\alpha=0.03532,\quad\hat\beta=1.03691.
  1. Lav et test for at data kan beskrives med den logistiske dosis-responsmodel (se afsnit 3.8.1 for metoden).

Opgave 2.11: Konfidensinterval for andel

Betragt data fra opgave 2.1 ovenfor, hvor 180 nanostrukturer er inddelt i tre kategorier.
  1. Lav et 95%-konfidensinterval for andelen af nanowires blandt nanostrukturerne.

Opgave 2.12: Sammenhæng i poissondata

Antal jordskælv af en given styrke inden for et givet tidsrum og et givet geografisk område beskrives ofte med en poissonmodel. I tabellen nedenfor er jordskælv i New Zealand i perioden 1930-2015 (i alt 86 år) for tre styrkeintervaller på Richterskalaen.
IntervalMidtpunktAntal jorskælv6.06.36.15726.36.66.45416.66.96.7525 \begin{array}{ccc}\hline \text{Interval} & \text{Midtpunkt} & \text{Antal jorskælv} \\ \hline 6.0-6.3 & 6.15 & 72 \\ 6.3-6.6 & 6.45 & 41 \\ 6.6-6.9 & 6.75 & 25 \\ \hline \end{array}
  1. Lav for hvert styrkeinterval et 95%-konfidensinterval for raten λ\lambda af jordskælv per år.
  2. Oversæt de fundne konfidensintervaller til konfidensintervaller for logaritmen til raten per år, det vil sige parameteren θ=log(λ).\theta=\log(\lambda).
  3. Lav en figur, hvor skøn θ^i,\hat\theta_i, i=1,2,3,i=1,2,3, afsættes mod midtpunktet af styrkeintervallet.
    Indsæt i figuren lodrette linjestykker, svarende til konfidensintervallet for logaritmen til raten for hvert styrkeinterval.
  4. Beskriv den sammenhæng, du ser i figuren mellem logaritmen til raten og midtpunktet af styrkeintervallet.

Opgave 2.13: Teste log-lineær sanmmenhæng i poissondata

Dette er en fortsættelse af opgave 2.12. Det samlede antal jordskælv i de tre styrkeintervaller er 138. Hvis vi forestiller os, at vi holder det samlede antal fast på 138, kan vi (og det skal I i denne opgave) betragte de observerede antal (75,41,25)(75,41,25) som et udfald fra en multinomialfordeling med n=138n=138 kast af en generel tresidet terning.
Hvis λi,\lambda_i, i=1,2,3,i=1,2,3, er raterne fra opgave 2.12, og ziz_i er midtpunktet for det ii'te interval, er vi interesseret i at teste en lineær sammenhæng,
λi=exp(α+βzi),(α,β)R2. \lambda_i=\exp\big(\alpha+\beta z_i\big),\enspace (\alpha,\beta)\in\mathbf{R}^2.
I multinomialmodellen, der opstår, når vi holder n=138n=138 fast, svarer dette til hypotesen
πi=eβzieβz1+eβz2+eβz3,i=1,2,3,βR. \pi_i=\frac{e^{\beta z_i}}{e^{\beta z_1}+e^{\beta z_2}+e^{\beta z_3}}, \enspace i=1,2,3,\enspace \beta\in\mathbf{R}.
Den bedste værdi af β\beta til beskrivelse af data er β^=1.865.\hat\beta=-1.865.
  1. Lav, i multinomialmodellen, et test af denne hypotese.

ForegåendeNæste