Afsnit 2.5: Poissonmodellen

Jeg slutter dette kapitel af med at sige noget om poissonfordelingen, som I også kender fra sandsynlighedsdelen af calculus. Jeg vil beskrive, hvordan poissonfordelingen kommer frem som en model for tilfældige ankomster. Dernæst vil jeg estimere parameteren i poissonmodellen og lave et konfidensinterval for denne.
Statistisk Model 2.5.1. (Poissonmodellen)
Lad være et stokastisk antal, som kan antage alle mulige heltallige værdier større end eller lig med nul. Poissonmodellen med parameter til beskrivelse af skrives som
For poissonmodellen gælder der følgende resultater:
Desuden har vi egenskaben, at hvis er uafhængige og poissonfordelte, så er også summen poissonfordelt. Den præcise formulering er, at hvis og de stokastiske variable er uafhængige, så er , hvor er summen af -erne og er summen af -erne. Poissonfordelingen bruges til at beskrive fordelingen af et antal, der for eksempel kommer tilfældigt i tid eller tilfældigt over område. Berømte eksempler er antal opkald til en telefoncentral inden for et bestemt tidsinterval (blev studeret af den danske matematiker Erlang), dødsfald ved hestespark i preussiske regimenter, hvor data består af dødsfald per år i 10 regimenter der følges i 20 år (1875‐1894) (billedet nedenfor er fra bogen The art of taming and educating the horse), og fordeling af V1- og V2-bomber over London under anden verdenskrig.

Figur med sandsynligheder

Følgende kode producerer en figur med poissonsandsynligheder. Kør koden, og prøv at ændre på værdien af Lambda i koden (advarsel: benyt aldrig "lambda" som variabelnavn i python). I python beregnes poissonsandsynligheder med st.poisson.pmf.
Kan du se, at "kurveformen" af fordelingen ser ud til at nærme sig en bestemt form, hvis du prøver at gøre større og større?

Tilfældige ankomster

Jeg beskriver her en model, der kan forklare, hvorfor mange data kan være poissonfordelte. Modellen skal beskrive situationen med ankomster tilfældigt i tid. Betragt tidsintervallet fra 0 til Intervallet deles op i lige store stykker, hvor er stor. Uafhængigt af hinanden kaster vi i hvert af de små intervaller en "mønt", hvor sandsynligheden for krone er Hvis mønten viser krone, siger vi, at der er en ankomst i det tilsvarende interval. På denne måde er sandsynligheden for en ankomst i et lille interval proportional med længden af intervallet. Proportionalitetskonstanten er som får fortolkningen som rate, det vil sige det forventede antal ankomster per tid. Uafhængigheden mellem de små intervaller modellerer, at ankomsterne er tilfældige i tid.
Ideen er nu at lade blive større og større, svarende til en finere og finere inddeling af intervallet i små intervaller. Lad være den stokastiske variabel, der angiver antal ankomster i intervallet Når er valgt, står vi i en binomialsituation og har Lader vi blive større og større, kan man matematisk vise, at
Her står, at i grænsen hvor bliver meget stor, vil være poissonfordelt med parameter
Man udtrykker ovenstående argument på den måde, at en binomialfordeling med stor og lille ligner en poissonfordeling med parameter Nedenstående kommandovindue laver en figur til illustration af dette. I figuren er poissonsandsynlighederne angivet ved søjler og binomialsandsynlighederne er angivet ved røde plustegn. Kør koden, og prøv dernæst at sætte til 100. Kan du se hvad der sker? Prøv også en anden værdi af Lambda.

Test dig selv: valg af statistikmodel

Denne lille testopgave går ud på at træne jer i at kunne vurdere, om data skal beskrives med en binomialmodel eller med en poissonmodel.
Quiz
I løbet af en måned er der indsamlet 20 vandprøver fra forskellige vandboringer, og 5 af disse har pesticidrester over det tilladte niveau. Klik på de rigtige udsagn nedenfor, hvor Pest står for den bagvedliggende stokastiske variabel.
De 5 prøver kommer tilfældigt over tid i løbet af en måned, hvorfor det er en observation fra en poissonfordeling, hvor er en måned.
Hver af de 20 prøver kan have pesticidrester enten over eller under grænsen, hvorfor 5 er en observation fra en binomialfordeling,
Prøv også at forklare, hvorfor det forkerte valg er forkert.

Svar: Forkerte statistikmodel

Der er ikke tale om, at der kommer prøver med højt indhold af pesticidrester tilfældigt over tid. Tidsaspektet i eksperimentet har ikke noget at gøre med indeholdet af pesticidrester, men siger blot noget om, hvornår man vælger at tage ud og indsamle vandprøven.

2.5.1 Estimation i poissonmodellen

Betragt uafhængige poissonfordelte variable hvor er kendt og er en ukendt parameter, som vi ønsker at estimere. Bemærk her, at parameteren i poissonfordelingen er , hvor vi tænker på som et tidsrum, og fortolkes som den forventede rate per tid. På grund af uafhængigheden bliver likelihoodfunktionen et produkt af poissonsandsynligheder
For at finde den værdi af som giver maksimum af likelihoodfunktionen, tager vi logaritmen, differentierer med hensyn til og sætter den afledede lig med nul. Dette giver
Ligesom i binomialmodellen giver dette skøn god mening: er den forventede rate per tid, og er den observerede rate per tid.
Eksempel 2.5.2. (Rutherford og Geiger)
I en berømt artikel fra 1910 giver Rutherford og Geiger resultaterne fra 2608 målinger af antal henfald fra en poloniumsmasse i 72 sekunder. Vi kan beskrive situationen med I denne situation bliver skønnet over raten per sekund idet summen af de 2608 målinger er 10097. Et histogram med de 2608 målinger er vist i den følgende figur.

2.5.2 Konfidensinterval i poissonmodellen

I poissonmodellen er det ikke muligt at lave et konfidensinterval for som opfylder betingelsen i Definition 2.2.1 eksakt. I stedet benytter man følgende approksimative konfidensinterval.
Resultat 2.5.3. (Konfidensinterval i poissonmodellen)
For modellen er et approksimativt 95%-konfidensinterval for baseret på observationen givet ved
Hvis værdien af ændres til 1.645, får man i stedet et approksimativt 90%-konfidensinterval. Ligesom i binomialmodellen bygger konfidensintervallet her på den centrale grænseværdisætning.
Eksempel 2.5.4. (Rutherford og Geiger)
I Eksempel 2.5.2 omkring henfald af polonium er der 2608 uafhængige målinger: Som nævnt ovenfor er summen af -erne også poissonfordelt. Vi har derfor, at Den målte værdi af er I kodevinduet nedenfor udregnes det approksimative 95%-konfidensinterval.

2.5.5 Beregning i python af konfidensinterval for rate

Den følgende kode kan bruges generelt til beregning af konfidensinterval for en rate, hvis man selv indskriver det observerede antal () og tidsparameteren ().

ForegåendeNæste