Jeg slutter dette kapitel af med at sige noget om
poissonfordelingen, som I også kender fra sandsynlighedsdelen af calculus.
Jeg vil vise, hvordan poissonfordelingen kommer frem som en
model for tilfældige ankomster. Dernæst vil jeg estimere parameteren
i poissonmodellen og lave et konfidensinterval for denne.
Statistisk Model 2.5.1.
(Poissonmodellen)
Lad være et stokastisk antal, som kan antage alle mulige heltallige
værdier større end eller lig med nul. Poissonmodellen
med parameter til beskrivelse af skrives som
For poissonmodellen gælder der følgende resultater:
Desuden har vi egenskaben, at hvis er uafhængige
og poissonfordelte, så er også summen poissonfordelt.
Poissonfordelingen bruges til at beskrive fordelingen af et antal,
der for eksempel kommer tilfældigt i tid eller tilfældigt over et område.
Berømte eksempler er antal opkald til en telefoncentral inden for
et bestemt tidsinterval (blev studeret af den danske matematiker
Erlang),
dødsfald ved hestespark i preussiske regimenter, hvor data består af
dødsfald per år i 10 regimenter der følges i 20 år (1875‐1894)
(billedet nedenfor er fra bogen
The art of taming and educating the horse),
og fordeling af
V1- og V2-bomber over London
under anden verdenskrig.
Følgende kode producerer en figur med poissonsandsynligheder.
Kør koden, og prøv at ændre på værdien af lambda.
I R beregnes poissonsandsynligheder med dpois og
fordelingsfunktionen med ppois.
Kan du se, at "kurveformen" af fordelingen ser ud til at nærme sig
en bestemt form, hvis du prøver at gøre større og større ?
Jeg beskriver her en model, der kan forklare, hvorfor
mange data kan være poissonfordelte. Modellen skal
beskrive situationen med ankomster tilfældigt i tid.
Betragt tidsintervallet fra 0 til Intervallet deles
op i lige store stykker, hvor er stor. Uafhængigt af
hinanden kaster vi i hvert af de små intervaller en "mønt",
hvor sandsynligheden for krone er Hvis mønten viser
krone, siger vi, at der er en ankomst i det tilsvarende interval.
På denne måde er sandsynligheden for en ankomst i et lille
interval proportional med længden af intervallet.
Proportionalitetskonstanten er som får fortolkningen
som rate, det vil sige det forventede antal ankomster per tid.
Uafhængigheden mellem de små intervaller modellerer, at ankomsterne er
tilfældige i tid.Ideen er nu at lade blive større og større, svarende til en finere
og finere inddeling af intervallet i små intervaller. Lad
være den stokastiske variabel, der angiver antal ankomster i
intervallet Når er valgt, står vi i en binomialsituation
og har
Lader vi blive større og større, kan man matematisk vise, at
Her står, at i grænsen hvor bliver meget stor, vil
være poissonfordelt med parameter
Man udtrykker ovenstående argument på den måde, at en
binomialfordeling med stor og lille
ligner en poissonfordeling med parameter Nedenstående
kommandovindue laver en figur til illustration af dette.
Kør koden, og prøv dernæst at sætte til 100. Kan du se
hvad der sker ? Prøv også en anden værdi af lambda.
Denne lille testopgave går ud på at træne jer i at
kunne vurdere, om data skal beskrives med en
binomialmodel eller med en poissonmodel.
Quiz
I løbet af en måned er der indsamlet 20 vandprøver fra forskellige
vandboringer, og 5 af disse har pesticidrester over det tilladte niveau.
Klik på de rigtige udsagn nedenfor, hvor Pest står for den
bagvedliggende stokastiske variabel.
De 5 prøver kommer tilfældigt over tid i løbet af en måned,
hvorfor det er en observation
fra en poissonfordeling,
hvor er en måned.
Hver af de 20 prøver kan have pesticidrester enten over
eller under grænsen,
hvorfor 5 er en observation fra en binomialfordeling,
Prøv også at forklare, hvorfor det forkerte valg er forkert.
Der er ikke tale om, at der kommer prøver med højt indhold af pesticidrester
tilfældigt over tid. Tidsaspektet i eksperimentet har ikke noget at gøre med
indeholdet af pesticidrester, men siger blot noget om, hvornår man
vælger at tage ud og indsamle vandprøven.
2.5.1 Estimation i poissonmodellen
Betragt uafhængige poissonfordelte variable
hvor er kendt og er
en ukendt parameter, som vi ønsker at estimere. På grund af
uafhængigheden bliver likelihoodfunktionen et produkt af
poissonsandsynligheder
For at finde den værdi af som giver maksimum af likelihoodfunktionen,
tager vi logaritmen, differentierer med hensyn til og sætter den
afledede lig med nul. Dette giver
Ligesom i binomialmodellen giver dette skøn god mening:
er den forventede
rate per tid, og er den observerede rate per tid.
Eksempel 2.5.2.
(Rutherford og Geiger)
I en berømt artikel fra 1910 giver
Rutherford og Geiger
resultaterne fra 2608 målinger af antal henfald fra en poloniumsmasse
i 72 sekunder. Vi kan beskrive situationen med
I denne situation
bliver skønnet over raten per sekund
idet summen af de 2608
målinger er 10097. Et histogram med de 2608 målinger er vist i den
følgende figur.
2.5.2 Konfidensinterval i poissonmodellen
I poissonmodellen er det ikke muligt
at lave et konfidensinterval for som opfylder betingelsen
i Definition 2.2.1 eksakt.
I stedet benytter man følgende
approksimative konfidensinterval.
Resultat 2.5.3.
(Konfidensinterval i poissonmodellen)
For modellen er et approksimativt
95%-konfidensinterval for baseret på observationen
givet ved
Hvis værdien af ændres til 1.645, får man i stedet et
approksimativt 90%-konfidensinterval. Ligesom i binomialmodellen bygger
konfidensintervallet her på den centrale grænseværdisætning.
Eksempel 2.5.4.
(Rutherford og Geiger)
I Eksempel 2.5.2
omkring henfald af polonium er der
2608 uafhængige målinger:
Hvis to stokastiske variable er poissonfordelte,
er deres sum også poissonfordelt. Vi har derfor at
Den målte værdi af Henfald er I kodevinduet nedenfor udregnes
det approksimative 95%-konfidensinterval.