Afsnit 2.4: Baggrund for konfidensinterval i binomialmodel
For at forstå konfidensintervallet i binomialmodellen skal vi
omkring den centrale grænseværdisætning.
Denne siger,
meget løst formuleret, at hvis man kan tænke på en stokastisk
variabel som fremkommet som en sum af mange små uafhængige
stokastiske led, så vil fordelingen af den stokastiske
variabel ligne en normalfordeling. Normalfordelingen kender I
fra sandsynlighedsdelen af calculus, og jeg giver en kort oversigt
senere i afsnit 4.1. Vi skal ikke i denne bog arbejde med
den centrale grænseværdisætning, men blot vide, at den danner baggrund
for nogle af metoderne, der bruges. Hvis er binomialfordelt med antalsværdi og
sandsynlighedsparameter så kan vi
tænke på som en sum, hvor -erne er
uafhængige og enten 0 eller 1 med sandsynlighederne og
Så hvis ikke er lille, kan den centrale
grænseværdisætning anvendes, og denne siger, at fordelingen af ligner en
normalfordeling med middelværdi og spredning
Hvis vi standardiserer ved at trække middelværdi
fra og dividere med spredning,
vil fordelingen af denne ligne en standard normalfordeling
(normalfordeling med middelværdi 0 og spredning 1). I en standard normalfordeling gælder der, at sandsynligheden for at
ligge til venstre for -1.96 er 0.025, og sandsynligheden for at
ligge til højre for 1.96 er 0.025 (standard normalfordelingen er
symmetrisk omkring nul). Med andre ord er sandsynligheden for at
ligge mellem og lig med
Fra den centrale grænseværdisætning anvendt på
har vi altså
hvor "" læses som "cirka lig med".
Ved at løse en andengradsligning (ikke svært) kan man indse, at
er det samme som
Vi har dermed indset, at sandsynligheden for, at
konfidensintervallet i Resultat 2.2.2
indeholder den sande værdi af
parameteren, er 0.95 (approksimativt).
I kodevinduet nedenfor laves en figur, der viser approksimationen af
binomialfordelingen med en normalfordeling for værdier, der ligger indenfor
tre gange spredningen fra middelværdien. Hvis
og er normalfordelt med middelværdi
og spredning approksimeres
med Binomialsandsynlighederne vises som
søjler og normalfordelingsapproksimationen med røde punkter. I python
beregner man sandsynlighederne i en binomialfordeling med
funktionen st.binom.pmf.
Kør koden. Prøv at ændre til værdien 0.2 (og kør koden), og dernæst hæve
til 40 og efterfølgende til 400.