Afsnit 2.3: Illustration af konfidensinterval ved simulering

I R kan man simulere observationer fra en fordeling ved at sætte bogstavet "r" foran fordelingsnavnet. Således vil kommandoen rbinom(100,580,0.25) simulere 100 uafhængige udfald fra en binomialfordeling med antalsværdi $580$ og sandsynlighedsparameter $0.25.$ Ved at benytte simulerede værdier kan det undersøges, hvor ofte et konfidensinterval indeholder den sande værdi af parameteren. Det "smarte" ved at simulere er, at vi netop kender den sande værdi af parameteren, nemlig den værdi af parameteren vi selv vælger ved kaldet af simulationsfunktionen. Kør nedenstående kode og svar på de efterfølgende spørgsmål.

Hvilken binomialfordeling simuleres der fra i kodevinduet ?
Hvor mange observationer bliver der simuleret ?
Hvad beregnes i lower ?
Hvad repræsenterer værdien, der skrives ud ?
Prøv at køre koden et par gange og se variationen i resultatet. Prøv dernæst at ændre $p=0.70$ til $p=0.72,$ og kør koden nogle gange. Er der noget, der undrer dig ved resultaterne for de to situationer ?

Svar: Simulere konfidensinterval

Der simuleres fra en $\text{binom}(78,0.70)$ -fordeling.
Der simuleres 1 million observationer.
Her beregnes de nedre grænser i 95%-konfidensintervallerne hørende til alle de simulerede observationer.
Den udskrevne værdi er frekvensen blandt de simulerede observationer, hvor konfidensintervallet indeholder den sande værdi af parameteren.
De værdier, man får ud med $p=0.70,$ ser ud til at svinge mellem 0.952 og 0.955. Når $p$ ændres til 0.72 svinger værdierne mellem 0.942 og 0.943. I begge tilfælde får vi noget, der ligger tæt på det ønskede 0.95, men da 0.70 og 0.72 er tæt på hinanden, kunne man umiddelbart tro, at de to frekvenser ville være tæt på hinanden. Når vi kan se en tydelig forskel mellem de to frekvenser, skyldes det den diskrete natur af binomialfordelingen (kan kun antage heltallige værdier mellem 0 og $n$ ) og dermed også den diskrete natur af de mulige konfidensintervaller.

Foregående Næste