Afsnit 1.3: Binomialmodellen

Binomialmodellen beskriver situationen, hvor der laves $n$ uafhængige delforsøg, og i hvert af disse er der to mulige udfald. Til sidst tælles der op, hvor mange af de $n$ delforsøg der giver et bestemt af de to udfald. Hvis sandsynligheden for dette udfald i det enkelte delforsøg er $p,$ og antallet af denne type udfald betegnes med den stokastiske variabel $X,$ skriver vi $X\sim\text{binom}(n,p).$ Generelt kan man sige, at binomialmodellen beskriver situationen, hvor vi kaster en skæv mønt $n$ gange, hvor sandsynligheden for krone er $p,$ og tæller op, hvor mange gange vi fik krone. Man taler om en ærlig mønt og en skæv mønt alt efter, om sandsynlighed $p$ er $\frac{1}{2}$ eller er forskellig fra $\frac{1}{2}$ . Udover at $p$ er sandsynligheden i det enkelte kast, kan $p$ også tolkes som andelen af krone i uendelig mange kast af mønten, eller som andelen af krone i "populationen" af møntkast. I binomialfordelingen, $\text{binom}(n,p),$ kalder vi $n$ for antalsværdien og $p$ for sandsynlighedsparameteren. Et vigtigt element i Introducerende statistik og datananalyse med R er at vænne jer til at beskrive et eksperiment gennem en statistisk model.

Definition 1.3.1. (Fordelingsnotation $\sim$ og statistisk model)

Hvis $X$ er en stokastisk variabel, angiver vi fordelingen ved at skrive $X\sim\mathit{fordelingsnavn}.$ Stokastiske variable angives som hovedregel ved store bogstaver. Når der er indsamlet data, bruges et lille bogstav $x$ til at angive den målte værdi.

I en statistisk model til beskrivelse af et eksperiment angives de stokastiske variable, der måles, og man angiver deres fordelinger. Disse fordelinger vil typisk indeholde ukendte parametre, som man netop ønsker at sige noget om gennem eksperimentet. Variationsområdet for parametrene er en del af den statistiske model.

For at kunne referere til binomialmodellen kommer her en formel angivelse.

Statistisk Model 1.3.2. (Binomialmodellen)

Lad den stokastiske variabel $X$ angive antallet ud af $n$ delforsøg med et bestemt udfald, hvor der er sandsynlighed $p$ for dette udfald. Binomialmodellen til beskrivelse af dette skrives som

$X\sim\text{binom}(n,p),\enspace 0\leq p\leq 1.$

For binomialmodellen kender I fra jeres calculuskursus følgende resultater:

$\begin{aligned} & P\big(X=x\big)=\binom{n}{x}p^x(1-p)^{n-x},\enspace x=0,1,\ldots,n, \\ & E(X)=np,\quad \text{Var}(X)=np(1-p). \end{aligned}\tag{1.3.1}$ Vi kan nu vende tilbage til Mendels ærteeksperiment fra afsnit 1.1 og beskrive situationen således, at vi har observationen $\text{gul}=152$ fra en stokastisk variabel $\text{Gul}\sim\text{binom}(580,p),$ $0\leq p\leq 1.$ Mendels hypotese om en bestemt andel af gule ærtebælge er på formen $H:\enspace p=p_0.$ Når man tester en hypotese, bør det også overvejes, hvad er alternativet, hvis hypotesen ikke er sand. I de fleste tilfælde i disse noter vil alternativet blot være alle mulige andre værdier af parameteren, her $p\neq p_0.$ I nogle situationer kan man også være interesseret i ensidede alternativer som for eksempel $p>p_0.$

Jeg formulerer nu generelt test i binomialfordelingen og tilhørende $p$ -værdi.

Resultat 1.3.3. ( $P$ -værdi for test af andel)

Betragt den statistiske model $X\sim\text{binom}(n,p),$ $0\leq p\leq 1,$ og hypotesen $p=p_0$ mod alternativet $p\neq p_0.$ Som teststørrelse bruger vi afstanden $T(X)=|X-np_0|,$ og $p$ -værdien for en observation $x$ med tilhørende teststørrelse $t=T(x)$ er

$p\text{-værdi}=P(X\leq np_0-t)+P(X\geq np_0+t).$

1.3.4 Beregning i R af p-værdi for test af andel

I R beregnes sandsynligheder $P(X=x)$ og fordelingsfunktionen $P(X\leq x)$ i tilfældet $X\sim\text{binom}(n,p)$ med kommandoerne dbinom(x,n,p) og pbinom(x,n,p). Til beregning af $p$ -værdien skal vi også bruge 1-pbinom(x,n,p) som i R også kan beregnes med kommandoen pbinom(x,n,p,lower.tail=FALSE).

I kodevinduet nedenfor beregnes $p$ -værdien for test af Mendels hypotese.

Prøv at køre koden som den står. Prøv dernæst at fjerne linjen med if-delen i udregningen af pval og kør koden igen. Kan du forklare, hvorfor det er nødvendigt at have if-linjen med i formlen ?

Svar: Binomial p-værdi

I eksemplet er det forventede antal 145, og $p$ -værdien er sandsynligheden for værdier $\leq 138$ og $\geq 152$ . Hvis imidlertid vi skriver pbinom(152,580,0.25,lower.tail=FALSE), får vi sandsynligheden $P(X>152),$ og ikke $P(X\geq 152).$ Derfor må vi skrive et tal lidt under 152, som gøres i programmet ved at trække 0.5 fra. Dog skal vi kun trække noget fra, hvis den øvre grænse xupper er et heltal, hvorfor der i koden er brugt et "if"-statement.

Foregående Næste