I jeres calculuskursus er der ikke blevet indført
notation for de forskellige fordelinger. Hvor I i
calculus siger den stokastiske variabel
følger en binomialfordeling med antalsværdi og
sandsynlighedsparameter , vil jeg blot skrive dette
kort som . På denne måde bliver
notationen også tættere på de funktionskald, I skal lave i
python eller MATLAB. I kan se sammenhængen med
python eller MATLAB i afsnittene
Py.6 og ML.6.
Da I ikke kender fordelingsnotationen, som jeg vil benytte,
vil I løbende her i webbogen blive introduceret
til en notation for de forskellige fordelinger.Når vi for en stokastisk variabel vil udregne sandsynligheden
(sandsynligheden for at ligge til venstre for ),
taler vi om at udregne fordelingsfunktionen i punktet
Fordelingsfunktion hedder på engelsk
cumulative distribution function, som forkortes cdf.
I denne bog benytter jeg cdf som nedre fodtegn på et
fordelingsnavn for at angive fordelingsfunktionen. Med denne
notation betyder således
sandsynligheden for en værdi mindre end eller lig med 13 i en
-fordeling.I kender også normalfordelingen fra sandsynlighedsdelen af jeres
calculuskursus. Hvis er normalfordelt med middelværdi og
varians skriver vi
Sandsynligheden for at ligge til venstre for i denne fordeling
betegnes med For en given
sandsynlighed kan vi finde det punkt således at
sandsynligheden for at ligge til venstre for dette punkt er
Dette kaldes -fraktilen i fordelingen.
Beregningsmæssigt skal man for at finde en fraktil bruge den
inverse til fordelingsfunktionen.
Notationsmæssigt
angiver vi fraktiler ved at tilføje det nedre fodtegn inv
til fordelingsnavnet. Således er
95%-fraktilen i en normalfordeling med middelværdi 2 og spredning 1. I python får man fordelingsfunktionen ved at sætte .cdf
efter navnet på fordelingen, og fraktiler fås ved at sætte
.ppf efter fordelingsnavnet
(ppf står for percent point function).
Tilsvarende i MATLAB tilføjer man cdf og inv
efter fordelingsnavnet. For en normalfordeling
får man fordelingsfunktionen i python med kaldet
norm.cdf(x,,) (husk import af norm),
og i MATLAB med kaldet normcdf(x,,).
Bemærk at der bruges
spredning og ikke varians i kaldet til
norm. For standard normalfordelingen med middelværdi
0 og spredning 1 kan man udelade middelværdi og spredning i
kaldet til norm.
Kør følgende kode og forklar sammenhængene i de sidste tre tal.
Ændr derefter koden og beregn sandsynligheden for en værdi
mindre end eller lig med 2 i en
-fordeling, og dernæst sandsynligheden
for en værdi større end eller lig med 2 i den samme
binomialfordeling.
Sandsynligheden for at ligge til venstre for 1.96 i en standard
normalfordeling er 0.975, hvorfor norm.cdf(1.96)
(MATLAB: normcdf(1.96)) giver 0.975, og
norm.ppf(0.975) (MATLAB: norminv(0.975)) giver 1.96. Hvis kan
skrives som hvor Dermed er
De to binomialsandsynligheder der ønskes beregnet fås som
binom.cdf(2,10,0.4) og 1-binom.cdf(2-1,10,0.4).
1.5.1 Genopfriskning af sandsynlighedsteoretiske begreber