I Eksempel 2.1.3
fik vi skønnet 0.82
for sandsynligheden for,
at vores klassifikationregel ville klassificere en ryger korrekt.
Dette tal i sig selv siger ikke så meget.
Hvis skønnet er foreneligt med, at den sande
værdi af sandsynligheden for korrekt klassifikation er meget lavere,
vil klassifiktionsreglen ikke være et særligt godt værktøj
til udnyttelsen af fingeraftrykket.
Vi har behov for at vide noget
om usikkerheden på vores skøn. Jeg vil nu indføre en metode til i stedet
for blot at give en enkelt værdi som skøn over en parameter, at give
et helt interval af værdier med den fortolkning, at alle værdier i
intervallet er relevante som mulige værdier for den sande
underliggende parameter. Jeg kalder intervallet for et
konfidensinterval. Størrelsen af konfidensintervallet er
bestemt af et procenttal, og i dette kursus holder vi os til et
95%-konfidensinterval.
I overensstemmelse med at udvide fra et skøn til et interval kan
I for binomialmodellen gå tilbage til
figuren af likelihoodfunktionen i
Eksempel 2.1.2.
Her kommer
konfidensintervallet til approksimativt at bestå af alle værdier af
parameteren, hvor likelihoodfunktionen ligger over
en fraktion af den maksimale værdi af likelihoodfunktionen
(dette vises i Eksempel 2.2.3 nedenfor).
Definition 2.2.1.
(95%-Konfidensinterval)
Betragt en statistisk model, hvor vi måler en stokastisk variabel
og hvor fordelingen af afhænger af parameteren
For hver mulig værdi af laves et interval
Vi betragter nu det
stokastiske interval og forlanger, at
sandsynligheden for at intervallet indeholder den sande værdi
af parameteren er 0.95. Når dette er opfyldt, kaldes intervallet et
95%-konfidensinterval. Skrevet op som en formel, er betingelsen
Hvis vi for eksempel i stedet ønsker et 90%-konfidensinterval, skal 0.95
i ovenstående definition ændres til 0.90. Figuren nedenfor viser på
generisk form ideen i et konfidensinterval: et eksperiment er gentaget
20 gange, og hver gang er der lavet et konfidensinterval for
parameteren 19 ud af 20 gange (95%) indeholder intervallet den
sande værdi af parameteren. Konfidensintervallerne er vist som
lodrette linjestykker i figuren.
2.2.1 Konfidensinterval i binomialmodellen
I binomialmodellen er det ikke muligt
at lave et konfidensinterval for sandsynlighedsparameteren
der opfylder betingelsen i Definition 2.2.1 eksakt.
I stedet benytter man følgende approksimative konfidensinterval.
Resultat 2.2.2.
(Konfidensinterval i binomialmodellen)
For modellen er et approksimativt
95%-konfidensinterval for baseret på observationen
givet ved
Hvis værdien af ændres til 1.645 får man i stedet et
approksimativt 90%-konfidensinterval.
Eksempel 2.2.3.
(Rygerklassifikation ud fra fingeraftryk)
I Eksempel 2.1.3
omkring rygerklassifikation baseret på fingeraftryk
har vi og en måling
I kodevinduet nedenfor udregnes
det approksimative 95%-konfidensinterval. Resultatet
viser, at med "95% sikkerhed" er den sande værdi af sandsynligheden
for korrekt klassifikation et sted mellem 0.66 og 0.91. Hvis
sandsynligheden er helt nede på 0.66, giver klassifikationsreglen
kun det rigtige svar i 2 ud af 3 tilfælde. Udtrykket "95% sikkerhed" er blot en
omformulering af, at hvis formlen for dette konfidensinterval bruges
mange gange, så
vil vi i 95% af gangene have, at intervallet indeholder
den sande værdi af .
Den følgende kode kan bruges generelt til beregning af konfidensintervallet
for en andel, hvis man selv indskriver det observerede antal () og
antal forsøg ().
Det næste kodevindue viser likelihoodfunktionen med konfidensintervallet
indtegnet (rødt interval) og intervallet, hvor likelihoodfunktionens
værdi er over (blåt interval). Figuren viser, at
de to intervaller er tæt på at være ens.
Prøv at lege lidt med koden for at få en fornemmelse
for bredden af konfidensintervallet. Prøv for eksempel
med og og prøv med det samlede resultat af
Kipping og Popes 46 deleksperimenter
fra afsnit 1.1.
I ord er meningen med et konfidensintervallet at angive
de værdier af parameteren, der
virker rimelige til beskrivelse af data. Denne formulering er tæt på
at sige, at intervallet giver de værdier, vi kan acceptere, hvis vi
laver et formelt test. Mere præcist kan man sige, at hvis vi for hver værdi
af parameteren betragter hypotesen
og laver et test med tilhørende -værdi
så kan man lave et 95%-konfidensinterval bestående af alle
de værdier af for hvilke
At dette giver et konfidensinterval følger af resultatet
for fejl af type I nævnt i det
skjulte punkt Fejl af type 1 og type 2 i afsnit
1.3 (giver at konfidensintervallet indeholder den
sande værdi af parameteren med sandsynlighed større end eller lig med 0.95).
Omvendt kan man så afgøre, om værdien er større end 0.05 ved at se,
om parameterværdien ligger i konfidensintervallet. Man kan dog lave forskellige udgaver af konfidensintervaller og af sine
tests. For de fleste situationer vi betragter i denne bog, hører test og
konfidensinterval sammen som beskrevet ovenfor. Dog gælder dette ikke
fuldstændig for binomialmodellen.
Testet i Resultat 1.2.3
er baseret på eksakte
sandsynligheder i binomialfordelingen, hvorimod
konfidensintervallet 2.2.2
er baseret på en approksimation. I praksis har dette ikke
nogen væsentligt betydning.
2.2.2 Konfidensinterval for transformeret parameter
Ovenfor er beskrevet et konfidensinterval for sandsynlighedsparameteren
i binomialmodellen. Hvad gør jeg, hvis jeg for eksempel gerne vil
sige noget om Hvis 95%-konfidensintervallet for betegnes med
virker det naturligt at bruge
At dette virker, ses af det simple udsagn
hvor den sidste sandsynlighed er cirke 0.95. Dette er et generelt princip. Hvis er en parameter i en statistisk
model og er et 95%-konfidensinterval, så vil
være et 95%-konfidensinterval for
den transformerede parameter (for en voksende (eller aftagende) funktion ). ForegåendeNæste