I Eksempel 2.1.3 fik vi skønnet 0.53
for sandsynligheden, for at
en boring finder et reservoir, der er velegnet til lagring af
. Dette tal i sig
selv siger ikke så meget. Er skønnet eventuelt foreneligt med, at den sande
værdi af sandsynligheden for af finde et velegnet reservoir er 0.4 eller
eventuelt 0.7, hvilket vil give væsentligt forskellige økonomiske
vurderinger af projektet.
Vi har behov for at vide noget
om usikkerheden på vores skøn. Jeg vil nu indføre en metode til i stedet
for blot at give en enkelt værdi som skøn over en parameter, at give
et helt interval af værdier med den fortolkning, at alle værdier i
intervallet er relevante som mulige værdier for den sande
underliggende parameter. Jeg kalder intervallet for et
konfidensinterval. Størrelsen af konfidensintervallet er
bestemt af et procenttal, og i dette kursus holder vi os til et
95%-konfidensinterval. For at få en intuitiv fornemmelse af
det interval vi laver, kan I for binomialmodellen gå tilbage til
figuren af likelihoodfunktionen i
Eksempel 2.1.2.
Her kommer
konfidensintervallet til approksimativt at bestå af alle værdier af
parameteren, hvor likelihoodfunktionen ligger over
en fraktion af den maksimale værdi af likelihoodfunktionen
(dette vises i Eksempel 2.2.3 nedenfor).
Definition 2.2.1.
(95%-Konfidensinterval)
Betragt en statistisk model, hvor vi måler en stokastisk variabel
og hvor fordelingen af afhænger af parameteren
For hver mulig værdi af laves et interval
Vi betragter nu det
stokastiske interval og forlanger, at
sandsynligheden for at intervallet indeholder den sande værdi
af parameteren er 0.95. Når dette er opfyldt, kaldes intervallet et
95%-konfidensinterval. Skrevet op som en formel, er betingelsen
Hvis vi for eksempel i stedet ønsker et 90%-konfidensinterval, skal 0.95
i ovenstående definition ændres til 0.90. Figuren nedenfor viser på
generisk form ideen i et konfidensinterval: et eksperiment er gentaget
20 gange, og hver gang er der lavet et konfidensinterval for
parameteren 19 ud af 20 gange (95%) indeholder intervallet den
sande værdi af parameteren. Konfidensintervallerne er vist som
lodrette linjestykker i figuren.
2.2.1 Konfidensinterval i binomialmodellen
I binomialmodellen er det ikke muligt
at lave et konfidensinterval for sandsynlighedsparameteren
der opfylder betingelsen i Definition 2.2.1 eksakt.
I stedet benytter man følgende approksimative konfidensinterval.
Resultat 2.2.2.
(Konfidensinterval i binomialmodellen)
For modellen er et approksimativt
95%-konfidensinterval for baseret på observationen
givet ved
Hvis værdien af ændres til 1.645 får man i stedet et
approksimativt 90%-konfidensinterval.
Eksempel 2.2.3.
(Lagring af )
I Eksempel 2.1.3 omkring brugen af reservoirer
til -lagring
har vi modellen og en måling
I kodevinduet nedenfor udregnes det approksimative 95%-konfidensinterval.
Resultatet viser, at med "95% sikkerhed" er den sande værdi af
sandsynligheden for en brugbar boring
et sted mellem 0.39 og 0.67.
Udtrykket "95% sikkerhed" er blot en omformulering af, at hvis
formlen for dette konfidensinterval bruges mange gange, så vil
vi i 95% af gangene have, at intervallet indeholder den sande værdi af .
Den følgende tabel indeholder nedre og øvre grænse i
95%-konfidensintervallerne for de
seks geologiske aldre fra Eksempel 2.1.3.
Det næste kodevindue viser likelihoodfunktionen med konfidensintervallet
indtegnet (rødt interval) og intervallet, hvor likelihoodfunktionen
skæres af ved (blåt interval).
Prøv at lege lidt med koden for at få en fornemmelse
for bredden af konfidensintervallet. Prøv for eksempel
med og
Intuitivt giver konfidensintervallet de værdier af parameteren, der
virker rimelige til beskrivelse af data. Denne formulering er tæt på
at sige, at intervallet giver de værdier, vi kan acceptere, hvis vi
laver et formelt test. Mere præcist kan man sige, at hvis vi for hver værdi
af parameteren betragter hypotesen
og laver et test med tilhørende -værdi
så kan man lave et 95%-konfidensinterval bestående af alle
de værdier af for hvilke
Omvendt kan man så afgøre, om værdien er større end 0.05 ved at se,
om parameterværdien ligger i konfidensintervallet. Man kan dog lave forskellige udgaver af konfidensintervaller og af sine
tests. For de fleste situationer vi betragter i denne bog, hører test og
konfidensinterval sammen som beskrevet ovenfor. Dog gælder dette ikke
fuldstændig for binomialmodellen.
Testet 1.3.3
er baseret på eksakte
sandsynligheder i binomialfordelingen, hvorimod
konfidensintervallet 2.2.2
er baseret på en approksimation. I praksis har dette ikke
nogen væsentlig betydning.