I afsnit 1.3
lavede vi et test for, at parameteren i en binomialfordeling
har en bestemt værdi. Mere almindeligt er det nok, at man ikke på
forhånd har en bestemt hypotese, men blot ønsker at beskrive
den viden, der er om parameteren gennem de indsamlede data.
En naturlig tanke er
at prøve at finde den værdi af parameteren, der bedst beskriver
data. Vi taler om at finde et skøn over parameteren eller
at estimere parameteren. Jeg vil her beskrive det
såkaldte
maksimum likelihood princip
til estimation af parametre.
Betragt en stokastisk variabel X og tilhørende observation x. Antag
at fordelingen af X afhænger af en parameter θ.LikelihoodfunktionenL(θ) eller L(θ;x) angiver
sandsynligheden for det observerede som funktion af parameteren θ:
L(θ)=Pθ(X=x).Maksimum likelihood estimatet
er den værdi θ^ af θ, der giver maksimum af L(θ)
(eller ækvivalent hermed: som giver maksimum af log(L(θ))).
Eksempel 2.1.2.
(Estimation i binomialmodellen)
Betragt situationen, hvor X er binomialfordelt med
antalsværdi n og sandsynlighedsparameter p,X∼binom(n,p), hvor p er
en ukendt parameter, vi ønsker at estimere.
Likelihoodfunktionen er blot
L(p)=(xn)px(1−p)n−x.
For at finde den værdi af p som giver maksimum af denne funktion,
tager vi logaritmen, differentierer med hensyn til p og sætter den
afledede lig med nul. Dette giver
px−1−pn−x=0ellerp^=nx,
idet løsningen betegnes med p^.
Intuitivt giver dette skøn god mening:
parameteren p angiver sandsynligheden for et bestemt udfald,
og p^ er den observerede frekvens af dette udfald.
I kommandovinduet nedenfor laves en figur med
likelihoodfunktionen i binomialmodellen, og hvor
maksimum likelihood estimatet angives med en lodret rød streg.
Kør koden. Prøv dernæst at ændre det observerede antal x og
antalværdien n til værdierne fra Mendels ærteeksperiment
fra afsnit 1.1.
xxxxxxxxxx
1
# data indskrives
2
x=24
3
n=45
4
5
# figur dannes
6
p=c(0:1000)/1000
7
plot(p,dbinom(x,n,p),type="l")
8
abline(v=x/n,col=2)
9
c("Figur er dannet")
Messages
Eksempel 2.1.3.
(Lagring af CO2)
En af metoderne til at mindske udslip af CO2 er at
lagre denne i undergrunden (CCS: Carbon Capture and Storage).
Dette kræver, at man kan finde brugbare reservoirer i undergrunden.
Ligesom ved olieefterforskning vil en boring efter et reservoir ikke
altid give gevinst, men man har ikke for nærværende erfaring, der
siger, hvor ofte en boring kan bruges. I artiklen
The geological risks of exploring for a CO2 storage reservoir
benytter man indrapporterede beskrivelser af boringer efter olie
til at klassificere hvilke af disse, der kan bruges til lagring af
CO2 og dermed få et skøn, over hvor ofte
boringer kan bruges. Data, der bruges i artiklen, er for olieboringer
i kontinentalsoklen hørende til Storbritannien, og er delt ind i grupper
bestemt af den geologiske alder af det reservoir, der bores ned til. Blandt 45 boringer med palæogen alder er der 24, som vuderes brugbare
til CO2-lagring.
Vi beskriver situtionen ved, at de 24 brugbare boringer er udfald af en
stokastisk variabel Brugbar med Brugbar∼binom(45,p).
Her angiver parameteren p sandsynligheden for, at en boring kan
bruges til lagring. Skøn over denne sandsynlighed er
p^=24/45=0.533.
Likelihoodfunktionen hørende til data
er vist ovenfor i Eksempel 2.1.2.
Den følgende tabel viser antal boringer og antallet heraf, der er brugbare,
for seks forskellige geologiske aldre af de
tilhørende reservoirer.
I en statistisk model med en parameter θ betegnes
det databaserede skøn
over parameteren med θ^. I er vant til (fra jeres calculuskursus),
at stokastiske variable betegnes med store bogstaver, og
observerede værdier af den stokastiske variabel med små bogstaver.
For et parameterskøn vil vi også gerne betragte dette både som en
stokastisk variabel (hvad er fordelingen, når eksperimentet gentages)
og som en faktisk observeret værdi, men her er der ikke tradition
for at følge konventionen med store og små bogstaver.
For et skøn θ^ kan dette både være den stokastiske variabel
og den faktisk observerede værdi, og det skal så gerne fremgå af
sammenhængen, om man tænker på den ene eller den anden situation.
Hvis behovet opstår, kan man benytte notationen θ^(X) for
den stokastiske variabel og θ^(x) for den observerede værdi.
Dette afspejler, hvordan vores skøn er en funktion af data.
ForegåendeNæste