Afsnit 2.1: Skøn over en parameter

I afsnit 1.3 lavede vi et test for, at parameteren i en binomialfordeling har en bestemt værdi. Mere almindeligt er det nok, at man ikke på forhånd har en bestemt hypotese, men blot ønsker at beskrive den viden, der er om parameteren gennem de indsamlede data. En naturlig tanke er at prøve at finde den værdi af parameteren, der bedst beskriver data. Vi taler om at finde et skøn over parameteren eller at estimere parameteren. Jeg vil her beskrive det såkaldte maksimum likelihood princip til estimation af parametre.
Definition 2.1.1. (Maksimum likelihood estimation)
Betragt en stokastisk variabel XX og tilhørende observation x.x. Antag at fordelingen af XX afhænger af en parameter θ.\theta. Likelihoodfunktionen L(θ)L(\theta) eller L(θ;x)L(\theta;x) angiver sandsynligheden for det observerede som funktion af parameteren θ\theta: L(θ)=Pθ(X=x).L(\theta)=P_\theta(X=x). Maksimum likelihood estimatet er den værdi θ^\hat\theta af θ,\theta, der giver maksimum af L(θ)L(\theta) (eller ækvivalent hermed: som giver maksimum af log(L(θ))\log(L(\theta))).
Eksempel 2.1.2. (Estimation i binomialmodellen)
Betragt situationen, hvor XX er binomialfordelt med antalsværdi nn og sandsynlighedsparameter p,p, Xbinom(n,p),X\sim\text{binom}(n,p), hvor pp er en ukendt parameter, vi ønsker at estimere. Likelihoodfunktionen er blot
L(p)=(nx)px(1p)nx. L(p)=\binom{n}{x}p^x(1-p)^{n-x}.
For at finde den værdi af pp som giver maksimum af denne funktion, tager vi logaritmen, differentierer med hensyn til pp og sætter den afledede lig med nul. Dette giver
xpnx1p=0ellerp^=xn, \frac{x}{p}-\frac{n-x}{1-p}=0\quad\text{eller}\quad \hat p=\frac{x}{n},
idet løsningen betegnes med p^.\hat p. Intuitivt giver dette skøn god mening: parameteren pp angiver sandsynligheden for et bestemt udfald, og p^\hat p er den observerede frekvens af dette udfald.

Figur med likelihoodfunktion

I kommandovinduet nedenfor laves en figur med likelihoodfunktionen i binomialmodellen, og hvor maksimum likelihood estimatet angives med en lodret rød streg. Kør koden. Prøv dernæst at ændre det observerede antal xx og antalværdien nn til værdierne fra Mendels ærteeksperiment fra afsnit 1.1.

Eksempel 2.1.3. (Lagring af CO2\mathrm{CO}_2)
En af metoderne til at mindske udslip af CO2\mathrm{CO}_2 er at lagre denne i undergrunden (CCS: Carbon Capture and Storage). Dette kræver, at man kan finde brugbare reservoirer i undergrunden. Ligesom ved olieefterforskning vil en boring efter et reservoir ikke altid give gevinst, men man har ikke for nærværende erfaring, der siger, hvor ofte en boring kan bruges. I artiklen The geological risks of exploring for a CO2 storage reservoir benytter man indrapporterede beskrivelser af boringer efter olie til at klassificere hvilke af disse, der kan bruges til lagring af CO2\mathrm{CO}_2 og dermed få et skøn, over hvor ofte boringer kan bruges. Data, der bruges i artiklen, er for olieboringer i kontinentalsoklen hørende til Storbritannien, og er delt ind i grupper bestemt af den geologiske alder af det reservoir, der bores ned til.
Blandt 45 boringer med palæogen alder er der 24, som vuderes brugbare til CO2\mathrm{CO}_2-lagring. Vi beskriver situtionen ved, at de 24 brugbare boringer er udfald af en stokastisk variabel Brugbar med Brugbarbinom(45,p).\text{Brugbar}\sim\text{binom}(45,p). Her angiver parameteren pp sandsynligheden for, at en boring kan bruges til lagring. Skøn over denne sandsynlighed er p^=24/45=0.533.\hat p=24/45=0.533. Likelihoodfunktionen hørende til data er vist ovenfor i Eksempel 2.1.2. Den følgende tabel viser antal boringer og antallet heraf, der er brugbare, for seks forskellige geologiske aldre af de tilhørende reservoirer.
AlderAntal boringerAntal brugbarePaleogene4524Cretaceous-Jurassic8743Upper Jurassic15673Triassic4021Lower Permian11158Carboniferous11245 \begin{array}{lcc} \text{Alder} & \text{Antal boringer} & \text{Antal brugbare} \\ \hline \text{Paleogene} & 45 & 24 \\ \text{Cretaceous-Jurassic} & 87 & 43 \\ \text{Upper Jurassic} & 156 & 73 \\ \text{Triassic} & 40 & 21 \\ \text{Lower Permian} & 111 & 58 \\ \text{Carboniferous} & 112 & 45 \\ \hline \end{array}

2.1.1 Notation for skøn

I en statistisk model med en parameter θ\theta betegnes det databaserede skøn over parameteren med θ^.\hat\theta. I er vant til (fra jeres calculuskursus), at stokastiske variable betegnes med store bogstaver, og observerede værdier af den stokastiske variabel med små bogstaver. For et parameterskøn vil vi også gerne betragte dette både som en stokastisk variabel (hvad er fordelingen, når eksperimentet gentages) og som en faktisk observeret værdi, men her er der ikke tradition for at følge konventionen med store og små bogstaver. For et skøn θ^\hat\theta kan dette både være den stokastiske variabel og den faktisk observerede værdi, og det skal så gerne fremgå af sammenhængen, om man tænker på den ene eller den anden situation. Hvis behovet opstår, kan man benytte notationen θ^(X)\hat\theta(X) for den stokastiske variabel og θ^(x)\hat\theta(x) for den observerede værdi. Dette afspejler, hvordan vores skøn er en funktion af data.
ForegåendeNæste