I afsnit 1.2
lavede vi et test for, at parameteren i en binomialfordeling
har en bestemt værdi. Mere almindeligt er det nok, at man ikke på
forhånd har en bestemt hypotese, men blot ønsker at beskrive
den viden, der er om parameteren gennem de indsamlede data.
En naturlig tanke er
at prøve at finde den værdi af parameteren, der bedst beskriver
data. Vi taler om at finde et skøn over parameteren eller
at estimere parameteren. Jeg vil her beskrive det
såkaldte
maksimum likelihood princip
til estimation af parametre.
Betragt en stokastisk variabel og tilhørende observation Antag
at fordelingen af afhænger af en parameter
Likelihoodfunktionen eller angiver
sandsynligheden for det observerede som funktion af parameteren :
Maksimum likelihood estimatet
er den værdi af der giver maksimum af
(eller ækvivalent hermed: som giver maksimum af ).
Eksempel 2.1.2.
(Estimation i binomialmodellen)
Betragt situationen, hvor er binomialfordelt med
antalsværdi og sandsynlighedsparameter
hvor er
en ukendt parameter, vi ønsker at estimere.
Likelihoodfunktionen, baseret paa observationen er blot
For at finde den værdi af som giver maksimum af denne funktion,
tager vi logaritmen, differentierer med hensyn til og sætter den
afledede lig med nul. Dette giver
idet løsningen betegnes med
I ord kan skønnet beskrives som den
observerede frekvens af et bestemt udfald, svarende til at
parameteren angiver sandsynligheden for dette udfald.
I kommandovinduet nedenfor laves en figur med
likelihoodfunktionen i binomialmodellen, og hvor
maksimum likelihood estimatet angives med en lodret rød streg.
Data der anvendes er og
Kør koden. Prøv dernæst at ændre det observerede antal og
antalværdien til værdierne fra det samlede resultat af
Kipping og Popes 46 deleksperimenter
fra afsnit 1.1.
Eksempel 2.1.3.
(Rygerklassifikation ud fra fingeraftryk)
I artiklen
Chemical profiling of fingerprints using mass spectrometry
beskrives, hvordan en kemisk analyse af stoffer i et fingeraftryk kan
give information om personen, der har afsat fingeraftrykket.
Specifikt betragtes muligheden for at afgøre, om personen er ryger.
Data der betragtes deles op, således at 75% af datasættet
bruges til at bygge en klassifikationsregel, og denne testes
på de resterende 25% af datasættet. Blandt 33 rygere i
testsættet, siger klassifikationsreglen, at 27
personer er rygere og 6 er ikke. Vi beskriver situationen ved, at
de 27 personer er udfald af en stokastisk variabel med
Her angiver parameteren hvor god
klassifikationsreglen er til at finde rygere (sandsynligheden
for at klassificere en ryger korrekt). Skøn over denne sandsynlighed er
Likelihoodfunktionen er vist
ovenfor i Eksempel 2.1.2. Til beskrivelse af en klassifikationsregel bruges ofte en
confusion matrix,
hvor rækker repræsenterer den sande klasse en person tilhører, og
søjler repræsenterer den klasse, som klassifikationsreglen tildeler. For
eksemplet med rygning bliver matricen
hvor søjleoverskrifterne står for, at klassifikationsreglen peger på
ryger og på
ikke-ryger. I tabellen er for hver række angivet sandsynlighederne for at
falde i en af de to søjler. At en person bliver klassificeret som ryger
betegnes som at testresultatet er positiv,
hvilket forklarer sprogbrugen med "sand positiv" og så fremdeles i tabellen.
Data for rygere i testsættet svarer til, at der er 33 personer i første række,
som fordeles med 27 og 6 i de to søjler. Data for ikke-rygere i testsættet
svarer til, at der er 81 personer i anden række,
som fordeles med 5 og 76 i de to søjler.
2.1.1 Notation for skøn
I en statistisk model med en parameter betegnes
det databaserede skøn
over parameteren med I er vant til (fra jeres calculuskursus),
at stokastiske variable betegnes med store bogstaver, og
observerede værdier af den stokastiske variabel med små bogstaver.
For et parameterskøn vil vi også gerne betragte dette både som en
stokastisk variabel (hvad er fordelingen, når eksperimentet gentages)
og som en faktisk observeret værdi, men her er der ikke tradition
for at følge konventionen med store og små bogstaver.
For et skøn kan dette både være den stokastiske variabel
og den faktisk observerede værdi, og det skal så gerne fremgå af
sammenhængen, om man tænker på den ene eller den anden situation.
Hvis behovet opstår, kan man benytte notationen for
den stokastiske variabel og for den observerede værdi.
Dette afspejler, hvordan vores skøn er en funktion af data.
ForegåendeNæste