Med et observationssæt mener jeg
observationer fra en række stokastiske variable,
der alle har den samme fordeling, og i dette afsnit betragter jeg
situationen med et normalfordelt observationssæt.
Statistisk Model 4.3.1.
(Normalfordelingsmodel for t observationssæt)
Vi betragter
uafhængige stokastiske variable med tilhørende
målinger Normalfordelingsmodellen er på formen
Lad os se på estimation af middelværdien og
variansen I de tidligere kapitler med tælledata
blev likelihoodfunktionen brugt til at finde estimater.
Likelihoodfunktionen blev der defineret som sandsynligheden for
det observerede som funktion af parameteren i modellen, og
estimatet er den værdi af parameteren, der giver maksimum af
likelihoodfunktionen. For kontinuerte data kan man ikke bruge
punktsandsynligheder (disse er nul), men vi har tætheden til
rådighed, som repræsenterer sandsynligheden for at ligge i et lille
område omkring et punkt. For kontinuerte data defineres
likelihoodfunktionen til at være tætheden for det
observerede som funktion af de parametre, der indgår i modellen.
For uafhængige målinger bliver tætheden et produkt af tæthederne
for de enkelte målinger. For vores normalfordelingsmodel bliver
likelihoodfunktionen
Heraf fremgår, at hvis denne funktion skal maksimeres med
hensyn til så skal vi minimere
Derfor kendes estimationen også under navnet
mindste kvadraters metode. Intuitivt kan man sige, at
findes ved at minimere den samlede kvadratiske afstand mellem og
observationerne. Differentieres det sidste udtryk med hensyn til
og sættes den afledede lig med nul, fås estimatet
hvor en streg over et bogstav betyder
gennemsnit af de tilhørende værdier. For at estimere variansparameteren kan vi indsætte
i likelihoodfunktionen,
og maksimere denne med hensyn til
Dette giver Dette skøn er
ikke helt tilfredsstillende, idet man kan vise (se nedenfor),
at betragtet som stokastisk variabel gælder der, at
Man bruger
derfor i stedet estimatet
som kaldes den empiriske varians. Kvadratroden,
kaldes den empiriske spredning. Når vi betragter
(eller ) som en stokastisk variabel, afviger vi fra vores
generelle regel og betegner også denne med og ikke med . For at kunne lave tests og konfidensintervaller for parametrene er det
nødvendigt at kende fordelingen af vores skøn betragtet som
stokastiske variable. Der gælder følgende resultat.
Resultat 4.3.2.
(Fordeling af parameterskøn)
I normalfordelingsmodellen Statistisk Model 4.3.1
gælder der følgende fordelingsresultater:
Desuden er de stokastiske variable og uafhængige.
Fordelingsresultatet for følger umiddelbart fra
regnereglerne for normalfordelte
stokastiske variable i afsnit 4.1.
Specielt bruges, at
Fordelingsresultatet for den
empiriske varians er sværere at forstå. Vi ved,
hvad en -fordeling er, men hvad er en
fordeling ? Dette skal forstås
på den måde, at den stokastiske variabel
følger en -fordeling. Jeg vil ikke udlede
fordelingen af men intuitivt bygger resultatet på, at
ifølge
regnereglerne i afsnit 4.1. Når så erstattes
med viser det sig, at antallet af frihedsgrader
går fra til
Idet defineres som kan man skrive
Lad os starte med at se på Denne kan skrives som
Fra regneregler for normalfordelingen findes, at
Dette giver
For den empiriske varians gælder der nu