Med et observationssæt mener jeg
observationer fra en række stokastiske variable,
der alle har den samme fordeling, og i dette afsnit betragter jeg
situationen med et normalfordelt observationssæt.
Statistisk Model 4.3.1.
(Normalfordelingsmodel for eˊt observationssæt)
Vi betragter
n uafhængige stokastiske variable X1,…,Xn med tilhørende
målinger x1,…,xn. Normalfordelingsmodellen er på formen
Xi∼N(μ,σ2),i=1,…,n,(μ,σ)∈R×R+.
Lad os se på estimation af middelværdien μ og
variansen σ2. I de tidligere kapitler med tælledata
blev likelihoodfunktionen brugt til at finde estimater.
Likelihoodfunktionen blev der defineret som sandsynligheden for
det observerede som funktion af parameteren i modellen, og
estimatet er den værdi af parameteren, der giver maksimum af
likelihoodfunktionen. For kontinuerte data kan man ikke bruge
punktsandsynligheder (disse er nul), men vi har tætheden til
rådighed, som repræsenterer sandsynligheden for at ligge i et lille
område omkring et punkt. For kontinuerte data defineres
likelihoodfunktionen til at være tætheden for det
observerede som funktion af de parametre, der indgår i modellen.
For uafhængige målinger bliver tætheden et produkt af tæthederne
for de enkelte målinger. For vores normalfordelingsmodel bliver
likelihoodfunktionen
Heraf fremgår, at hvis denne funktion skal maksimeres med
hensyn til μ, så skal vi minimere
i=1∑n(xi−μ)2.
Derfor kendes estimationen også under navnet
mindste kvadraters metode. Intuitivt kan man sige, at μ
findes ved at minimere den samlede kvadratiske afstand mellem μ og
observationerne. Differentieres det sidste udtryk med hensyn til
μ, og sættes den afledede lig med nul, fås estimatet
μ^=n1(x1+x2+⋯+xn)=i∑xi/n=xˉ,
hvor en streg over et bogstav betyder
gennemsnit af de tilhørende værdier. For at estimere variansparameteren σ2 kan vi indsætte
μ^ i likelihoodfunktionen, L(μ^,σ2),
og maksimere denne med hensyn til σ2.
Dette giver σ^2=∑i(xi−xˉ)2/n. Dette skøn er
ikke helt tilfredsstillende, idet man kan vise (se nedenfor),
at betragtet som stokastisk variabel gælder der, at
E(σ^2)=σ2(n−1)/n=σ2. Man bruger
derfor i stedet estimatet
s2=n−11i=1∑n(xi−xˉ)2,
som kaldes den empiriske varians. Kvadratroden, s,
kaldes den empiriske spredning. Når vi betragter
s2 (eller s) som en stokastisk variabel, afviger vi fra vores
generelle regel og betegner også denne med s2 og ikke med S2. For at kunne lave tests og konfidensintervaller for parametrene er det
nødvendigt at kende fordelingen af vores skøn betragtet som
stokastiske variable. Der gælder følgende resultat.
Resultat 4.3.2.
(Fordeling af parameterskøn)
I normalfordelingsmodellen Statistisk Model 4.3.1
gælder der følgende fordelingsresultater:
Desuden er de stokastiske variable μ^ og s2 uafhængige.
Fordelingsresultatet for μ^ følger umiddelbart fra
regnereglerne for normalfordelte
stokastiske variable i afsnit 4.1.
Specielt bruges, at
Var(Xˉ)=n21⋅nσ2=nσ2,sd(Xˉ)=nσ.
Fordelingsresultatet for den
empiriske varians s2 er sværere at forstå. Vi ved,
hvad en χ2(n−1)-fordeling er, men hvad er en
σ2χ2(n−1)/(n−1) fordeling? Dette skal forstås
på den måde, at den stokastiske variabel (n−1)s2/σ2
følger en χ2(n−1)-fordeling. Jeg vil ikke udlede
fordelingen af s2, men intuitivt bygger resultatet på, at
∑i(Xi−μ)2∼σ2χ2(n) ifølge
regnereglerne i afsnit 4.1. Når μ så erstattes
med Xˉ, viser det sig, at antallet af frihedsgrader
går fra n til n−1.
Idet Zi defineres som Zi=Xi−Xˉ, kan man skrive
E(s2)=∑i=1nE((Xi−Xˉ)2)/(n−1)=∑i=1nE(Zi2)/(n−1).
Lad os starte med at se på Zi=Xi−Xˉ. Denne kan skrives som