Afsnit 4.3: Model og estimation

Med et observationssæt mener jeg observationer fra en række stokastiske variable, der alle har den samme fordeling, og i dette afsnit betragter jeg situationen med et normalfordelt observationssæt.
Statistisk Model 4.3.1. (Normalfordelingsmodel for eˊ\acute{\text{e}}t observationssæt)
Vi betragter nn uafhængige stokastiske variable X1,,XnX_1,\ldots,X_n med tilhørende målinger x1,,xn.x_1,\ldots,x_n. Normalfordelingsmodellen er på formen
XiN(μ,σ2),i=1,,n,(μ,σ)R×R+. X_i\sim N(\mu,\sigma^2),\enspace i=1,\ldots,n,\enspace (\mu,\sigma)\in\mathbf{R}\times\mathbf{R}_+.
Lad os se på estimation af middelværdien μ\mu og variansen σ2.\sigma^2. I de tidligere kapitler med tælledata blev likelihoodfunktionen brugt til at finde estimater. Likelihoodfunktionen blev der defineret som sandsynligheden for det observerede som funktion af parameteren i modellen, og estimatet er den værdi af parameteren, der giver maksimum af likelihoodfunktionen. For kontinuerte data kan man ikke bruge punktsandsynligheder (disse er nul), men vi har tætheden til rådighed, som repræsenterer sandsynligheden for at ligge i et lille område omkring et punkt. For kontinuerte data defineres likelihoodfunktionen til at være tætheden for det observerede som funktion af de parametre, der indgår i modellen. For uafhængige målinger bliver tætheden et produkt af tæthederne for de enkelte målinger. For vores normalfordelingsmodel bliver likelihoodfunktionen
L(μ,σ2)=f(x1;μ,σ)f(x2;μ,σ)f(xn;μ,σ)=(12πσ2)nexp(12σ2i=1n(xiμ)2).\begin{aligned} L(\mu,\sigma^2)&= f(x_1;\mu,\sigma)\cdot f(x_2;\mu,\sigma)\cdots f(x_n;\mu,\sigma) \\ & =\big(\frac{1}{\sqrt{2\pi\sigma^2}}\big)^n \exp\big(-\frac{1}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)^2\big). \end{aligned}
Heraf fremgår, at hvis denne funktion skal maksimeres med hensyn til μ,\mu, så skal vi minimere
i=1n(xiμ)2. \sum_{i=1}^n(x_i-\mu)^2.
Derfor kendes estimationen også under navnet mindste kvadraters metode. Intuitivt kan man sige, at μ\mu findes ved at minimere den samlede kvadratiske afstand mellem μ\mu og observationerne. Differentieres det sidste udtryk med hensyn til μ,\mu, og sættes den afledede lig med nul, fås estimatet
μ^=1n(x1+x2++xn)=ixi/n=xˉ, \hat\mu=\frac{1}{n}(x_1+x_2+\cdots+x_n)=\sum_ix_i/n=\bar x,
hvor en streg over et bogstav betyder gennemsnit af de tilhørende værdier.
For at estimere variansparameteren σ2\sigma^2 kan vi indsætte μ^\hat\mu i likelihoodfunktionen, L(μ^,σ2),L(\hat\mu,\sigma^2), og maksimere denne med hensyn til σ2.\sigma^2. Dette giver σ^2=i(xixˉ)2/n.\hat\sigma^2=\sum_i(x_i-\bar x)^2/n. Dette skøn er ikke helt tilfredsstillende, idet man kan vise (se nedenfor), at betragtet som stokastisk variabel gælder der, at E(σ^2)=σ2(n1)/nσ2.E(\hat\sigma^2)=\sigma^2(n-1)/n\neq\sigma^2. Man bruger derfor i stedet estimatet
s2=1n1i=1n(xixˉ)2, s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar x)^2,
som kaldes den empiriske varians. Kvadratroden, s,s, kaldes den empiriske spredning. Når vi betragter s2s^2 (eller ss) som en stokastisk variabel, afviger vi fra vores generelle regel og betegner også denne med s2s^2 og ikke med S2S^2.
For at kunne lave tests og konfidensintervaller for parametrene er det nødvendigt at kende fordelingen af vores skøn betragtet som stokastiske variable. Der gælder følgende resultat.
Resultat 4.3.2. (Fordeling af parameterskøn)
I normalfordelingsmodellen Statistisk Model 4.3.1 gælder der følgende fordelingsresultater:
μ^=XˉN(μ,σ2/n),s2=1n1i=1n(XiXˉ)2σ2χ2(n1)/(n1). \hat\mu=\bar X\sim N(\mu,\sigma^2/n),\quad s^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar X)^2 \sim \sigma^2\chi^2(n-1)/(n-1).
Desuden er de stokastiske variable μ^\hat\mu og s2s^2 uafhængige.
Fordelingsresultatet for μ^\hat\mu følger umiddelbart fra regnereglerne for normalfordelte stokastiske variable i afsnit 4.1. Specielt bruges, at
Var(Xˉ)=1n2nσ2=σ2n,sd(Xˉ)=σn. \text{Var}(\bar X)=\frac{1}{n^2}\cdot n\sigma^2=\frac{\sigma^2}{n},\quad \text{sd}(\bar X)=\frac{\sigma}{\sqrt n}.
Fordelingsresultatet for den empiriske varians s2s^2 er sværere at forstå. Vi ved, hvad en χ2(n1)\chi^2(n-1)-fordeling er, men hvad er en σ2χ2(n1)/(n1)\sigma^2\chi^2(n-1)/(n-1) fordeling? Dette skal forstås på den måde, at den stokastiske variabel (n1)s2/σ2(n-1)s^2/\sigma^2 følger en χ2(n1)\chi^2(n-1)-fordeling. Jeg vil ikke udlede fordelingen af s2,s^2, men intuitivt bygger resultatet på, at i(Xiμ)2σ2χ2(n)\sum_i(X_i-\mu)^2\sim\sigma^2\chi^2(n) ifølge regnereglerne i afsnit 4.1. Når μ\mu så erstattes med Xˉ,\bar X, viser det sig, at antallet af frihedsgrader går fra nn til n1.n-1.

Middelværdi af variansskøn

Idet ZiZ_i defineres som Zi=XiXˉ,Z_i=X_i-\bar X, kan man skrive E(s2)=i=1nE((XiXˉ)2)/(n1)=i=1nE(Zi2)/(n1).E(s^2)=\sum_{i=1}^nE\big((X_i-\bar X)^2\big)/(n-1)= \sum_{i=1}^nE\big(Z_i^2\big)/(n-1). Lad os starte med at se på Zi=XiXˉ.Z_i=X_i-\bar X. Denne kan skrives som
Zi=(11n)Xi1nX11nXi11nXi+11nXn. Z_i=(1-\frac{1}{n})X_i-\frac{1}{n}X_1-\cdots-\frac{1}{n}X_{i-1} -\frac{1}{n}X_{i+1}-\cdots-\frac{1}{n}X_{n}.
Fra regneregler for normalfordelingen findes, at ZiN(0,σ2(11n)).Z_i\sim N\big(0,\sigma^2(1-\frac{1}{n})\big). Dette giver
E(Zi2)=Var(Zi)=σ2(11n). E(Z_i^2)=\text{Var}(Z_i)=\sigma^2(1-\frac{1}{n}).
For den empiriske varians s2s^2 gælder der nu
E(s2)=1n1nσ2(11n)=σ2. E(s^2)=\frac{1}{n-1}\cdot n\cdot \sigma^2(1-\frac{1}{n})=\sigma^2.

4.3.3 Beregning i R af gennemsnit og empirisk spredning

Følgende tabel viser hvordan gennemsnit, empirisk spredning og empirisk varians beregnes i R. Data liger i en vektor xx.
RGennemsnit, xˉmean(x)Empirisk spredning, ssd(x)Empirisk varians, s2var(x) \begin{array}{lc}\hline & \text{\textbf{R}} \\ \hline \text{Gennemsnit, }\bar x & \text{mean(x)} \\ \text{Empirisk spredning, }s & \text{sd(x)} \\ \text{Empirisk varians, }s^2 & \text{var(x)} \\ \hline \end{array}

ForegåendeNæste