Afsnit 4.14: Standard Error

For en stokastisk variabel XX er varians defineret som Var(X)=E((XE(X))2),\text{Var}(X)=E\big((X-E(X))^2\big), og spredning eller standardafvigelsen er defineret som sd(X)=Var(X).\text{sd}(X)=\sqrt{\text{Var}(X)}. Notationen her refererer til det engelske navn standard deviation for spredning. Udover ordet spredning har vi på dansk også ordet usikkerhed. I fysik bruges dette ord i forbindelse med spredningen på en måling fra et måleapperat.
For en statistisk model med en parameter θ,\theta, og et skøn θ^\hat\theta over denne, kan vi tale om spredningen på den stokastiske variabel θ^,\hat\theta, sd(θ^).\text{sd}(\hat\theta). For binomialmodellen Xbinom(n,p)X\sim\text{binom}(n,p) er spredningen på skønnet p^=X/n\hat p=X/n givet ved sd(p^)=p(1p)/n.\text{sd}(\hat p)=\sqrt{p(1-p)/n}. For normalfordelingsmodellen XiN(μ,σ2),X_i\sim N(\mu,\sigma^2), i=1,,n,i=1,\ldots,n, har vi skønnet μ^=Xˉ\hat\mu=\bar X med spredning sd(μ^)=σ/n.\text{sd}(\hat\mu)=\sigma/\sqrt{n}. Som det ses, vil spredningen på et parameterskøn ofte indeholde ukendte parametre. Hvis spredningen skal bruges i en udregning, må vi derfor indsætte skøn over disse parametre. Den resulterende værdi kaldes standard error for parameterskønnet, og betegnes i denne bog med sds(θ^),\text{sd}_s(\hat\theta), hvor det nedre fodtegn ss står for "skøn over". For normalfordelingsmodellen har vi sds(μ^)=s/n\text{sd}_s(\hat\mu)=s/\sqrt n med s2=i(XiXˉ)2/(n1).s^2=\sum_i(X_i-\bar X)^2/(n-1).
Med indførslen af standard error kan man udtrykke konfidensintervallet baseret på tt-fordelingen på simpel vis. Konfidensintervallet fra Resultat 4.4.2 bliver μ^±t0sds(μ^),\hat\mu \pm t_0\cdot \text{sd}_s(\hat\mu), t0=tinv(0.975,n1).t_0=t_{\text{inv}}(0.975,n-1). Konfidensintervallet for forskellen mellem to middelværdier δ=μ1μ2\delta=\mu_1-\mu_2 fra Resultat 4.10.1 bliver δ^±t0sds(δ^),\hat\delta \pm t_0\cdot \text{sd}_s(\hat\delta), t0=tinv(0.975,n1+n22),t_0=t_{\text{inv}}(0.975,n_1+n_2-2), med sds(δ^)=s1/n1+1/n2\text{sd}_s(\hat\delta)=s\sqrt{1/n_1+1/n_2} og s2s^2 det fælles variansskøn. I tilfældet med to normalfordelinger med forskellig varians bliver konfidensintervallet også δ^±t0sds(δ^),\hat\delta \pm t_0\cdot \text{sd}_s(\hat\delta), hvor nu t0=tinv(0.975,dfw)t_0=t_{\text{inv}}(0.975,\mathit{df}_w) og sds(δ^)=s12/n1+s22/n2\text{sd}_s(\hat\delta)=\sqrt{s_1^2/n_1+s_2^2/n_2} (Resultat 4.11.1).
I de følgende kapitler skal vi bruge funktionen lm i R, hvor standard error automatisk er en del af output.
ForegåendeNæste