Afsnit 4.4: Test og konfidensinterval for middelværdi

Vi ønsker nu at lave et test for, om middelværdien har en bestemt værdi μ0,\mu_0, det vil sige et test for hypotesen μ=μ0\mu=\mu_0 inden for normalfordelingsmodellen fra Statistisk Model 4.3.1. Intuitivt baseres testet på, om μ^=xˉ\hat\mu=\bar x ligger tæt på μ0\mu_0 eller langt fra, men tæt på eller langt fra skal ses i lyset af spredningen σ\sigma i fordelingen. Umiddelbart inddrages spredningen gennem en standardisering på formen (xˉμ0)/(σ/n),(\bar x-\mu_0)/(\sigma/\sqrt n), baseret på at sd(Xˉ)=σn.\text{sd}(\bar X)=\frac{\sigma}{\sqrt n}. Da spredningen σ\sigma ikke kendes, erstattes denne med vores skøn, den empiriske spredning s.s. Dette giver teststørrelsen
T=Xˉμ0s/n. T=\frac{\bar X-\mu_0}{s/\sqrt n}.
Jeg har indført teststørrelsen ud fra et intuitivt argument, men en beregning viser, at store værdier af T|T| er ækvivalent med små værdier af likelihoodratio teststørrelsen Q,Q, som er forholdet mellem den maksimale værdi af likelihoodfunktionen under hypotesen μ=μ0\mu=\mu_0 og den maksimale værdi af likelihoodfunktionen under den fulde model 4.3.1. For at kunne bruge teststørrelsen er det nødvendigt at kende fordelingen af denne. Hertil skal vi bruge følgende definition.
Definition 4.4.1. (tt-fordeling)
Betragt uafhængige stokastiske variable UN(0,1)U\sim N(0,1) og Vχ2(df).V\sim\chi^2(\mathit{df}). Så siges T=U/V/dfT=U/\sqrt{V/\mathit{df}} at følge en tt-fordeling med df\mathit{df} frihedsgrader, hvilket vi skriver som Tt(df).T\sim t(\mathit{df}). Fordelingsfunktionen i en t(df)t(\mathit{df})-fordeling beregnes i R med kommandoen pt(t,df), som er sandsynligheden for at ligge til venstre for t.t.

Vise t-fordeling i R

I kodevinduet nedenfor vises fordelingfunktionen for tre tt-fordelinger og for standard normalfordelingen. Desuden er 97.5%-fraktilen markeret, det vil sige punktet, hvor der ligger 97.5% sandsynlighed til venstre for og 2.5% sandsynlighed til højre for. Kan du på forhånd gætte, om tt-fraktilerne ligger til højre eller til venstre for den tilsvarende fraktil i en standard normalfordeling? Fraktiler i en t(df)-t(\mathit{df})\text{-}fordeling findes i R med kommandoen qt(p,df).
  1. Hvad er 97.5%-fraktilen i en t(1)t(1)-fordeling, henholdsvis i en t(100)-t(100)\text{-}fordeling?

Svar: T-fraktiler

  1. Fraktilen i en t(1)t(1)-fordeling findes med kommandoen qt(0.975,1) og har værdien 12.7.

Resultat 4.4.2. (tt-test)
Betragt Statistisk Model 4.3.1 og hypotesen μ=μ0.\mu=\mu_0. Under hypotesen er T=Xˉμ0s/nt(n1).T=\frac{\bar X-\mu_0}{s/\sqrt n}\sim t(n-1). Hvis alternativet til hypotesen μ=μ0\mu=\mu_0 er μμ0\mu\neq\mu_0 udregner vi pp-værdien for testet som
p-værdi=P(Tt)=2tcdf(tobs,n1), p\text{-værdi}=P(|T|\geq |t|)=2\cdot t_{\text{cdf}}(-|t_{\text{obs}}|,n-1),
hvor tobst_{\text{obs}} er den observerede værdi af TT. Desuden er et 95%-konfidensinterval for middelværdien μ\mu givet ved
[xˉt0sn,xˉ+t0sn], \big[\bar x- t_0\frac{s}{\sqrt n},\,\bar x+ t_0\frac{s}{\sqrt n}\big],
hvor t0t_0 er 97.5%-fraktilen i en t(n1)t(n-1)-fordeling, t0=tinv(0.975,n1).t_0=t_{\text{inv}}(0.975,n-1). Konfidensintervallet skrives ofte på kort form som xˉ±t0sn\bar x\pm t_0\frac{s}{\sqrt n}
For at forstå at TT følger en t(n1)t(n-1)-fordeling, skal vi blot skrive
T=Xˉμ0s/n=(Xˉμ0)/(σ/n)s2/σ2, T=\frac{\bar X-\mu_0}{s/\sqrt n}= \frac{(\bar X-\mu_0)/(\sigma/\sqrt n)}{\sqrt{s^2/\sigma^2}},
og bruge definitionen på en tt-fordeling med U=(Xˉμ0)/(σ/n)U=(\bar X-\mu_0)/(\sigma/\sqrt n) og V=(n1)s2/σ2.V=(n-1)s^2/\sigma^2. Fordelingsresultaterne i Resultat 4.3.2 giver nu det ønskede.
Benyttes nu at Tt(n1),T\sim t(n-1), og at tt-fordelingen er symmetrisk omkring nul (hvilket følger af, at standard normalfordelingen er symmetrisk omkring nul), fås
Pμ(Xˉt0snμXˉ+t0sn)=Pμ(t0Xˉμs/nt0)=P(Tt0)P(Tt0)=0.9750.025=0.95.\begin{aligned} & P_\mu\big(\bar X- t_0\frac{s}{\sqrt n}\leq \mu\leq \bar X+ t_0\frac{s}{\sqrt n}\big) = P_\mu\big(-t_0\leq \frac{\bar X-\mu}{s/\sqrt n}\leq t_0\big) \\ &\qquad = P(T\leq t_0)-P(T\leq -t_0) = 0.975-0.025=0.95. \end{aligned}
ForegåendeNæste