Afsnit 4.4: Test og konfidensinterval for middelværdi
Vi ønsker nu at lave et test for, om middelværdien har en bestemt
værdi μ0, det vil sige et test for hypotesen μ=μ0 inden
for normalfordelingsmodellen fra Statistisk Model 4.3.1.
Intuitivt baseres testet på, om μ^=xˉ ligger tæt på
μ0 eller langt fra, men tæt på eller langt fra skal ses
i lyset af spredningen σ i fordelingen.
Umiddelbart inddrages spredningen gennem en standardisering
på formen
(xˉ−μ0)/(σ/n), baseret på at
sd(Xˉ)=nσ. Da spredningen σ
ikke kendes, erstattes denne med vores skøn,
den empiriske spredning s. Dette giver teststørrelsen
T=s/nXˉ−μ0.
Jeg har indført teststørrelsen ud fra et intuitivt argument,
men en beregning viser, at store værdier af ∣T∣ er
ækvivalent med små værdier af likelihoodratio teststørrelsenQ,
som er forholdet mellem den maksimale værdi af likelihoodfunktionen
under hypotesen μ=μ0 og den maksimale værdi af likelihoodfunktionen
under den fulde model 4.3.1.
For at kunne bruge teststørrelsen er det nødvendigt at kende fordelingen
af denne. Hertil skal vi bruge følgende definition.
Definition 4.4.1.
(t-fordeling)
Betragt uafhængige stokastiske variable U∼N(0,1)
og V∼χ2(df). Så siges
T=U/V/df at følge en t-fordeling med
df frihedsgrader, hvilket vi skriver som T∼t(df).
Fordelingsfunktionen i en t(df)-fordeling beregnes i
R med kommandoen pt(t,df), som er sandsynligheden
for at ligge til venstre for t.
I kodevinduet nedenfor vises fordelingfunktionen for tre
t-fordelinger og for standard normalfordelingen.
Desuden er 97.5%-fraktilen markeret,
det vil sige punktet,
hvor der ligger 97.5% sandsynlighed til venstre for og
2.5% sandsynlighed til højre for. Kan du på forhånd gætte, om
t-fraktilerne ligger til højre eller til venstre for den
tilsvarende fraktil i en standard normalfordeling?
Fraktiler i en t(df)-fordeling findes i R
med kommandoen qt(p,df).
Fraktilen i en t(1)-fordeling
findes med kommandoen qt(0.975,1) og har værdien
12.7.
Resultat 4.4.2.
(t-test)
Betragt Statistisk Model 4.3.1 og hypotesen μ=μ0.
Under hypotesen er
T=s/nXˉ−μ0∼t(n−1). Hvis alternativet
til hypotesen μ=μ0 er μ=μ0 udregner vi p-værdien
for testet som
p-værdi=P(∣T∣≥∣t∣)=2⋅tcdf(−∣tobs∣,n−1),
hvor tobs er den observerede værdi af T.
Desuden er et 95%-konfidensinterval for middelværdien μ
givet ved
[xˉ−t0ns,xˉ+t0ns],
hvor t0 er 97.5%-fraktilen i en t(n−1)-fordeling,
t0=tinv(0.975,n−1). Konfidensintervallet skrives ofte på kort
form som xˉ±t0ns
For at forstå at T følger en t(n−1)-fordeling, skal vi blot skrive
T=s/nXˉ−μ0=s2/σ2(Xˉ−μ0)/(σ/n),
og bruge definitionen på en t-fordeling med
U=(Xˉ−μ0)/(σ/n) og V=(n−1)s2/σ2.
Fordelingsresultaterne i Resultat 4.3.2 giver nu det ønskede. Benyttes nu at T∼t(n−1), og at t-fordelingen er
symmetrisk omkring nul (hvilket følger af, at
standard normalfordelingen er symmetrisk omkring nul), fås