Figuren nedenfor viser et histogram for 46 differenser
mellem tiden for at flytte computermusen fra punkt
A til
punkt
B og tiden for at flytte musen retur fra
B til
A.
Der er flere ting at bemærke her. Data er kontinuerte i den forstand,
at den målte differens kan antage alle mulige værdier.
Den tilhørende stokastiske variabel beskrives gennem en tæthed,
der kan fortolkes som sandsynlighed per længde. Vi kan
tænke på de 46 målinger som et udsnit af en underliggende uendelig
stor population af differenser, og det er denne population, vi ønsker at
sige noget om ud fra de målte værdier i eksperimentet. Vores øjne
vil automatisk ud fra histogrammet danne sig et billede af et
centrum for fordelingen og et billede af, hvor stort et område målingerne
spreder sig over. I forhold til den underliggende population
svarer dette til middelværdi og spredning af fordelingen af differensen.
Det er naturligt at spørge, om middelværdien er nul svarende til, at man
bruger lige lang tid på at flytte musen fra
A til
B som fra
B til
A.
Ligesom vi i afsnit
1.1 så på, hvor langt det observerede
lå fra det forventede, vil det være oplagt her at se på, hvor langt
gennemsnittet af målingerne ligger fra den forventede værdi nul.
Her løber vi dog ind i et problem. Sandsynligheden for at få noget,
der ligger længere væk fra det forventede end det observerede gennemsnit,
vil afhænge af spredningen i populationen.
I dette kapitel indfører jeg det nok mest udbredte statistiske test, nemlig
t-testet (Students
t-test). Testet tager hensyn til den
ukendte spredning i populationen ved at standardisere afstanden mellem
gennemsnit og den forventede værdi med en spredning beregnet ud fra
målingerne. Testet indføres i afsnit
4.4. Testet tager
udgangspunkt i en antagelse om, at data følger en normalfordeling. Afsnit
4.1 repeterer meget kort jeres viden om normalfordelingen
fra jeres calculuskursus, og afsnit
4.2 giver en grafisk
metode til at vurdere, om data kan beskrives med en normalfordeling.
Det er en empirisk kendsgerning, at mange data kan beskrives med en
normalfordelingsmodel, og kapitlerne 4 til 7 i bogen her omhandler forskellige
modeller for normalfordelte data.
Et teoretisk argument for, at data ofte kan beskrives med en normalfordeling,
kan findes i den
centrale grænseværdisætning (afsnit
2.4),
der siger, at
hvis en stokastisk variabel kan tænkes på som fremkommet som en
sum af mange små bidrag, så vil fordelingen ligne en normalfordeling.
I dette kapitel betragtes to normalfordelingsmodeller. Den første model
er den grundliggende model med
eˊn gruppe af
observationer, svarende til
eksemplet ovenfor med differens af flyttetider, og den anden model er, hvor
vi har to grupper af observationer og ønsker at sammenligne
middelværdierne i de to underliggende populationer. De to modeller analyseres
i afsnittene
4.3 og
4.9.
Analyse af data ved brug af
R beskrives i afsnittene
4.7 og
4.13.
Ovenfor har jeg fokuseret på at uddrage viden fra data om middelværdien
i populationen. Spredningen kan dog også være af interesse, og
inferens om denne er beskrevet i afsnittene
4.6 og
4.12.
ForegåendeNæste