Kapitel 4: Normalfordelte data

Figuren nedenfor viser et histogram for 46 differenser mellem tiden for at flytte computermusen fra punkt til punkt og tiden for at flytte musen retur fra til
Der er flere ting at bemærke her. Data er kontinuerte i den forstand, at den målte differens kan antage alle mulige værdier. Den tilhørende stokastiske variabel beskrives gennem en tæthed, der kan fortolkes som sandsynlighed per længde. Vi kan tænke på de 46 målinger som et udsnit af en underliggende uendelig stor population af differenser, og det er denne population, vi ønsker at sige noget om ud fra de målte værdier i eksperimentet. Vores øjne vil automatisk ud fra histogrammet danne sig et billede af et centrum for fordelingen og et billede af, hvor stort et område målingerne spreder sig over. I forhold til den underliggende population svarer dette til middelværdi og spredning af fordelingen af differensen.
Det er naturligt at spørge, om middelværdien er nul svarende til, at man bruger lige lang tid på at flytte musen fra til som fra til Ligesom vi i afsnit 1.1 så på, hvor langt det observerede lå fra det forventede, vil det være oplagt her at se på, hvor langt gennemsnittet af målingerne ligger fra den forventede værdi nul. Her løber vi dog ind i et problem. Sandsynligheden for at få noget, der ligger længere væk fra det forventede end det observerede gennemsnit, vil afhænge af spredningen i populationen.
I dette kapitel indfører jeg det nok mest udbredte statistiske test, nemlig -testet (Students -test). Testet tager hensyn til den ukendte spredning i populationen ved at standardisere afstanden mellem gennemsnit og den forventede værdi med en spredning beregnet ud fra målingerne. Testet indføres i afsnit 4.4. Testet tager udgangspunkt i en antagelse om, at data følger en normalfordeling. Afsnit 4.1 repeterer meget kort jeres viden om normalfordelingen fra jeres calculuskursus, og afsnit 4.2 giver en grafisk metode til at vurdere, om data kan beskrives med en normalfordeling. Det er en empirisk kendsgerning, at mange data kan beskrives med en normalfordelingsmodel, og kapitlerne 4 til 7 i bogen her omhandler forskellige modeller for normalfordelte data. Et teoretisk argument for, at data ofte kan beskrives med en normalfordeling, kan findes i den centrale grænseværdisætning (afsnit 2.4), der siger, at hvis en stokastisk variabel kan tænkes på som fremkommet som en sum af mange små bidrag, så vil fordelingen ligne en normalfordeling.
I dette kapitel betragtes to normalfordelingsmodeller. Den første model er den grundliggende model med n gruppe af observationer, svarende til eksemplet ovenfor med differens af flyttetider, og den anden model er, hvor vi har to grupper af observationer og ønsker at sammenligne middelværdierne i de to underliggende populationer. De to modeller analyseres i afsnittene 4.3 og 4.9. Analyse af data ved brug af R beskrives i afsnittene 4.7 og 4.13.
Ovenfor har jeg fokuseret på at uddrage viden fra data om middelværdien i populationen. Spredningen kan dog også være af interesse, og inferens om denne er beskrevet i afsnittene 4.6 og 4.12.
ForegåendeNæste