Kapitel 4: Normalfordelte data

I et laboratorie skal man løbende kvalitetssikre måleinstrumenterne. I artiken The application of Student’s t-test in internal quality control of clinical laboratory har man to måleinstrumenter fra Roche og standardprøver fra firmaet Liquichek. Som en del af undersøgelsen ser man på differensen mellem de målte værdier på de to apparater, idet enhver prøve deles i to, og der måles på begge apparater. Figuren nedenfor viser et histogram for 72 differenser af målingen af indholdet af luteotropic hormone. Enheden er mIU/mL.
Der er flere ting at bemærke her. Data er kontinuerte i den forstand, at den målte differens kan antage alle mulige værdier. Den tilhørende stokastiske variabel beskrives gennem en tæthed, der kan fortolkes som sandsynlighed per længde. Vi kan tænke på de 72 målinger som et udsnit af en underliggende uendelig stor population af differenser, og det er denne population, vi ønsker at sige noget om ud fra de målte værdier i eksperimentet. Vores øjne vil automatisk ud fra histogrammet danne sig et billede af et centrum for fordelingen og et billede af, hvor stort et område målingerne spreder sig over. I forhold til den underliggende population svarer dette til middelværdi og spredning af fordelingen af differensen.
Det er naturligt at spørge, om middelværdien er nul svarende til, at der ikke er systematisk forskel mellem de to måleapparater. Ligesom vi i afsnit 1.1 så på, hvor langt det observerede lå fra det forventede, vil det være oplagt her at se på, hvor langt gennemsnittet af målingerne ligger fra den forventede værdi nul. Her løber vi dog ind i et problem. Sandsynligheden for at få noget, der ligger længere væk fra det forventede end det observerede gennemsnit, vil afhænge af spredningen i populationen.
I dette kapitel indfører jeg det nok mest udbredte statistiske test, nemlig -testet (Students -test). Testet tager hensyn til den ukendte spredning i populationen ved at standardisere afstanden mellem gennemsnit og den forventede værdi med en spredning beregnet ud fra målingerne. Testet indføres i afsnit 4.4. Testet tager udgangspunkt i en antagelse om, at data følger en normalfordeling. Afsnit 4.1 repeterer meget kort jeres viden om normalfordelingen fra jeres calculuskursus, og afsnit 4.2 giver en grafisk metode til at vurdere, om data kan beskrives med en normalfordeling. Det er en empirisk kendsgerning, at mange data kan beskrives med en normalfordelingsmodel, og kapitlerne 4 til 9 i bogen her omhandler forskellige modeller for normalfordelte data. Et teoretisk argument for, at data ofte kan beskrives med en normalfordeling, kan findes i den centrale grænseværdisætning (afsnit 2.4), der siger, at hvis en stokastisk variabel kan tænkes på som fremkommet som en sum af mange små bidrag, så vil fordelingen ligne en normalfordeling.
I dette kapitel betragtes den grundliggende model med n gruppe af observationer, svarende til eksemplet ovenfor med differens mellem to målinger. Modellen analyseres i afsnit 4.3, og analyse af data ved brug af python beskrives i afsnit 4.7. I kapitel 6 udvides modellen fra dette kapitel til situationen, hvor vi har to grupper af observationer og ønsker at sammenligne middelværdierne i de to underliggende populationer.
Ovenfor har jeg fokuseret på at uddrage viden fra data om middelværdien i populationen. Spredningen kan dog også være af interesse, og inferens om denne er beskrevet i afsnit 4.6.
ForegåendeNæste