En person med kræft vil i sit blod have DNA, der ikke er bundet til celler, og som er en signatur for kræften og dens udvikling (cell free DNA, CFDNA). Undersøgelse af denne DNA kan måske bruges i behandlingen af kræften. I artiklen Optimizing the yield and utility of circulating cell-free DNA from plasma and serum undersøges, hvordan den mængde CFDNA, der ekstraheres hos en patient, afhænger af laboratorieprotokollen. Specielt sammenlignes to systemer: QIAamp kit og Triton/Heat/Phenol protocol (THP). Den målte værdi for en prøve er procentdel af CFDNA, der ekstraheres, hvor den samlede mængde kan måles ved en separat undersøgelse.

Forfatterne ønsker at sammenligne de to protokoller for ekstrahering af CFDNA for at kunne lave anbefalinger med hensyn til brugen af disse systemer. Data, som er aflæst fra figur 5 i artiklen, er indskrevet i kodevinduet nedenfor (data er procenttal). Data består af 14 prøver, der er målt med Qiagen systemet, og 20 prøver, der er målt med Triton systemet. I kodevinduet laves der et qqplot af de to datasæt og en figur med boxplots. Boxplottet giver en meget simpel måde grafisk at sammenligne flere datasæt. Bemærk koden til at lave flere qqplots i den samme figur.

Definition på boxplot

Et boxplot består i midten af en kasse defineret ud fra de tre tal $(q_{25},q_{50},q_{75}),$ hvor $q_{25}$ er den værdi, for hvilken 25% af dataværdierne ligger under og 75% ligger over værdien, og med tilsvarende definitioner for $q_{50}$ og $q_{75}$ (python bruger lineær interpolation til beregning af disse). Den midterste værdi, $q_{50},$ kaldes medianen af data, og $q_{75}-q_{25}$ kaldes inter quartile range (IQR). Kassen går fra $q_{25}$ til $q_{75},$ og medianen angives som en vandret streg inde i kassen. Over og under kassen er lavet en streg, der går fra kassen til den observation, der ligger længst væk fra kassen, men indenfor en afstand af $1.5\cdot\text{IQR}$ fra kassen. Endelig markeres de punkter, der ligger endnu længere væk fra kassen. Prøv at køre boxplot med datasættet $1,2,3,4,5,6,7,13.$ Her ligger $q_{25}$ mellem 2 og 3 (python: 2.75), $q_{50}=4.5,$ $q_{75}$ ligger mellem 6 og 7 (python: 6.25), værdierne 1 og 7 er punkterne længst væk, men indenfor $1.5\cdot\text{IQR}$ (python: 5.25) fra kassen, og 13 ligger udenfor. I skal benytte kommandoen plt.boxplot(x), hvor $x$ er en vektor med data (og matplotlib.pyplot er importeret som plt).

6.0.1 Flere qqplots og boxplots i samme figur

Se opstartskoden (til/fra)

Ser data normalfordelt ud ? Hvad viser boxplottene om forholdene mellem de to populationer ?

Svar: QQplot

For Qiagen data ser qqplot ud til at sno sig pænt omkring en ret linje, hvorimod der er tre forholdsvis små værdier for Triton datasættet. Vi accepterer dog at beskrive data med en normalfordelingsmodel. De to linjer i qqplottene ser ikke helt parallelle ud, hvilket er en indikation af, at der kan være forskel i varians i de to grupper af observationer (den teoretiske linje hørende til et qqplot har hældning $\sigma,$ hvor sigma er spredningen).

I boxplottene er de to kasser cirka lige høje, hvilket er en indikation af samme varians i de to grupper (altså et lidt andet indtryk end fra qqplots). De to kasser er forskudt i forhold til hinanden, hvilket tyder på forskel i middelværdi for de to populationer. Medianen ligger cirka midt i kassen for Qiagen data, hvilket tyder på en symmetrisk fordeling i overensstemmelse med en normalfordeling. For Triton data kan der godt være tale om en skævhed i fordelingen.

I dette kapitel skal vi se på, hvordan vi kan undersøge forskelle og ligheder mellem to datasæt. Den primære interesse ligger i, om de to bagvedliggende populationer har samme middelværdi. Dette kan undersøges med et, eller rettere to, $t$ -test, afhængig af om de to populationer har samme varians. I afsnit 6.1 indføres modellen, og i afsnit 6.2 beskrives $t$ -testet i situationen med samme varians, og i afsnit 6.3 for tilfældet med forskellige varianser. For at undersøge om data stemmer med en model med ens varianser, udvikles i afsnit 6.4 et test for hypotesen om samme varians i de to populationer ( $F$ -test for ens varianser). Implementeringen af de forskellige test i python vises i afsnit 6.5.

Når data for to datasæt indlæses, vil det typisk være i form af en datatabel. I har allerede stiftet bekendskab med dette i opgave 3.2. I får også senere brug for selv at kunne konstruere en datatabel. I afsnit 6.6 omtaler jeg kort behandling af datatabeller.

Jeg slutter kapitlet af med at beskrive, hvordan vi kan sammenligne flere end to varianser. Dette kendes under navnet Bartletts test. I skal bruge dette test i kapitel 8.

Foregående Næste

Kapitel 6: To normalfordelte observationssæt