En person med kræft vil i sit blod have DNA, der ikke er bundet til celler, og som
er en signatur for kræften og dens udvikling (cell free DNA, CFDNA).
Undersøgelse af denne DNA kan måske bruges i behandlingen af kræften.
I artiklen
Optimizing the yield and utility of circulating cell-free DNA from plasma and serum
undersøges, hvordan den mængde CFDNA, der ekstraheres hos en patient, afhænger af
laboratorieprotokollen. Specielt sammenlignes to systemer:
QIAamp kit og Triton/Heat/Phenol protocol (THP). Den målte værdi for en prøve
er procentdel af CFDNA, der ekstraheres, hvor den samlede mængde kan måles ved en
separat undersøgelse.
Forfatterne ønsker at sammenligne de to protokoller for ekstrahering af
CFDNA for at kunne lave anbefalinger med hensyn til
brugen af disse systemer.
Data, som er aflæst fra figur 5 i artiklen,
er indskrevet i kodevinduet nedenfor (data er procenttal).
Data består af 14 prøver, der er målt med Qiagen systemet, og 20 prøver,
der er målt med Triton systemet.
I kodevinduet laves der
et qqplot af de to datasæt og en figur med boxplots.
Boxplottet giver en meget simpel måde grafisk at
sammenligne flere datasæt.
Bemærk koden til at lave flere qqplots i den samme figur.
Et boxplot består i midten af en kasse
defineret ud fra de tre tal
hvor er den værdi, for hvilken 25% af
dataværdierne ligger under og 75% ligger over værdien, og med
tilsvarende definitioner for og
(python bruger lineær interpolation til
beregning af disse).
Den midterste værdi,
kaldes medianen af data, og
kaldes
inter quartile range (IQR). Kassen går fra til
og medianen angives som en vandret streg inde i kassen.
Over og under
kassen er lavet en streg, der går fra kassen til den observation, der
ligger længst væk fra kassen, men indenfor en afstand af
fra kassen. Endelig markeres de punkter, der ligger endnu længere væk fra
kassen. Prøv at køre boxplot med datasættet Her ligger
mellem 2 og 3 (python: 2.75),
ligger mellem 6 og 7 (python: 6.25), værdierne 1 og 7 er
punkterne længst væk, men indenfor
(python: 5.25) fra kassen,
og 13 ligger udenfor. I skal benytte kommandoen plt.boxplot(x),
hvor er en vektor med data (og matplotlib.pyplot er importeret som plt).
For Qiagen data ser qqplot ud til at sno sig pænt omkring en ret linje,
hvorimod der er tre forholdsvis små værdier for Triton datasættet.
Vi accepterer dog at beskrive data med en normalfordelingsmodel.
De to linjer i qqplottene ser ikke helt parallelle ud, hvilket er en
indikation af, at der kan være forskel i varians i de to grupper af observationer
(den teoretiske linje hørende til et qqplot
har hældning hvor sigma er spredningen). I boxplottene er de to kasser cirka lige høje, hvilket er en
indikation af samme varians i de to grupper
(altså et lidt andet indtryk end fra qqplots). De to kasser er forskudt
i forhold til hinanden, hvilket tyder på forskel i middelværdi
for de to populationer. Medianen ligger cirka midt i kassen for Qiagen data,
hvilket tyder på en symmetrisk fordeling i overensstemmelse med
en normalfordeling. For Triton data kan der godt være tale om en skævhed
i fordelingen.
I dette kapitel skal vi se på, hvordan vi kan undersøge forskelle og
ligheder mellem to datasæt. Den primære interesse ligger i, om de
to bagvedliggende populationer har samme middelværdi. Dette kan
undersøges med et, eller rettere to, -test, afhængig af om de
to populationer har samme varians. I afsnit 6.1
indføres modellen, og i afsnit 6.2
beskrives -testet i situationen med samme varians, og i
afsnit 6.3 for tilfældet med forskellige varianser.
For at undersøge om data stemmer med en model med ens varianser,
udvikles i afsnit 6.4 et test for hypotesen om samme
varians i de to populationer (-test for ens varianser).
Implementeringen af de forskellige test i python
vises i afsnit 6.5. Når data for to datasæt indlæses, vil det typisk være i form af en
datatabel. I har allerede stiftet bekendskab med dette i
opgave 3.2. I får også senere brug for selv at kunne konstruere en datatabel.
I afsnit 6.6 omtaler jeg kort behandling af
datatabeller. Jeg slutter kapitlet af med at beskrive, hvordan vi kan sammenligne
flere end to varianser. Dette kendes under navnet Bartletts test.
I skal bruge dette test i kapitel 8. ForegåendeNæste