Afsnit 2.8: Two-sample datasæt og boxplot

I artiklen How the Horned Lizard Got Its Horns beskrives data omkring længden af horn på den hornede tudseøgle for to populationer. Der er 30 målingerne fra tudseøgler dræbt af den amerikanske tornskade, hvor man har fundet tudseøglen ophængt på torne eller pigtråd, og 154 målingerne fra tilfældigt indfangede levende tudseøgler.
Forfatterne ønsker at sammenligne de to populationer og bruge en eventuel forskel til at diskutere selektion for lange horn. Data er indskrevet i kodevinduet nedenfor (enheden er millimeter), hvor der laves et qqplot af de to datasæt og en figur med boxplots. Bemærk koden til at lave flere qqplots i den samme figur.

Definition på boxplot

Et boxplot består i midten af en kasse defineret ud fra de tre tal hvor er den værdi, for hvilken 25% af dataværdierne ligger under og 75% ligger over værdien, og med en tilsvarende definition for og (R bruger lineær interpolation til beregning af disse). Den midterste værdi, kaldes medianen af data, og kaldes inter quartile range (IQR). Kassen går fra til og medianen angives som en vandret streg inde i kassen. Over og under kassen er lavet en streg, der går fra kassen til den observation, der ligger længst væk fra kassen, men indenfor en afstand af fra kassen. Endelig markeres de punkter, der ligger endnu længere væk fra kassen. Prøv at køre boxplot med datasættet Her er værdierne 1 og 7 er punkterne længst væk, men indenfor fra kassen, og 13 ligger udenfor. I skal benytte kommandoen boxplot(x), hvor er en vektor med data.

2.8.1 Flere qqplots og boxplots i samme figur

Boxplottet giver en meget simpel måde grafisk at sammenligne flere datasæt, som vist i det følgende
I nedenstående kodevindue er vist konstruktionen af qqplot og boxplot for data omkring hornlængden af tudseøglen (det afsluttende "c()" skal ikke med, når I kører R på jeres egen computer).

Se opstartskoden (til/fra)

Prøv, i kaldet til boxplot ovenfor, at tilføje horizontal=TRUE. Ser data normalfordelt ud? Hvad viser boxplottene om forholdene mellem de to populationer?

Svar: QQplot

De to qqplots ser ud til at sno sig pænt omkring en ret linje, hvorfor vi siger, at data kan beskrives med normalfordelingen. De to linjer i qqplottene ser parallelle ud, hvilket er en indikation af samme varians i de to grupper af observationer (hældningen i et qqplot er hvor sigma er spredningen).
I boxplottene er de to kasser cirka lige høje, hvilket igen er en indikation af samme varians i de to grupper. De to kasser er forskudt i forhold til hinanden, hvilket tyder på forskel i middelværdi for de to populationer. Medianen ligger cirka midt i de to kasser, hvilket tyder på en symmetrisk fordeling i overensstemmelse med en normalfordeling.

ForegåendeNæste