I artiklen
How the Horned Lizard Got Its Horns
beskrives data omkring længden af horn på den
hornede tudseøgle for to populationer. Der er 30 målingerne fra
tudseøgler dræbt af den amerikanske tornskade, hvor man har fundet
tudseøglen ophængt på torne eller pigtråd, og 154 målingerne fra
tilfældigt indfangede levende tudseøgler.
Forfatterne ønsker at
sammenligne de to populationer og bruge
en eventuel forskel til at diskutere selektion for lange horn.
Data er indskrevet i kodevinduet nedenfor (enheden er millimeter), hvor der
laves et qqplot af de to datasæt og en figur med boxplots.
Bemærk koden til at lave flere qqplots i den samme figur.
Et boxplot består i midten af en kasse
defineret ud fra de tre tal
hvor er den værdi, for hvilken 25% af
dataværdierne ligger under og 75% ligger over værdien, og med en
tilsvarende definition for og
(R bruger lineær interpolation til
beregning af disse).
Den midterste værdi,
kaldes medianen af data, og
kaldes
inter quartile range (IQR). Kassen går fra til
og medianen angives som en vandret streg inde i kassen.
Over og under
kassen er lavet en streg, der går fra kassen til den observation, der
ligger længst væk fra kassen, men indenfor en afstand af
fra kassen. Endelig markeres de punkter, der ligger endnu længere væk fra
kassen. Prøv at køre boxplot med datasættet Her er
værdierne 1 og 7 er
punkterne længst væk, men indenfor fra kassen,
og 13 ligger udenfor. I skal benytte kommandoen boxplot(x),
hvor er en vektor med data.
Boxplottet giver en meget simpel måde grafisk at
sammenligne flere datasæt, som vist i det følgende I nedenstående kodevindue er vist konstruktionen af qqplot og boxplot
for data omkring hornlængden af tudseøglen
(det afsluttende "c()" skal ikke med, når I kører
R på jeres egen computer).
Prøv, i kaldet til boxplot ovenfor, at tilføje
horizontal=TRUE. Ser data normalfordelt ud ?
Hvad viser boxplottene om forholdene mellem de to populationer ?
De to qqplots ser ud til at sno sig pænt omkring en ret linje,
hvorfor vi siger, at data kan beskrives med normalfordelingen.
De to linjer i qqplottene ser parallelle ud, hvilket er en
indikation af samme varians i de to grupper af observationer
(hældningen i et qqplot er hvor sigma er spredningen). I boxplottene er de to kasser cirka lige høje, hvilket igen er en
indikation af samme varians i de to grupper. De to kasser er forskudt
i forhold til hinanden, hvilket tyder på forskel i middelværdi
for de to populationer. Medianen ligger cirka midt i de to kasser,
hvilket tyder på en symmetrisk fordeling i overensstemmelse med
en normalfordeling.