Afsnit 4.8: Two-sample datasæt og boxplot

I geologien benytter man ofte egenskaber ved for eksempel aflejringer til at slutte tilbage til de processer, der har dannet aflejringen. I artiklen Notes on the application of shape parameters to differentiate between beach and river deposits in Southern Africa undersøges, om man kan bruge formen af rullesten til at afgøre, om de stammer fra et kystområde eller fra et flodområde. Til undersøgelsen indsamles der rullesten blandt andet fra kysten i Namibia lidt nord for Oranjeflodens udmunding og blandt andet ved et flodområde tæt på Lichtenburg i Sydafrika. Specifikt betragter jeg nedenfor 50 rullesten fra en kyst og 49 rullesten fra en flod, og hvor alle stenene har en diameter i området 5-12 cm. For hver rullesten måles 3 akser, man kan tænke på disse som længde, bredde og tykkelse. Et tykhedsmål udregnes som

100\cdot\text{tykkelse}/\text{længde}

, og det er dette mål, vi betragter nedenfor. Kigger man på data, vil man se, at fordelingen af tykhed for de to områder rækker ind over hinanden. En enkelt rullesten vil derfor ikke i sig selv kunne bruges til at vurdere oprindelsen for denne. Omvendt, hvis der er forskel i fordelingen, for eksempel forskel i middelværdien, kan vi ved at indsamle tilstrækkelig mange rullesten få en formodning om oprindelsen.

Image by Rudy and Peter Skitterians from Pixabay

Data er indskrevet i kodevinduet nedenfor (data er dimensionsløs), hvor der laves et qqplot af de to datasæt og en figur med boxplots. Bemærk koden til at lave flere qqplots i den samme figur.

Definition på boxplot

Et boxplot består i midten af en kasse defineret ud fra de tre tal

(q_{25},q_{50},q_{75}),

hvor

q_{25}

er den værdi, for hvilken 25% af dataværdierne ligger under og 75% ligger over værdien, og med en tilsvarende definition for

q_{50}

og

q_{75}

(R bruger lineær interpolation til beregning af disse). Den midterste værdi,

q_{50},

kaldes medianen af data, og

q_{75}-q_{25}

kaldes inter quartile range (IQR). Kassen går fra

q_{25}

til

q_{75},

og medianen angives som en vandret streg inde i kassen. Over og under kassen er lavet en streg, der går fra kassen til den observation, der ligger længst væk fra kassen, men indenfor en afstand af

1.5\cdot\text{IQR}

fra kassen. Endelig markeres de punkter, der ligger endnu længere væk fra kassen. Prøv at køre boxplot med datasættet

1,2,3,4,5,6,7,13.

Her er

q_{25}=2.5,

q_{50}=4.5,

q_{75}=6.5,

værdierne 1 og 7 er punkterne længst væk, men indenfor

1.5\cdot\text{IQR}=6

fra kassen, og 13 ligger udenfor. I skal benytte kommandoen boxplot(x), hvor

x

er en vektor med data.

4.8.1 Flere qqplots og boxplots i samme figur

Boxplottet giver en meget simpel måde grafisk at sammenligne flere datasæt, som vist i det følgende

I nedenstående kodevindue er vist konstruktionen af qqplot og boxplot for data omkring tykhed af rullesten fra henholdsvis et kystområde og et flodområde (det afsluttende "c()" skal ikke med, når I kører R på jeres egen computer).

Se opstartskoden (til/fra)

xxxxxxxxxx
 
# data indskrives
kyst=c(25.8,61.5,41.9,55.4,51.9,42.7,68.5,54.6,36.2,47.3,
60.4,46.9,37.7,42.7,41.5,36.9,35.4,41.2,59.6,46.5,40.0,66.9,
50.0,44.6,38.1,40.8,61.2,38.1,31.2,40.8,26.5,52.3,56.2,45.4,
52.7,41.9,44.2,21.5,47.7,42.3,45.0,48.8,47.3,53.8,41.9,41.5,
48.5,30.0,56.9,40.0)
flod=c(50.6,69.5,54.8,75.7,58.7,35.5,54.1,54.1,52.9,54.1,
43.2,49.4,74.2,71.1,35.5,37.8,66.5,52.9,55.2,30.8,40.1,59.5,
73.0,61.4,68.8,70.7,71.5,51.4,37.0,77.7,55.2,45.2,63.4,50.6,
62.6,49.0,57.2,45.2,58.3,71.9,57.5,37.8,50.6,39.0,48.3,51.7,
44.0,67.6,43.6)
​
c("Opstart er gennemført: kyst og flod er indskrevet")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
# Data forberedes
data1=kyst
data2=flod
lab=c("Kyst","Flod")
​
# To qqplots i samme figur
par(mfrow=c(1,2))
qqnorm(data1,ylim=range(data1,data2))
points(qqnorm(data2,plot=FALSE),col=2,pch=20)
legend("topleft",legend=lab,col=c(1,2),pch=c(1,20))
​
# to boxplots i samme figur
boxplot(data1,data2,names=lab)
c("Figur er dannet")

Prøv, i kaldet til boxplot ovenfor, at tilføje horizontal=TRUE. Ser data normalfordelt ud ? Hvad viser boxplottene om forholdene mellem de to populationer ?

De to qqplots ser ud til at sno sig pænt omkring en ret linje, hvorfor vi siger, at data kan beskrives med normalfordelingen. De to linjer i qqplottene ser parallelle ud, hvilket er en indikation af samme varians i de to grupper af observationer (hældningen i et qqplot er

\sigma,

hvor

\sigma

er spredningen).

I boxplottene er de to kasser cirka lige høje, hvilket igen er en indikation af samme varians i de to grupper. De to kasser er forskudt i forhold til hinanden, hvilket tyder på forskel i middelværdi for de to populationer. Medianen ligger cirka midt i de to kasser, hvilket tyder på en symmetrisk fordeling i overensstemmelse med en normalfordeling.

Foregående Næste