I geologien benytter man ofte egenskaber ved for eksempel
aflejringer til at slutte tilbage til de processer, der har
dannet aflejringen. I artiklen
Notes on the application of shape parameters to differentiate between beach and river deposits in Southern Africa
undersøges, om man kan bruge formen af rullesten til at afgøre, om de stammer
fra et kystområde eller fra et flodområde.
Til undersøgelsen indsamles der rullesten blandt andet fra kysten i Namibia
lidt nord for Oranjeflodens udmunding og blandt andet ved et flodområde tæt på
Lichtenburg i Sydafrika. Specifikt betragter jeg nedenfor 50
rullesten fra en kyst og 49 rullesten fra en flod, og hvor alle stenene
har en diameter i området 5-12 cm.
For hver rullesten måles 3 akser, man kan tænke på disse som længde, bredde
og tykkelse. Et tykhedsmål udregnes som
, og det er dette mål, vi betragter
nedenfor. Kigger man på data, vil man se, at fordelingen af tykhed
for de to områder rækker ind over hinanden. En enkelt rullesten vil
derfor ikke i sig selv kunne bruges til at vurdere oprindelsen for
denne. Omvendt, hvis der er forskel i fordelingen, for eksempel
forskel i middelværdien, kan vi ved at indsamle tilstrækkelig mange
rullesten få en formodning om oprindelsen.
Image by Rudy and Peter Skitterians from Pixabay
Data er indskrevet i kodevinduet nedenfor (data er dimensionsløs),
hvor der laves et qqplot af de to datasæt og en figur med boxplots.
Bemærk koden til at lave flere qqplots i den samme figur.
Et boxplot består i midten af en kasse
defineret ud fra de tre tal
hvor er den værdi, for hvilken 25% af
dataværdierne ligger under og 75% ligger over værdien, og med en
tilsvarende definition for og
(R bruger lineær interpolation til
beregning af disse).
Den midterste værdi,
kaldes medianen af data, og
kaldes
inter quartile range (IQR). Kassen går fra til
og medianen angives som en vandret streg inde i kassen.
Over og under
kassen er lavet en streg, der går fra kassen til den observation, der
ligger længst væk fra kassen, men indenfor en afstand af
fra kassen. Endelig markeres de punkter, der ligger endnu længere væk fra
kassen. Prøv at køre boxplot med datasættet Her er
værdierne 1 og 7 er
punkterne længst væk, men indenfor fra kassen,
og 13 ligger udenfor. I skal benytte kommandoen boxplot(x),
hvor er en vektor med data.
Boxplottet giver en meget simpel måde grafisk at
sammenligne flere datasæt, som vist i det følgende I nedenstående kodevindue er vist konstruktionen af qqplot og boxplot
for data omkring tykhed af rullesten fra henholdsvis et kystområde
og et flodområde
(det afsluttende "c()" skal ikke med, når I kører
R på jeres egen computer).
Prøv, i kaldet til boxplot ovenfor, at tilføje
horizontal=TRUE. Ser data normalfordelt ud ?
Hvad viser boxplottene om forholdene mellem de to populationer ?
De to qqplots ser ud til at sno sig pænt omkring en ret linje,
hvorfor vi siger, at data kan beskrives med normalfordelingen.
De to linjer i qqplottene ser parallelle ud, hvilket er en
indikation af samme varians i de to grupper af observationer
(hældningen i et qqplot er hvor er spredningen). I boxplottene er de to kasser cirka lige høje, hvilket igen er en
indikation af samme varians i de to grupper. De to kasser er forskudt
i forhold til hinanden, hvilket tyder på forskel i middelværdi
for de to populationer. Medianen ligger cirka midt i de to kasser,
hvilket tyder på en symmetrisk fordeling i overensstemmelse med
en normalfordeling.