Øvelserne hørende til kapitel 2 vedrører situationen med et enkelt normalfordelt
observationssæt og situationen med
to normalfordelte observationssæt.
I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot.
For t observationssæt skal I lave inferens om
middelværdien og variansen
i normalfordelingen. For to observationssæt skal I både sammenligne varianser
og sammenligne middelværdier, og specielt lave konfidensinterval for
forskel i middelværdi.
I bjergegne danner floder en
alluvialkegle
når de aflejrer sedimenter ved foden af bjerget. Disse kegler
beskrives ofte som værende symmetriske, men forfatterne til artiklen
Interactions between alluvial fans and axial rivers in Yukon, Canada and Alaska, USA
sætter spørgsmålstegn ved dette.
For 63 alluvialkegler har forfatterne målt en længde af keglen
i hver sin side og dannet forholdet mellem de to længder,
kegleforholdet:
hvor og står for downstream og upstream for vandløbet
nedenfor keglen. En symmetrisk kegle svarer til at
kegleforholdet har værdien 1.
Målingerne findes i filen Alluvialkegle.txt. Indlæs data fra filen Alluvialkegle.txt med kommandoen
scan("Alluvialkegle.txt").
Denne opgave kan nu formuleres kort som følger. Opstil en
statistisk model for kegleforholdet,
lav inferens for parametrene i modellen
og overvej en hypotese, om at keglerne er symmetriske.
Skrevet ud bliver dette til følgende spørgsmål.
Undersøg grafisk, om kegleforholdet
kan beskrives med en normalfordeling
via et histogram og et qqplot. Overvej om det er bedre at
beskrive logariten til kegleforholdet med en normalfordeling.
Opskriv en statistisk model for data.
Lav en tabel med skøn og 95%-konfidensinterval for
middelværdien, variansen og spredningen i en normalfordelingsmodel.
Overvej, om data er i overenstemmelse med
teorien om symmetriske kegler.
Uanset, om I beskriver de oprindelige kegleforhold eller logaritmen
til disse, vil I finde, at spredningen er så stor,
at et kegleforhold under 1 vil have en
sandsynlighed på cirka 16% i den estimerede normalfordeling
(overvej dette).
Forfatterne diskuterer ud fra fluiddynamiske betragtninger,
både hvorfor kegleforholdet ofte er større end 1, men også
hvorfor værdier mindre end 1 kan forekomme.
I artiklen
Effect of metallic iron from grinding on ferrous iron determinations
måles indholdet af jern () i en række klippestykker ved
to målemetoder betegnet som og
I tabellen nedenfor
er kun medtaget de prøver, hvor jernindholdet er under 0.05 procent.
I denne opgave skal I ud fra differenserne mellem de to målinger
angive den viden, vi har om
en eventuel forskel mellem de to målemetoder.
Middelværdien af differensen siger noget om,
hvilken generel tendens der er i forskellen
mellem de to metoder, og spredningen repræsenterer
den kombinerede måleusikkerhed fra de to målinger på den samme prøve.
Data findes i filen Jern.csv, som er organiseret i 12 rækker og
tre søjler: første søjle angiver
prøvenummer, anden søjle angiver -målingen og
tredje søjle angiver -målingen.
Indlæs data, og lav en figur, hvor indholdet af jern fra
metoden tegnes op mod indholdet fra
metoden. Indtegn identitetslinjen i figuren.
Prøv at beskrive i ord,
hvad figuren viser om forskel i jernindhold mellem de to målemetoder.
Betragt nu de 12 differenser mellem jernindhold fra de to målemetoder.
Lav et qqplot af data, og opskriv
den statistiske model, hvor differensen er normalfordelt.
Lav et test for hypotesen, at middelværdien af differensen er nul,
svarende til hypotesen, at der ikke er forskel mellem de to målemetoder.
Lav dernæst et 95%-konfidensinterval for middelværdien af differensen.
Hvad bliver konklusionen af disse udregninger ?
Når I laver et -test for at middelværdierne af differenserne er nul,
kaldes dette et parret -test: observationerne fra de
to målemetoder er
parret, ved at der er målt på det samme klippestykke.
For en given målemetode er
der stor variation i jernindholdet mellem klippestykkerne,
og det kan være svært at se
en forskel mellem to målemetoder, hvis vi forestiller os et alternativt
eksperiment, hvor der er indsamlet 12 klipestykker, der analyseres med den
ene målemetoder, og 12 andre klippestykker der analyseres med den
anden målemetode.
I kan se dette ved at prøve at lave et
two-sample -test for data i denne opgave, hvor det ene observationssæt er
data fra den ene målemetode, og det andet observationssæt er
data fra den anden målemetode (two-sample -test skal
I arbejde med i den næste opgave).
Indlæs data og dan
vektorerne art og form ud fra søjlerne i de indlæste data.
Dan dernæst to datasæt formEng og formVip
med værdierne fra form hørende til henholdsvis Engpibe og
Vipstjert.Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at
lave flere qqplots i den samme figur, kan du se i
kodevinduet i
afsnit 2.8.
Synes du, at gøgeæggenes form for hver værtsart
kan beskrives med en normalfordeling ?Lav også en figur med boxplot
for hvert af de to datasæt. Flere boxplots i
den samme figur kan laves som vist i
kodevinduet i
afsnit 2.8, men kan også laves med kommandoen
boxplot(formart).
Hvilke ligheder og forskelle mellem de to datasæt
kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt (formEng og formVip)
følger sin egen normalfordeling.
Opsummer de to datasæt i form af en tabel, som for hvert datasæt
indeholder
antallet af observationer, gennemsnit, empirisk
spredning og et 95%-konfidensinterval for
middelværdien.
Antallet af elementer i en vektor kan i R findes
med funktionen length.
Opskriv hypotesen, at de to varianser er ens, og lav
-testet for ens varianser. Er det rimeligt at antage, at
variansen af æggets form er den samme for de to værtsarter ?
Opstil nu modellen, hvor data er normalfordelt, og de to datasæt
har hver sin middelværdi, men samme varians.
Opstil hypotesen at de to middelværdier er ens, og lav et test af denne
hypotese. Er det rimeligt at antage, at æggets form har samme middelværdi for de to
værtsarter ?
Angiv et
95%-konfidensinterval for forskellen i
middelværdi af æggets form mellem værtsarten Engpiber og Hvid vipstjert. Synes du, at forskellen mellem
de to middelværdier i denne opgave er stor
(se begrebet effektstørrelse i eksempel 2.10.2) ?
I artiklen betegnes de to situationer med
Text og Avatar. Som et af målepunkterne i eksperimentet
måles den gennemsnitlige puls af forsøgspersonerne: 16 personer i
Text-gruppen og 15 personer i Avatar-gruppen.
Data ligger i filen Chatbot.csv i form af to søjler, hvor første
søjle angiver chatbotsituationen,
og anden søjle er pulsen. Data i denne fil er
simulerede på en sådan måde, at informationen i figur 8 i
den ovennævnte artikel efterlignes.
Indlæs data fra filen Chatbot.csv. Lav to datasæt
med puls svarende til grupperne Text og Avatar.
Du skal i den samme figur lave et qqplot for begge datasæt. Synes du, at pulsen for hver chatbotsituation kan beskrives med en
normalfordeling ?Lav en figur, der indeholder boxplot for de to chatbotsituationer.
Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling.
Opsummer de to datasæt i form af en tabel, som for hvert datasæt
indeholder
antallet af observationer, gennemsnit, empirisk
spredning og et 95%-konfidensinterval for
middelværdien.
Opstil hypotesen, at de to varianser er ens.
Eftervis, at data strider mod at sige,
at variansen på pulsen er
den samme for Text-gruppen som for Avatar-gruppen.
Angiv et 95%-konfidensinterval for forskellen i
middelværdi af pulsen mellem Text-gruppen og Avatar-gruppen. Synes du, at forskellen mellem
de to middelværdier er stor ?
Prøv til sidst at betragte logaritmen til pulsen. Lav qqplots
for at se, om disse data kan beskrives med en normalfordeling.
Lav et test, for at varianserne er ens, og lav et 95%-konfidensinterval
for forskel i middelværdi af logaritmen til pulsen. Oversæt det fundne konfidensinterval for forskel i middelværdi
af logaritmen til pulsen til et
95%-konfidensinterval for forholdet mellem middelværdierne af
pulsen, jævnfør underafsnit 2.13.3.
Hvor mange gange større er middelværdien af pulsen for
Avatar-gruppen i forhold til Text-gruppen ?
I skal i denne opgave lave en figur, der illustrerer standard deviation i
forhold til standard error. Start med at dele plotvinduet op i
to dele med ordren
par(mfrow=c(1,2)).
Simuler observationer
fra en standard normalfordeling
(benyt rnorm(20) til dette).
Beregn den empiriske spredning beregn
skøn over middelværdien og standard error
for middelværdiskønnet,
Lav en figur med
kaldet
boxplot(x,xlim=c(0,3),ylim=c(-3,3)), hvor er en vektor med
de simulerede værdier.
Indsæt to lodrette linjestykker
med yderpunkter henholdsvis og
Disse skal placeres ud for
og på førsteaksen. Dette kan gøres med
funktionen errrobar omtalt i underfsnittet
Egne funktioner i R i afsnit
1.9:
errorbar(c(1.5,2.0),c(),lower,upper)
hvor lower=c(-s,-s/sqrt(n)), og upper
er tilsvarende med plus i stedet for minus.
Indsæt endelig et
vandret linjestykke til at markere værdien af
Gentag ovenstående simulering og tegning med observationer.
Hvilke dele skal ligne hinanden i de to tegninger, og hvilke skal ikke ?
Betragt to variansskøn , .
I skal i denne opgave vise, at -testet for ens varianser fra afsnit 2.12,
i tilfældet med
, er
identisk med testet baseret på log likelihoodratio testoren. Lad den fælles værdi af frihedsgraderne være , lad , og
lad være teststørrelsen fra (4.5.1)
med .
Når vi tester om to varianser er ens ved et test på niveau
0.05, forkaster vi, hvis er mindre end eller
lig med
,
eller hvis er større end eller lig med
,
hvor , ,
er frihedsgraderne hørende til de to variansskøn. Betragt nu alternativet, hvor .
Vis, at sandsynligheden for at forkaste hypotesen om ens varianser
(styrken) er
Vælg værdier for de to frihedsgradsantal, og lav en figur,
der viser styrken som funktion af variansforholdet .
Lad og lad de to frihedsgradsantal være ens.
Lav en figur, der viser styrken som funktion af frihedsgradsantallet.