Denne uges øvelse vedrører situationen med et enkelt normalfordelt
observationssæt og situationen med
to normalfordelte observationssæt.
I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot.
For t observationssæt skal I lave inferens om
middelværdien og variansen
i normalfordelingen, hvor I for første gang skal bruge det vigtige
-test. For to observationssæt skal I både sammenligne varianser
og sammenligne middelværdier, og specielt lave konfidensinterval for
forskel i middelværdi.Alle opgaverne skal være forberedt hjemmefra og gennemgås ved tavlen
til øvelserne.
I denne opgave skal I vende tilbage til data fra
opgave 3.3 vedrørende position
af pointer, når denne flyttes fra
et startpunkt og ind i et målområde.
Der er 269 observationer målt relativt til
midtpunkt af målområdet (enheden angives i figuren som "pixels").
En naturlig hypotese er, at position af pointer er symmetrisk
omkring nul svarende til midtpunktet af målområdet.
Data ligger i filen Position.txt. Indlæs data fra filen Position.txt.
Denne opgave kan nu formuleres kort som følger. Opstil en
statistisk model for positionsmålingerne,
lav inferens for parametrene i modellen
og overvej en hypotese, om at fordelingen af positionen er
symmetrisk omkring nul.
Skrevet ud bliver dette til følgende spørgsmål.
Undersøg grafisk, om positionen
kan beskrives med en normalfordeling
via et qqplot (sammenlign med resultatet i opgave 3.3).
Opskriv en statistisk model for data.
Lav en tabel med skøn og 95%-konfidensinterval for
middelværdien, variansen og spredningen i en normalfordelingsmodel.
Overvej, om data er i overenstemmelse med
teorien om, at fordelingen af positionen er symmetrisk omkring nul.
Målområdet for pointer er intervallet Beregn, ud
fra den estimerede normalfordeling, sandsynligheden for at ramme uden for
målområdet.
Som i opgave 1.5 skal I her
se på et eksperiment, hvor personer skal flytte
pointeren på en computerskærm via musen.
Figuren i opgave 1.5 viser opstillingen, hvor
pointeren skal flyttes fra område til område
og tiden det tager at flytte pointeren registreres.
I denne opgave skal I betragte data fra 12 personer.
For hver person er der en tid for et eksperiment med
og for et eksperiment med
hvor er afstanden
mellem områderne og og er bredden af målområdet
se figur i opgave 1.5. Den enkelte værdi for en person er
et gennemsnit over en række gentagne flytninger af pointeren.
Ifølge Fitts lov er tidsforbruget især bestemt
af forholdet som er lig med 3 i begge de to kombinationer ovenfor.
Data, som er stillet til rådighed af
Jörg Müller,
fremgår af følgende tabel, hvor også differens mellem de to
målinger for hver person er angivet.
I denne opgave skal I ud fra de 12 differenser angive den viden, vi har
om forskel i tidsforbruget mellem de to opsætninger
og
Hvis der er systematisk forskel i tidsforbruget mellem de to
opsætninger, tyder dette på, at Fitts lov ikke holder eksakt.
Spredningen på differenserne siger både noget om variation i tidsforbruget
fra gentagelse til gentagelse samt noget om en personafhængig forskel mellem
de to opsætninger.
Data findes i filen DWpointer.csv, som er organiseret i
12 rækker og tre søjler.
Indlæs data, og lav en figur, hvor tidsforbruget ved
tegnes op mod tidsforbruget ved
Indtegn identitetslinjen i figuren. Prøv at beskrive i ord,
hvad figuren viser om forskel i tidsforbrug mellem de to opsætninger.
Betragt nu de 12 differenser i tidsforbruget.
Lav et qqplot af data, og opskriv
den statistiske model, hvor differensen er normalfordelt.
Lav et test for hypotesen, at middelværdien af differensen er nul,
svarende til hypotesen, at Fitts lov holder.
Lav dernæst et 95%-konfidensinterval for middelværdien af differensen.
Hvad bliver konklusionen af disse udregninger ?
Når I laver et -test, for at middelværdierne af differenserne er nul,
kaldes dette et parret -test:
observationerne fra de to opsætninger er
parret, ved at der er målt på den samme person.
Inden for en bestemt opsætning er
der stor variation i tidsforbrug mellem personer, og det kan være svært at se
en forskel mellem to opsætninger, hvis vi forestiller os et alternativt
eksperiment, hvor 12 personer har afprøvet opsætningen med
og 12 andre personer har afprøvet opsætningen med
I kan se dette ved at prøve at lave et
two-sample -test for data i denne opgave, hvor det ene observationssæt er
data fra opsætningen med
og det andet observationssæt er
data for opsætningen med (two-sample -test skal
I arbejde med i den næste opgave).
Som i den foregående opgave skal I se på tidsforbruget ved at flytte
pointeren på computerskærmen fra et område til et område eller fra
område til område I skal se på, om der er forskel i tidsforbruget
for to personer.
I filen ToPersoner.csv ligger der 28 tidsmålinger (målt i sekunder)
for person 1 og 26 tidsmålinger for person 2. Filen har to søjler,
hvor første søjle angiver person, og den anden søjle angiver
tidsforbruget målt i sekunder.
Indlæs data og dan
vektorerne person og tid ud fra søjlerne i de indlæste data.
Dan dernæst to datasæt tidP1 og tidP2
med værdierne fra tid hørende til henholdsvis person 1 og
person 2 (se eventuelt opgave 1.4).Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at
lave flere qqplots i den samme figur, kan du se i
kodevinduet i
afsnit 4.8.
Synes du, at tidsforbruget for hver af de to personer
kan beskrives med en normalfordeling ?Lav også en figur med boxplot
for hvert af de to datasæt. Flere boxplots i
den samme figur kan laves som vist i
kodevinduet i
afsnit 4.8, men kan også laves med kommandoen
boxplot(tidperson).
Hvilke ligheder og forskelle mellem de to datasæt
kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt (tidP1 og tidP2)
følger sin egen normalfordeling.
Opsummer de to datasæt i form af en tabel, som for hvert datasæt
indeholder
antallet af observationer, gennemsnit, empirisk
spredning og et 95%-konfidensinterval for
middelværdien.
Antallet af elementer i en vektor kan i R findes
med funktionen length.
Opskriv hypotesen, at de to varianser er ens, og lav
-testet for ens varianser. Er det rimeligt at antage, at
variansen af tidsforbruget er den samme for de to personer ?
Opstil nu modellen, hvor data er normalfordelt, og de to datasæt
har hver sin middelværdi, men samme varians.
Opstil hypotesen at de to middelværdier er ens, og lav et test af denne
hypotese. Er det rimeligt at antage, at tidsforbruget har samme middelværdi for de to
personer ?
Angiv et
95%-konfidensinterval for forskellen i
middelværdi af tidsforbruget mellem person 1 og person 2. Synes du, at forskellen mellem
de to middelværdier i denne opgave er stor
(se begrebet effektstørrelse i eksempel 4.10.2) ?
I artiklen betegnes de to situationer med
Text og Avatar. Som et af målepunkterne i eksperimentet
måles den gennemsnitlige puls af forsøgspersonerne: 16 personer i
Text-gruppen og 15 personer i Avatar-gruppen.
Data ligger i filen Chatbot.csv i form af to søjler, hvor første
søjle angiver chatbotsituationen,
og anden søjle er pulsen. Data i denne fil er
simulerede på en sådan måde, at informationen i figur 8 i
den ovennævnte artikel efterlignes.
Indlæs data fra filen Chatbot.csv. Lav to datasæt
med puls svarende til grupperne Text og Avatar.
Du skal i den samme figur lave et qqplot for begge datasæt. Synes du, at pulsen for hver chatbotsituation kan beskrives med en
normalfordeling ?Lav en figur, der indeholder boxplot for de to chatbotsituationer.
Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling.
Opsummer de to datasæt i form af en tabel, som for hvert datasæt
indeholder
antallet af observationer, gennemsnit, empirisk
spredning og et 95%-konfidensinterval for
middelværdien.
Opstil hypotesen, at de to varianser er ens.
Eftervis, at data strider mod at sige,
at variansen på pulsen er
den samme for Text-gruppen som for Avatar-gruppen.
Angiv et 95%-konfidensinterval for forskellen i
middelværdi af pulsen mellem Text-gruppen og Avatar-gruppen. Synes du, at forskellen mellem
de to middelværdier er stor ?
Prøv til sidst at betragte logaritmen til pulsen. Lav qqplots
for at se, om disse data kan beskrives med en normalfordeling.
Lav et test, for at varianserne er ens, og lav et 95%-konfidensinterval
for forskel i middelværdi af logaritmen til pulsen. Oversæt det fundne konfidensinterval for forskel i middelværdi
af logaritmen til pulsen til et
95%-konfidensinterval for forholdet mellem middelværdierne af
pulsen, jævnfør underafsnit 4.13.3.
Hvor mange gange større er middelværdien af pulsen for
Avatar-gruppen i forhold til Text-gruppen ?
I skal i denne opgave lave en figur, der illustrerer standard deviation i
forhold til standard error. Start med at dele plotvinduet op i
to dele med ordren
par(mfrow=c(1,2)).
Simuler observationer
fra en standard normalfordeling
(benyt rnorm(20) til dette).
Beregn den empiriske spredning beregn
skøn over middelværdien og standard error
for middelværdiskønnet,
Lav en figur med
kaldet
boxplot(x,xlim=c(0,3),ylim=c(-3,3)), hvor er en vektor med
de simulerede værdier.
Indsæt to lodrette linjestykker
med yderpunkter henholdsvis og
Disse skal placeres ud for
og på førsteaksen. Dette kan gøres med
funktionen errrobar omtalt under
punktet Egne funktioner i R i afsnit
1.2:
errorbar(c(1.5,2.0),c(),lower,upper)
hvor lower=c(-s,-s/sqrt(n)), og upper
er tilsvarende med plus i stedet for minus.
Indsæt endelig et
vandret linjestykke til at markere værdien af
Gentag ovenstående simulering og tegning med observationer.
Hvilke dele skal ligne hinanden i de to tegninger, og hvilke skal ikke ?