I denne sidste øvelse skal I arbejde med yderligere to modeller
fra klassen af generelle lineære modeller. Den første model
er en regression, hvor data er delt op i undergrupper.
Den anden model er den multiple regressionsmodel, hvor
man ønsker at beskrive respons ved hjælp af flere forklarende variable.Opgaverne 7.1 og 7.2 skal være forberedt hjemmefra og gennemgås ved
tavlen i den første time af øvelsen.
I den anden time af øvelsen kan I arbejde på afleveringsopgaven 7.3.
Efter øvelsen skal der afleveres en rapport over opgave 7.3.
Opgaven her kan ses som en forlængelse af opgave 6.3
omkring tidsforbruget for at flytte pointer fra område til
område hvor område har bredden og hvor der
i eksperimentet betragtes forskellige værdier af
I denne opgave betragter vi målinger fra fire personer under et. Et simpelt plot af tidsforbruget mod logaritmen af bredden afslører
to ting, nemlig at Fitts lov ikke passer særlig godt, og at
spredning på målingerne vokser med middelværdien.
Hvis vi derimod betragter logaritmen til tidsforbruget, ser spredningen
ud til at være uafhængig af middelværdien og, måske lidt overraskende,
ser der ud til at være en lineær sammenhæng mellem middelværdi og
logaritmen til bredden. Prøv eventuelt selv at lave passende plots,
når du har indlæst data. I denne opgave skal I se på, hvordan den just
nævnte lineære sammenhæng afhænger af personen. Data er i filen FlereRegres.csv med tre søjler.
Første søjle er et personnummer (P1,P2,P3,P4),
anden søjle er bredden af målområdet,
og tredje søjle er tidsforbruget. For hver kombination af person og bredde
er der 5 målinger af tidsforbruget.
Indlæs data, og dan variablen person med personnummer og
variablene logBredde og logTid med henholdsvis logaritmen til
bredden af målområdet og logaritmen af tidsforbruget. Lav en figur, hvor logaritmen til tidsforbruget afsættes mod
logaritmen til bredden, og hvor hver af de fire personer har sin egen farve
(dette opnås med tilføjelsen col=person til plot-kommandoen). Estimer for hver af de fire personer parametrene i modellen, hvor
middelværdien af logaritmen til tidsforbruget afhænger lineært af
logaritmen til bredden.
Du kan lade dig inspirere af koden i
afsnit 7.2.
Indtegn efterfølgende de fire estimerede linjer i jeres figur
(jeg minder om, at en regressionslinje kan indtegnes ved at
benytte abline, hvor input er output fra et kald til lm).
Opstil den statistiske model, hvor hver person har sin egen
lineære sammenhæng mellem middelværdien af logTid og logBredde,
og hver person har sin egen varians omkring den lineære sammenhæng.
Opstil hypotesen, at der er samme varians for de fire personer. Benyt
Bartletts test for at vurdere denne hypotese
(I kan igen lade jer inspirere af koden i
afsnit 7.2).
Opstil nu den reducerede model, hvor der er samme varians i de fire
regressionsmodeller.
Undersøg, om det kan antages, at de fire hældninger er ens. Undersøg dernæst, om det kan antages, at de fire skæringer er ens.
Betragt modellen, hvor hver person har sin egen lineære sammenhæng mellem
middelværdien af logTid og logBredde.
Lav en tabel med 95%-konfidensintervaller for de fire hældninger i
modellen.
I denne opgave har vi forsøgt at
formulere en alternativ Fitts lov omkring en lineær sammenhæng mellem
middelværdien af logaritmen til den tid, der bruges til at flytte en pointer,
og logaritmen til bredden af målområdet. Dette har ikke været
en succes forstået på to måder.
De fire personer i denne opgave er en del af
et større eksperiment, og der gælder ikke en lineær sammenhæng som netop
beskrevet for alle personer. Desuden har vi set i denne opgave, at
for de personer, hvor der gælder linearitet, er både
hældning og skæring personspecifik. Læren er nok, at i
menneske-maskine-sammenhænge vil der altid være et stort element
af personspecifikke sammenhænge, og en lov som for eksempel
Fitts lov skal formuleres på passende vis som en middelopførsel henover
en population.
I har i flere opgaver set på aspekter af Fitts lov. I denne opgave skal I
bruge de oprindelige data fra Fitts artikel fra 1954:
The information capacity of the human motor system in controlling the amplitude of movement, publiceret i Journal of Experimental
Psychology. Eksperimentet er som vist i nedenstående figur,
hvor en pointer (en fysisk pegepind)
skal flyttes ind i et målområde med bredde og
hvor afstanden fra start til midt af målområdet er
Data i artiklen er gennemsnit af tidsforbruget for at flytte pointer,
hvor gennemsnittet er over gentagelse for den samme person og over en
række personer.
Fitt formulerede sin lov på den måde, at tidsforbruget er lineært
i index of difficulty, hvor sidstnævnte er
Andre har foreslået i stedet at bruge
(kaldet Shannon formulation).
I skal i denne opgave se mere fundamentalt på
data ved at bruge både og
Der er 16 målinger i alt
svarende til alle kombinationer af fire afstande med
fire bredder Data findes i filen
FittsData.csv, der har
fire søjler. Afstand () og bredde () er angivet i tommer,
og tidsforbruget i millisekunder. Der er to søjler med tidsforbrug
svarende til to eksperimenter, hvor pegepinden, der flyttes, har
forskellig vægt, henholdsvis en "let" og
en "tung" pegepind.
Indlæs data fra filen FittsData.csv, og dan variablene
logD, logW og logDW med totals-logaritmen til
afstand, til bredde, og med totals-logaritmen til afstand plus bredde.
Dan endvidere variablen tidL med tidsforbruget med brug af den
lette pegepind.Først skal I se på Fitts oprindelige formulering.
Opskriv regressionsmodellen, hvor middelværdien af tidsforbruget
afhænger lineært af de to forklarende variable
logD og logW. Lav en tabel med to søjler,
hvor første søjle er modelformel, og den anden søjle er skøn over
spredningen Indskriv ovenstående model i tabellen. Se på parameterskønnene. Ser det ud til, at data kan
beskrives via index of difficulty,
 ?
Indfør variablen
svarende til index of difficulty, og benyt variablene
index1 og logW i en multipel regressionsmodel.
Lav nu -test for reduktion
fra modellen med de to regressionsvariable logD og logW
til modellen med den ene variabel index1.
Angiv for den sidste model spredningskønnet i din tabel med
spredningskøn.
Gentag undersøgelsen i de to foregående spørgsmål, men hvor der
betragtes de to forklarende variable logDW og logW i stedet
for logD og logW, og hvor Shannon-formuleringen
via testes.
Angiv igen spredningskøn i din tabel med
spredningskøn.
Opskriv nu den fulde regressionsmodel,
hvor middelværdien af tidsforbruget
afhænger lineært af de tre forklarende variable
logD, logW og logDW. Indsæt
spredningskøn i din tabel med spredningskøn.Kan denne model reduceres til en af de foregående modeller i
spørgsmålene ovenfor ?
Betragt et hjemmelavet index of difficulty givet ved
og betragt den multiple
regressionsmodel med de tre forklarende variable
index3, logD og logW.
Lav -test for reduktion
fra den fulde regressionsmodel til model,
hvor middelværdien af tiden afhænger lineært af index3. Lav forskellige grafiske undersøgelser for at vurdere, om du er
tilfreds med regressionsmodellen baseret kun på index3.
Hvis du har lyst, kan du også prøve at se på data med den
tunge pegepind. Specielt kan du se på modellen med det
hjemmelavede mål index3 og lave en figur, hvor
tiderne og regressionslinjerne indtegnes for
begge eksperimenter.
I denne sidste afleveringsopgave er det meningen at I
hovedsageligt skal bruge metoderne fra de 6 første kapitler
af webbogen
(undtagelsen er det sidste spørgsmål). Data vedrører sammenhængen mellem CPU relative performance
(CPUrp, som først kan findes når produktet er på markedet)
og data omkring CPU-enheden,
der er til rådighed, før produktet bliver lanceret.
Til rådighed er der 6 egenskaber
Data er fra artiklen
Attributes of the performance of central processing units: a relative performance prediction model
og er hentet fra
UCI Machine Learning Repository.
Datasættet findes i filen CPUdata.csv, hvor de første seks søjler er
de forklarende variable omtalt ovenfor, søjle 7 er
CPU relative performance, og søjle 8 er en variabel, der inddeler data i
fem grupper.
Der er
207 rækker i filen svarende til 207 CPU-enheder
(hvor der i den oprindelige datafil optræder et nul, er dette ændret
til værdien 0.5 for at kunne logaritmetransformere data nedenfor).Indlæs data, og dan variablene logCT, logCA og
logCPUrp med logaritmen til de relevante variable. Dan desuden
variablene
og dan faktoren gr med værdierne i den sidste søjle
af de indlæste data.
Variabel logID, dannet ovenfor, er et indeks, der
modellerer sammenhængen mellem CPU relative performance
og de andre variable, og er fremkommet ved at
lave en multipel regressionsmodel for logCPUrp med
de forklarende variable logCT, logCA,
logMP, logMD, logCP og logCD.
Ved backward selektion finder man, at logCT,
logMD og logCD kan fjernes fra modellen. Gruppeinddelingen i faktoren gr er baseret på
værdierne af produktet logMP*logCA.
Benyt faktoren gr til at lave
to deldatasæt med logID-værdierne for grupperne og :
logIDa=logID[gr=="A"] og logIDd=logID[gr=="D"].
For de 49 CPU-enheder i gruppe er der 10, der har en logID-værdi
over 4.
Opstil en statistisk model til beskrivelse af observationen 10,
og lav et 95%-konfidensinterval for sandsynligheden, for at
logID-værdien er over 4 i gruppe
For de 53 CPU-enheder i gruppe er der 11, der har en logID-værdi
over 4.
Undersøg, om der er samme frekvens af CPU-enhder med en
logID-værdi over 4 blandt grupperne og
Opstil en statistisk model til beskrivelse af logID-værdierne i
logIDa og logIDd.
Lav et test for hypotesen, at der er samme middelværdi
af logID-værdien i grupperne og .
Betragt nu logID-værdierne for alle fem grupper dannet
ud fra faktoren gr.
Opstil en statistisk model for data, og undersøg først, om
der er samme varians for de fem grupper, og dernæst, om der er samme
middelværdi for de fem grupper.
I det sidste spørgsmål skal I ikke længere betragte
logID-værdierne, men derimod logCPUrp.
Ovenstående analyse viser, at der er information i produktet
logMP*logCA, der kan bruges til at beskrive
logCPUrp. I dette delspørgsmål skal I
analysere en multipel regressionsmodel til beskrivelse af
logCPUrp, hvor I som forklarende variable bruger
Giv navne til de 6 nye variable der består af produkt af
to variable, og opskriv derefter den multiple regressionsmodel,
hvor alle 9 forklarende variable inddrages.Reducer modellen ved brug af backward selektion,
og lav grafisk kontrol af slutmodellen.
Lav et test for reduktion fra startmodel til slutmodel, og angiv et
95%-konfidensinterval for regressionskoefficienten
hørende til variablen logMP*logCA i slutmodellen.