Afsnit 7.9: Øvelse 7: IT

I denne sidste øvelse skal I arbejde med yderligere to modeller fra klassen af generelle lineære modeller. Den første model er en regression, hvor data er delt op i undergrupper. Den anden model er den multiple regressionsmodel, hvor man ønsker at beskrive respons ved hjælp af flere forklarende variable.
Opgaverne 7.1 og 7.2 skal være forberedt hjemmefra og gennemgås ved tavlen i den første time af øvelsen. I den anden time af øvelsen kan I arbejde på afleveringsopgaven 7.3. Efter øvelsen skal der afleveres en rapport over opgave 7.3.

Opgave 7.1: Flere regressionslinjer

Opgaven her kan ses som en forlængelse af opgave 6.3 omkring tidsforbruget for at flytte pointer fra område til område hvor område har bredden og hvor der i eksperimentet betragtes forskellige værdier af I denne opgave betragter vi målinger fra fire personer under et.
Et simpelt plot af tidsforbruget mod logaritmen af bredden afslører to ting, nemlig at Fitts lov ikke passer særlig godt, og at spredning på målingerne vokser med middelværdien. Hvis vi derimod betragter logaritmen til tidsforbruget, ser spredningen ud til at være uafhængig af middelværdien og, måske lidt overraskende, ser der ud til at være en lineær sammenhæng mellem middelværdi og logaritmen til bredden. Prøv eventuelt selv at lave passende plots, når du har indlæst data. I denne opgave skal I se på, hvordan den just nævnte lineære sammenhæng afhænger af personen.
Data er i filen FlereRegres.csv med tre søjler. Første søjle er et personnummer (P1,P2,P3,P4), anden søjle er bredden af målområdet, og tredje søjle er tidsforbruget. For hver kombination af person og bredde er der 5 målinger af tidsforbruget.
  1. Indlæs data, og dan variablen person med personnummer og variablene logBredde og logTid med henholdsvis logaritmen til bredden af målområdet og logaritmen af tidsforbruget.
    Lav en figur, hvor logaritmen til tidsforbruget afsættes mod logaritmen til bredden, og hvor hver af de fire personer har sin egen farve (dette opnås med tilføjelsen col=person til plot-kommandoen).
    Estimer for hver af de fire personer parametrene i modellen, hvor middelværdien af logaritmen til tidsforbruget afhænger lineært af logaritmen til bredden. Du kan lade dig inspirere af koden i afsnit 7.2. Indtegn efterfølgende de fire estimerede linjer i jeres figur (jeg minder om, at en regressionslinje kan indtegnes ved at benytte abline, hvor input er output fra et kald til lm).
  2. Opstil den statistiske model, hvor hver person har sin egen lineære sammenhæng mellem middelværdien af logTid og logBredde, og hver person har sin egen varians omkring den lineære sammenhæng. Opstil hypotesen, at der er samme varians for de fire personer. Benyt Bartletts test for at vurdere denne hypotese (I kan igen lade jer inspirere af koden i afsnit 7.2).
  3. Opstil nu den reducerede model, hvor der er samme varians i de fire regressionsmodeller. Undersøg, om det kan antages, at de fire hældninger er ens.
    Undersøg dernæst, om det kan antages, at de fire skæringer er ens.
  4. Betragt modellen, hvor hver person har sin egen lineære sammenhæng mellem middelværdien af logTid og logBredde. Lav en tabel med 95%-konfidensintervaller for de fire hældninger i modellen.
I denne opgave har vi forsøgt at formulere en alternativ Fitts lov omkring en lineær sammenhæng mellem middelværdien af logaritmen til den tid, der bruges til at flytte en pointer, og logaritmen til bredden af målområdet. Dette har ikke været en succes forstået på to måder. De fire personer i denne opgave er en del af et større eksperiment, og der gælder ikke en lineær sammenhæng som netop beskrevet for alle personer. Desuden har vi set i denne opgave, at for de personer, hvor der gælder linearitet, er både hældning og skæring personspecifik. Læren er nok, at i menneske-maskine-sammenhænge vil der altid være et stort element af personspecifikke sammenhænge, og en lov som for eksempel Fitts lov skal formuleres på passende vis som en middelopførsel henover en population.

Opgave 7.2: Multipel regression

I har i flere opgaver set på aspekter af Fitts lov. I denne opgave skal I bruge de oprindelige data fra Fitts artikel fra 1954: The information capacity of the human motor system in controlling the amplitude of movement, publiceret i Journal of Experimental Psychology. Eksperimentet er som vist i nedenstående figur, hvor en pointer (en fysisk pegepind) skal flyttes ind i et målområde med bredde og hvor afstanden fra start til midt af målområdet er Data i artiklen er gennemsnit af tidsforbruget for at flytte pointer, hvor gennemsnittet er over gentagelse for den samme person og over en række personer.
Fitt formulerede sin lov på den måde, at tidsforbruget er lineært i index of difficulty, hvor sidstnævnte er Andre har foreslået i stedet at bruge (kaldet Shannon formulation). I skal i denne opgave se mere fundamentalt på data ved at bruge både og Der er 16 målinger i alt svarende til alle kombinationer af fire afstande med fire bredder Data findes i filen FittsData.csv, der har fire søjler. Afstand () og bredde () er angivet i tommer, og tidsforbruget i millisekunder. Der er to søjler med tidsforbrug svarende til to eksperimenter, hvor pegepinden, der flyttes, har forskellig vægt, henholdsvis en "let" og en "tung" pegepind.
  1. Indlæs data fra filen FittsData.csv, og dan variablene logD, logW og logDW med totals-logaritmen til afstand, til bredde, og med totals-logaritmen til afstand plus bredde. Dan endvidere variablen tidL med tidsforbruget med brug af den lette pegepind.
    Først skal I se på Fitts oprindelige formulering. Opskriv regressionsmodellen, hvor middelværdien af tidsforbruget afhænger lineært af de to forklarende variable logD og logW. Lav en tabel med to søjler, hvor første søjle er modelformel, og den anden søjle er skøn over spredningen Indskriv ovenstående model i tabellen.
    Se på parameterskønnene. Ser det ud til, at data kan beskrives via index of difficulty, ?
  2. Indfør variablen svarende til index of difficulty, og benyt variablene index1 og logW i en multipel regressionsmodel. Lav nu -test for reduktion fra modellen med de to regressionsvariable logD og logW til modellen med den ene variabel index1. Angiv for den sidste model spredningskønnet i din tabel med spredningskøn.
  3. Gentag undersøgelsen i de to foregående spørgsmål, men hvor der betragtes de to forklarende variable logDW og logW i stedet for logD og logW, og hvor Shannon-formuleringen via testes. Angiv igen spredningskøn i din tabel med spredningskøn.
  4. Opskriv nu den fulde regressionsmodel, hvor middelværdien af tidsforbruget afhænger lineært af de tre forklarende variable logD, logW og logDW. Indsæt spredningskøn i din tabel med spredningskøn.
    Kan denne model reduceres til en af de foregående modeller i spørgsmålene ovenfor?
  5. Betragt et hjemmelavet index of difficulty givet ved og betragt den multiple regressionsmodel med de tre forklarende variable index3, logD og logW. Lav -test for reduktion fra den fulde regressionsmodel til model, hvor middelværdien af tiden afhænger lineært af index3.
    Lav forskellige grafiske undersøgelser for at vurdere, om du er tilfreds med regressionsmodellen baseret kun på index3.
  6. Hvis du har lyst, kan du også prøve at se på data med den tunge pegepind. Specielt kan du se på modellen med det hjemmelavede mål index3 og lave en figur, hvor tiderne og regressionslinjerne indtegnes for begge eksperimenter.

Opgave 7.3: Afleveringsopgave

I denne sidste afleveringsopgave er det meningen at I hovedsageligt skal bruge metoderne fra de 6 første kapitler af webbogen (undtagelsen er det sidste spørgsmål).
Data vedrører sammenhængen mellem CPU relative performance (CPUrp, som først kan findes når produktet er på markedet) og data omkring CPU-enheden, der er til rådighed, før produktet bliver lanceret. Til rådighed er der 6 egenskaber
Data er fra artiklen Attributes of the performance of central processing units: a relative performance prediction model og er hentet fra UCI Machine Learning Repository. Datasættet findes i filen CPUdata.csv, hvor de første seks søjler er de forklarende variable omtalt ovenfor, søjle 7 er CPU relative performance, og søjle 8 er en variabel, der inddeler data i fem grupper. Der er 207 rækker i filen svarende til 207 CPU-enheder (hvor der i den oprindelige datafil optræder et nul, er dette ændret til værdien 0.5 for at kunne logaritmetransformere data nedenfor).
Indlæs data, og dan variablene logCT, logCA og logCPUrp med logaritmen til de relevante variable. Dan desuden variablene
og dan faktoren gr med værdierne i den sidste søjle af de indlæste data. Variabel logID, dannet ovenfor, er et indeks, der modellerer sammenhængen mellem CPU relative performance og de andre variable, og er fremkommet ved at lave en multipel regressionsmodel for logCPUrp med de forklarende variable logCT, logCA, logMP, logMD, logCP og logCD. Ved backward selektion finder man, at logCT, logMD og logCD kan fjernes fra modellen.
Gruppeinddelingen i faktoren gr er baseret på værdierne af produktet logMP*logCA. Benyt faktoren gr til at lave to deldatasæt med logID-værdierne for grupperne og :
logIDa=logID[gr=="A"] og logIDd=logID[gr=="D"].
  1. For de 49 CPU-enheder i gruppe er der 10, der har en logID-værdi over 4. Opstil en statistisk model til beskrivelse af observationen 10, og lav et 95%-konfidensinterval for sandsynligheden, for at logID-værdien er over 4 i gruppe
  2. For de 53 CPU-enheder i gruppe er der 11, der har en logID-værdi over 4. Undersøg, om der er samme frekvens af CPU-enhder med en logID-værdi over 4 blandt grupperne og
  3. Opstil en statistisk model til beskrivelse af logID-værdierne i logIDa og logIDd. Lav et test for hypotesen, at der er samme middelværdi af logID-værdien i grupperne og .
  4. Betragt nu logID-værdierne for alle fem grupper dannet ud fra faktoren gr. Opstil en statistisk model for data, og undersøg først, om der er samme varians for de fem grupper, og dernæst, om der er samme middelværdi for de fem grupper.
  5. I det sidste spørgsmål skal I ikke længere betragte logID-værdierne, men derimod logCPUrp. Ovenstående analyse viser, at der er information i produktet logMP*logCA, der kan bruges til at beskrive logCPUrp. I dette delspørgsmål skal I analysere en multipel regressionsmodel til beskrivelse af logCPUrp, hvor I som forklarende variable bruger
    Giv navne til de 6 nye variable der består af produkt af to variable, og opskriv derefter den multiple regressionsmodel, hvor alle 9 forklarende variable inddrages.
    Reducer modellen ved brug af backward selektion, og lav grafisk kontrol af slutmodellen. Lav et test for reduktion fra startmodel til slutmodel, og angiv et 95%-konfidensinterval for regressionskoefficienten hørende til variablen logMP*logCA i slutmodellen.

ForegåendeNæste