Afsnit 7.3: Den multiple regressionsmodel

Fitts lov vedrører situationen vist i figuren i starten af kapitel 4 og siger, at (middelværdien af) tiden til at flytte en computermus en afstand $D$ ind i et målområde af bredde $W$ er lineær i index of difficulty givet ved $\text{ID}=\log_2(D/W).$ Hvad sker der, hvis der er flere målområder, og det er først ved opgavens start, at målområdet angives, ved at dette lyser op ?

I artiklen Concurrent manual-decision tasks beskrives et eksperiment af denne type, hvor der varieres mellem 1, 2, 4, 6 og 8 målområder. Man beskriver ofte denne situation gennem response entropy, som er $H=\log_2(k),$ hvor $k$ er antal målområder. I eksperimentet varieres der mellem tre afstande $D=20,30,40\,\text{cm}.$ Dette giver index of difficulties omkring de tre værdier 4.06, 4.64 og 5.06. Hver tidsmåling nedenfor er gennemsnit over 10 personer og 24 gentagelser for hver person (de underliggende $10\cdot 24$ målinger er ikke til rådighed i artiklen).

I den venstre delfigur nedenfor er det gennemsnitlige tidsforbrug tegnet op mod index of difficulty. Vi ser en linær sammenhæng som i Fitts lov, men der er også store variationer omkring den lineære sammenhæng. Disse store variationer skyldes variationen i antallet af målområder som illustreret i den højre delfigur, hvor målinger med det sammen antal målområder er forbundet. Vi kan se, at tidsforbruget stiger med antallet af målområder. Spørgsmålet er, om man kan lave en model, hvor index of difficulty ID og response entropy $H$ begge indgår, og dermed kan forbedre beskrivelsen af tidsforbruget? Den relevante modelklasse er multipel regression, som jeg vil beskrive i det følgende.

7.3.1 Den multiple regressionsmodel

Vi betragter målinger af $n$ uafhængige stokastiske variable $X_i,$ $i=1,\ldots,n.$ Til hvert observationsnummer $i$ er der tilknyttet værdierne af $d$ forklarende variable. I den simple lineære regressionsmodel i afsnit 5.1 blev værdien af den forklarende variabel betegnet med $t_i.$ Når der er flere forklarende variable, lad os sige $d$ af disse, betegnes værdierne med $t_{ij},$ $i=1,\ldots,n$ og $j=1,\ldots,d.$ På denne måde passer index med en dataframestruktur, hvor $i$ er rækkenummer og $j$ er søjlenummer. Den $j$ 'te forklarende variabel er vektoren $t_j=(t_{1j},t_{2j},\ldots,t_{nj}).$ De forklarende variable kaldes også regressionsvariable, og $\beta_1,\ldots,\beta_d$ kaldes regressionskoefficienter.

Statistisk Model 7.3.1. (Den multiple regressionsmodel)

I den multiple regressionsmodel betragter vi $n$ uafhængige stokastiske variable $X_1,\ldots,X_n,$ og middelværdien af respons $X_i$ er en linearkombination af $d$ forklarende værdier.

$\begin{aligned} & X_i\sim N\big( \alpha+\beta_1t_{i1}+\beta_2t_{i2}+\cdots+\beta_dt_{id},\sigma^2\big), \enspace i=1,\ldots,n, \\ & (\alpha,\beta_1,\ldots,\beta_d,\sigma^2)\in \mathbf{R}^{d+1}\times \mathbf{R}_+. \end{aligned}$

Analysen af den multiple regressionsmodel laves med følgende kommando

summary(lm(x $\sim$ t1+t2+ $\cdots$ +td))

hvor, i den konkrete situation, $x$ skal erstattes af navnet på responsvariablen, og t1,t2, $\ldots,$ td skal erstattes med navnene på de forklarende variable, og summen af de $d$ led skal skrives fuldstændigt ud. I parametertabellen fra summary er Intercept skønnet over $\alpha,$ og skønnet $\hat\beta_j$ over den $j$ 'te regressionskoefficient står ud for navnet på den $j$ 'te forklarende variabel (her tj). Den $i$ 'te forventede værdi er $\hat\xi_i=\hat\alpha+\hat\beta_1t_{i1}+\cdots+\hat\beta_kt_{id},$ og skønnet over variansen i modellen er $s^2=\sum_i\big(x_i-\hat\xi_i\big)^2/(n-d-1),$ idet middelværdimodellen har $d+1$ parametre.

Ligesom for den simple regressionsmodel i afsnit 5.5 kan vi være interesseret i middelværdien $\xi^P=\alpha+\beta_1t_{*1}+\cdots+\beta_dt_{*d}$ for givne værdier $t_{*1},\ldots,t_{*d}$ af de forklarende variable. Skønnet over denne,

$\hat\xi^P=\hat\alpha+\hat\beta_1t_{*1}+\cdots+\hat\beta_dt_{*d}, \tag{7.3.1}$ kaldes den prædikterede værdi. Et konfidensinterval for $\xi^P$ beregnes i R med predict (med indstillingen interval="confidence") som i afsnit 5.5, hvor der så skal bruges en dataframe

nyData=data.frame(t1= $t_{*1},\ldots,$ td= $t_{*d}$ )

Som i afsnit 5.5 kan man få et prædiktionsinterval i stedet, det vil sige et interval for en kommende observation, ved at lave indstillingen interval="prediction" i kaldet til predict.

Eksempel 7.3.2. (Flytte computermus)

I det følgende kodevindue analyseres datasættet omtalt ovenfor omkring tidsforbruget ved at flytte computermus ind i et målområde. Lad tid være tidsforbuget (gennemsnit over 10 personer og 24 gentagelser), ID index of difficulty og lad $H$ være response entropy. Modellen, der analyseres, er

$\text{Tid}_i\sim N\big(\alpha+\beta_{\text{ID}}\cdot\text{ID}_i+ \beta_{\text{H}}\cdot\text{H}_i,\sigma^2),\enspace i=1,\ldots,15,$ hvor $(\alpha,\beta_{\text{ID}},\beta_{\text{H}},\sigma)$ kan variere frit. Kør koden.

7.3.3 Multipel regression i R

De estimerede regressionskoefficienter er henholdsvis 99.2 og 20.6, og begge har stor betydning for beskrivelsen af tidsforbruget (meget små $p$ -værdier, når man tester koefficienten lig med nul).

Skønnet over spredningen er 7.9. Da de målte værdier ligger omkring 500 til 600 svarer dette til en procentvis spredning på lige lidt over 1 procent. Hvis vi kun laver regression på index of difficulty ID, bliver spredningsskønnet 25.2. Dette kan formulers på den måde, at inddragelsen af response entropy $H$ reducerer spredningen til under en tredjedel.

Det næste kodevindue laver plots af residualer mod henholdsvis ID og $H,$ og et normalt qqplot.

7.3.4 Modelkontrol

Alle tre figurer understøtter den multiple regressionsmodel for disse data.

Lad os afslutte dette eksempel med at lave prædiktion af tidsforbruget for to nye opgaver med værdierne

$\begin{array}{lcc} \\ \hline & \text{ID} & \text{H} \\ \hline \text{Opgave 1} & 4.5 & 1.58 \\ \text{Opgave 2} & 5.2 & 3.17 \\ \hline \end{array}$ Det følgende kodevindue laver konfidensintervaller for middelværdien af tidsforbruget for de to opgaver.

7.3.5 Konfidensintervaller

Kør koden. Kan du forklare, hvorfor det andet konfidensinterval er bredere end det første ? Ændr koden, så der beregnes prædiktionsintervaller i stedet.

Svar: Flytte computermus

Den første af de to nye opgaver ligger midt i området for data, hvor middelværdien er velbestemt, hvorimod den anden opgave ligger i udkanten af dataområdet.

For at lave et prædiktionsinterval skal man erstatte "confidence" med "prediction" i koden.

Foregående Næste