Afsnit 1.7: Øvelse 1: IT

Denne første uges øvelse skal især gøre jer fortrolige med programpakken R. Derudover skal I vurdere holdbarheden af en hypotese ved hjælp af simulationer (at simulere betyder her at generere tilfældige tal fra en given fordeling). Vi starter dog først ud med en opgave, der skal vise jer nogle eksempler på den type data, I kan støde på i IT-produktudvikling. Alle opgaverne skal være forberedt hjemmefra og gennemgås ved tavlen til øvelserne.

Opgave 1.1: Dataeksempler

I denne opgave skal I ikke lave formelle test, men blot argumentere ud fra jeres "mavefornemmelse".

Under afprøvningen af et nyt mailsystem er der opstået 73 fejl fordelt på 13 områder som vist i den følgende tabel. Idet der i testperioden er brugt cirka lige meget tid på de forskellige områder, forventer vi den samme rate af fejl i hvert af de 13 områder. Er tallene i tabellen udtryk for den samme rate af fejl i de 13 områder?
$\begin{array}{lc}\hline \text{Område} & \text{Antal Fejl} \\ \hline \text{Listing archive} & 3 \\ \text{Listing received mail} & 3 \\ \text{Going to DOS} & 5 \\ \text{Importing file} & 15 \\ \text{Exporting file} & 10 \\ \text{Giving subject to message} & 4 \\ \text{Giving address to message} & 2 \\ \text{Putting message to worktray} & 9 \\ \text{Putting message to out-tray} & 7 \\ \text{Editing message} & 6 \\ \text{Viewing message} & 4 \\ \text{Printing message} & 3 \\ \text{Deleting message} & 2 \\ \hline \text{Samlet antal fejl} & 73 \\ \hline \end{array}$
Et hundrede studerende er blevet bedt om at teste to systemer (A og B) til netbaseret aflevering af opgaver. Af disse er der 61, der foretrækker system A, og 39, der foretrækker system B. Er dette et udtryk for, at system A er bedre end system B ?
To programmører er blevet bedt om at lave den samme opgave. Efterfølgende er det konstateret, at den ene har lavet 4 fejl, og den anden har lavet 8 fejl. Er de to programmører lige omhyggelige ?

De tre eksempler ovenfor vedrører alle tælledata. Dette er også hovedemnet for øvelserne hørende til de tre første kapitler af denne bog.

Opgave 1.2: Regne i R

Når I skal køre R på jeres egen computer, bør I som hovedregel ikke skrive jeres kommandoer direkte i kommandovinduet. I stedet skal I åbne en editor, skrive kommandoerne her og derefter overføre dem til kommandovinduet. På denne måde er det nemmere at rette fejl og at gentage beregninger med forskelligt input. I windowsversionen af R er der en indbygget editor, hvor I blot skal bruge control R for at overføre markeret tekst (i Mac-versionen skal man i nogle opsætninger bruge command enter i stedet).

Som forberedelse til denne opgave skal I have læst afsnit 1.2, der indeholder en introduktion til R.

Definer en variabel $x$ med værdien 4. Udregn kvadratroden af $x,$ logaritmen af $x$ (naturlige logaritme) og eksponentialfunktionen af $x.$
Lad endvidere $n$ være en variabel med værdien 10 og $u$ en variabel med værdien 1.96. Beregn $(x+u^2/2-u\sqrt(x(n-x)/n+u^2/4))/(n+u^2).$
Hvad tror du, at kommandoen n+c(-1,1)*x giver ?
Lad $x$ være en vektor med indgangene $x_1=5,$ $x_2=2,$ $x_3=7,$ $x_4=-1,$ $x_5=2$ og $x_6=-2.$ Beregn $\sum_ix_i,$ $\sum_ix_i^2,$ $\sum_i|x_i|$ og $\sum_i\log(|x_i|)$ ( $\log$ er den naturlige logaritme). Numerisk værdi af et tal beregnes i R med funktionen abs.
Lad $x$ være en vektor med indgangene $x_1=5,$ $x_2=2,$ $x_3=7,$ og $x_4=2,$ og lad $\mathit{ex}$ være en vektor med indgangene $\mathit{ex}_1=4,$ $\mathit{ex}_2=3,$ $\mathit{ex}_3=5,$ og $\mathit{ex}_4=4.$ Beregn $\sum_ix_i\cdot\mathit{ex}_i,$ $2\sum_ix_i\log(x_i/\mathit{ex}_i),$ $\sum_i(x_i-\mathit{ex}_i)^2/\mathit{ex}_i$ og $\sum_ix_i^2/\mathit{ex}_i-2\sum_ix_i+\sum_i\mathit{ex}_i.$
Lad $x$ være vektoren med indgangene $5,2,7,-1,2,-2,$ og lad $y$ være vektoren med indgangene $1,1,2,1,2,2.$ Beregn $\sum_{i=1}^3x_i$ og $\sum_{i:y_i=2}x_i.$ I den sidste sum skal der kun medtages de elementer i $x,$ hvor det tilhørende element i $y$ er lig med 2.
Lad nu $z$ være vektoren med indgangene "Lise", "Lise", "Peter", "Lise", "Peter", "Peter". Beregn $\sum_{i:z_i=\text{Peter}}x_i.$
Prøv at gætte på resultatet af beregningen sum(x[-c(4:6)]).

Opgave 1.3: Figur i R

Denne opgave går ud på, at I skal prøve at lave en figur i R, som beskrevet i afsnit R.5. Til dette skal I bruge data, der er forsøgt lavet i overensstemmelse med oplysningerne i artiklen Dose-response associations between screen time and overweight among youth. Det diskuteres ofte, om børn er i risiko for at blive overvægtige, hvis de tilbringer meget tid foran fjernsynet eller computeren. Data i tabellen nedenfor viser 303 piger fordelt på fire kategorier i forhold til, hvor meget tid de bruger foran skærmen. For hver kategori er der angivet, hvor mange af pigerne der er overvægtige baseret på et taljemål. Rækken med Tidsværdi reducerer tidsintervallet til en enkelt værdi.

$\begin{array}{l cccc } \hline \text{Tid foran skærm (timer/dag)} & <2 & 2-3 & 3-4 & >4 \\ \text{Tidsværdi} & 1 & 2.5 & 3.5 & 5 \\ \hline \text{Antal piger} & 74 & 76 & 51 & 102 \\ \text{Antal overvægtige} & 7 & 7 & 14 & 39 \\ \hline \end{array}$

Dan en vektor Tid med tidsværdierne, en vektor $n$ med antal piger i gruppen og en vektor over med antallet af overvægtige i gruppen. Dan ud fra disse vektoren logTid=log(Tid) med logaritmen til tiden, og dan en vektor frek med frekvensen af overvægtige, det vil sige antal overvægtige divideret med antal testede.
Benyt kommandoen plot(logTid,frek) til at lave en figur, hvor frekvens afsættes mod logaritmen til tiden. Prøv at køre kommandoen igen, hvor du indsætter xlab="Log Tid" efter frek i kaldet af plot.
Tilføj også en titel til andenaksen i figuren ved at tildele ylab en værdi i kaldet af plot. En overskrift til figuren kan opnås ved at indsætte main="overskrift" i kaldet af plot.
Funktionen, der sender $x$ over i $\exp(\alpha+\beta x)/(1+\exp(\alpha+\beta x)),$ kaldes den logistiske dosis-respons funktion. Den bedste tilpasning til data ovenfor fås med $\alpha=-2.7560$ og $\beta=1.3386.$ For at indtegne denne kurve i jeres figur kan I benytte kommandoen
curve(exp(-2.7560+1.3386*x)/(1+exp(-2.7560+1.3386*x)),
from=-2,to=5,add=TRUE)
Funktionen curve skal som input have et funktionsudtryk i variablen $x,$ et startpunkt og et slutpunkt. Tilføjelsen add=TRUE gør, at kurven indtegnes i den allerede eksisterende figur.
Gentag plot-kommandoen, og prøv at tilføje col=2 til kaldet af curve. Prøv også at tilføje lty=3 til kaldet af curve.

Opgave 1.4: Indlæse datafil i R (dataframe)

I denne opgave skal I prøve at indlæse data fra en fil. I filen Trump.csv ligger for hver dag i uge 14 og hver dag i uge 16 i 2017 antallet af tweets skrevet af Donald Trump. Filen har tre søjler. I den første står ugenummer, i den anden står ugedag (søndag til lørdag (USA)), og i den tredje står antallet af tweets for den pågældende dag.

Indlæs filen, og placer indholdet i Trump, med kommandoen
Trump=read.csv("Trump.csv",header=TRUE,stringsAsFactors=TRUE)
Prøv at skrive head(Trump) for at se strukturen af denne. Kommandoen head giver de første få rækker i Trump. Skriv dernæst class(Trump).
Kommando class fortæller jer, at Trump er en dataframe. En dataframe er en samling af søjler, der alle har den samme længde, og hvor søjlerne kan være af forskellig type. Dataframe er det formelle navn i R, men jeg vil generelt omtale strukturen som en datatabel.
Prøv nu både at skrive Trump[,3] og Trump $\text{\textdollar}$ Antal. Dette viser, at en søjle kan hentes på to måder. Prøv også at skrive class(Trump[,3]).
Dan en variabel Ugenr med ugenummeret (søjle 1), en variabel Dag med ugedagen (søjle 2) og en variabel Antal med antal tweets (søjle 3).
Lav et datasæt med antal tweets for de 7 ugedage for data fra uge 14 ved kommandoen
AntalUge14=Antal[Ugenr=="uge14"]
Lav tilsvarende et datasæt med antal tweets for uge 16. Find for hvert datasæt summen over de syv ugedage af antal tweets og det gennemsnitlige daglige antal for hver uge.
Du skal nu lave en ny datatabel med dine beregnede værdier ved hjælp af funktionen data.frame. Kommandoen til at lave en datatabel er på formen
data.frame(soejlenavn1=vektor1,...,soejlenavnk=vektork)
hvor vektor1 op til vektork er allerede eksisterende vektorer. Rækkenavne i tabellen kan indsættes ved at tilføje row.names=raekkenavne i kaldet til data.frame, hvor raekkenavne er en vektor med de ønskede navne.
Lav en datatabel Mintabel med to rækker og to søjler, hvor søjleoverskrifter er Sum og Gennemsnit, og hvor en vektor med rækkenavne er givet ved c("uge14","uge16"). Når du har lavet datatabellen kan du udskrive denne ved blot at skrive navnet på tabellen, prøv dette.

Opgave 1.5: Sammenligne observerede med forventede

I menneske-maskine-interaktion betragtes blandt andet, hvordan man flytter pointeren på en computerskærm via musen. Figuren nedenfor viser en typisk opstilling, hvor en person skal flytte pointeren fra område $A$ til område $B.$ I denne opgave skal I se på, om pointeren ender i venstre eller i højre halvdel af målområde $B.$ Data er stillet til rådighed af Jörg Müller.

I den følgende tabel er vist resultatet fra to eksperimenter, hvor forsøgspersonen i hvert eksperiment har flyttet pointeren fra $A$ til $B$ 41 gange. I det første eksperiment er bredden af målområdet $W=12\,\text{mm}$ og i det andet eksperiment er bredden $W=3\,\text{mm}.$ I begge eksperimenter er afstanden mellem $A$ og $B$ givet ved $D=765\,\text{mm}.$

$\begin{array}{ll ccc } \hline \text{Eksperiment} & \text{Data} & \text{Venstre} & \text{Højre} & \text{Total} \\ \hline \text{Bredde }W=12\,\text{mm} & \text{Observeret} & 21 & 20 & 41 \\ & \text{Forventet} & & & 41 \\ \hline \text{Bredde }W=3\,\text{mm} & \text{Observeret} & 8 & 33 & 41 \\ & \text{Forventet} & & & 41 \\ \hline \end{array}$

Hvis pointeren ender et tilfældigt sted i målområde $B,$ forventer vi, at det er tilfældigt, om endepunktet er i venstre eller i højre halvdel af $B.$ Udtryk dette som et udsagn om sandsynligheden for at ende i venstre halvdel, og angiv de forventede antal svarende til de tomme pladser i ovenstående tabel for begge eksperimenter. Hvad er din umiddelbare vurdering: tyder data for eksperiment 1, med $W=12\,\text{mm},$ på, at det er tilfældigt, om pointeren ender i venstre eller højre halvdel ?

Betragt nu eksperiment 2 med bredden $W=3\,\text{mm}.$ For at få en idé om hvorvidt det observerede antal på 8 i venstre halvdel, er typisk eller ekstremt under antagelsen om, at det er tilfældigt, hvilken halvdel pointeren ender i, skal I nu sammenligne udfaldet med en simulering. Vi kan bruge en simulering som den vist i kodevinduet i afsnit 1.1 (med 580 erstattet af 41 og c(0.75,0.25) erstattet af c(0.5,0.5)) til at simulere 41 kast med en mønt (terning med 2 sider), og dernæst tælle op antallet af gange, hvor terningen viser 1, som vi tolker som antallet af gange, computermusen ender i venstre halvdel af målområdet. Vi kan dog gøre dette nemmere, idet vi ved, at det stokastiske antal gange, hvor musen ender i venstre halvdel, er binomialfordelt. I R kan man simulere fra binomialfordelingen med rbinom:

rbinom(Nsim,41,0.5)

Denne kommando giver Nsim observationer fra en binomialfordeling med antalsværdi 41 og sandsynlighedsparameter $0.5.$

Prøv at køre ovenstående kommando et par gange med $\mathit{Nsim}=1.$ Kør dernæst kommandoen med $\mathit{Nsim}=20.$
Lav en tabel ved hjælp af funktionen data.frame med tre søjler. Første søjle skal indeholde en vektor $N$ med de 20 simulerede værdier fra rbinom. Den anden søjle skal indeholde absolutværdien $D$ af afstanden mellem det simulerede antal og det forventede antal, $D=|N-20.5|.$ Funktionen abs i R giver absolutværdien af et tal. Den tredje søjle skal være enten 0 eller 1, alt efter om $D$ er under $|8-20.5|,$ eller er større end eller lig med denne værdi. Her er $|8-20.5|$ afstanden mellem det observerede antal på 8 og det forventede antal. Du kan benytte funktionen ifelse til at lave den tredje søjle: ifelse(D<12.5,0,1).
Hvor mange af dine 20 simuleringer (som er baseret på en tilfældigt placering i venstre eller højre halvdel) giver anledning til en lige så stor eller større afstand $d$ end den, der er observeret i vores faktiske eksperiment ? Argumenter for, om observationen på 8 i venstre side er typisk eller atypisk, for hvad man observerer ved en tilfældig placering i venstre eller højre halvdel.
Hvis du ikke allerede har gjort det, så læs nu Definition 1.1.1 på en $p$ -værdi, og se Resultat 1.4.1 omkring hvordan en $p$ -værdi bruges.

Foregående Næste