Som omtalt i indledningen til dette kapitel, tænker vi på hele
datasættet som organiseret i variable (søjler i datamatricen).
En faktor er en variabel, der bruges til at inddele data i
undergrupper. Hvis der for eksempel laves en undersøgelse,
hvor der deltager 4 kvinder og 3 mænd, og resultaterne for
kvinderne angives først, kan vi angive dette med en variabel
koenOrd på formen
Vi kunne også vælge at kode kvinde som 1 og mand som 2, og i stedet
for koenOrd benytte variablen
I den sidste udgave, koenTal,
kan man ikke umiddelbart se, om
denne variabel skal bruges til at inddele data i undergrupper
(altså som en faktor), eller skal bruges for eksempel som
forklarende variabel i en regressionsmodel.
I R laver man en variabel til en faktor med funktionen factor:
I faktorKoen
står der ikke længere tal, men teksstrenge "1" og "2".
I en faktor kaldes de forskellige værdier, der optræder, for
faktorniveauer. Man kan se de forskellige faktorniveauer ved i R
at anvende funktionen levels på faktoren.
Prøv at køre den følgende kode. Kan du se at lm
fitter forskellige modeller,
alt efter om højresiden i modelformlen er en numerisk variabel eller
en faktor ?
I har allerede brugt funktionen lm i R til analyse
af regressionsmodellen. Input til lm er en såkaldt
modelformel.
For en regressionsmodel med respons i variablen og den
forklarende variabel benyttede I lm(xt).
En modelformel består af responsvariablen på venstre side af
"tilde"-symbolet
og en angivelse af modellen på højre side
af tilde (højresiden i sig selv kaldes også modelformlen).
I regressionssituationen ved I, at angiver modellen
Hvis er en faktor med indgangene
angiver modelformlen modellen med
Det vil sige, at alle de observationer, der ligger på samme niveau
af får den samme middelværdi.
Modelformlen indfører dermed indirekte lige så mange
middelværdiparametre som antallet af niveauer i faktoren.
Mere konkret: for faktoren
kønfaktor
ovenfor betragter vi modellen, hvor de 4 første observationer
kommer fra en -fordeling, og de 3 sidste observationer
kommer fra en -fordeling,
med og parametre med ukendt værdi.
6.1.1 Produkt af faktorer
Ofte vil data være inddelt i undergrupper ud fra flere
inddelingskriterier. Hvis der er to faktorer, for eksempel
Køn og Art, kan vi danne en ny faktor Køn*Art,
der inddeler efter begge faktorer. Her er et eksempel:
Vi kan se i dette eksempel, at Køn*Art inddeler i fire grupper
betegnet med og Et produkt mellem to faktorer, som beskrevet ovenfor, hører
grundlæggende til en modelformel, hvilket bliver beskrevet i
dette kapitel. I det følgende skjulte punkt viser jeg, hvordan
man i R kan efterligne produkt
mellem to faktorer direkte i kommandovinduet.
Prøv at køre den følgende kode. I vil se, at R
ikke accepterer "*" mellem to faktorer direkte i kommandovinduet,
hvorimod ":" mellem to faktorer ser ud til at give produktet af to faktorer
som beskrevet ovenfor. Hvis det derimod er tale om en
modelformel i R, må man gerne bruge "*" mellem to faktorer,
og colon er kun relevant i forbindelse med en mere præcis
kontrol af den parametrisering af modellen, som
R bruger.