Afsnit 6.1: Faktorer

Som omtalt i indledningen til dette kapitel, tænker vi på hele datasættet som organiseret i variable (søjler i datamatricen). En faktor er en variabel, der bruges til at inddele data i undergrupper. Hvis der for eksempel laves en undersøgelse, hvor der deltager 4 kvinder og 3 mænd, og resultaterne for kvinderne angives først, kan vi angive dette med en variabel koenOrd på formen
Vi kunne også vælge at kode kvinde som 1 og mand som 2, og i stedet for koenOrd benytte variablen
I den sidste udgave, koenTal, kan man ikke umiddelbart se, om denne variabel skal bruges til at inddele data i undergrupper (altså som en faktor), eller skal bruges for eksempel som forklarende variabel i en regressionsmodel. I R laver man en variabel til en faktor med funktionen factor:
I faktorKoen står der ikke længere tal, men teksstrenge "1" og "2". I en faktor kaldes de forskellige værdier, der optræder, for faktorniveauer. Man kan se de forskellige faktorniveauer ved i R at anvende funktionen levels på faktoren.

Faktor i R

Prøv at køre den følgende kode. Kan du se at lm fitter forskellige modeller, alt efter om højresiden i modelformlen er en numerisk variabel eller en faktor?

I har allerede brugt funktionen lm i R til analyse af regressionsmodellen. Input til lm er en såkaldt modelformel. For en regressionsmodel med respons i variablen og den forklarende variabel benyttede I lm(xt). En modelformel består af responsvariablen på venstre side af "tilde"-symbolet og en angivelse af modellen på højre side af tilde (højresiden i sig selv kaldes også modelformlen). I regressionssituationen ved I, at angiver modellen Hvis er en faktor med indgangene angiver modelformlen modellen med Det vil sige, at alle de observationer, der ligger på samme niveau af får den samme middelværdi. Modelformlen indfører dermed indirekte lige så mange middelværdiparametre som antallet af niveauer i faktoren. Mere konkret: for faktoren kønfaktor ovenfor betragter vi modellen, hvor de 4 første observationer kommer fra en -fordeling, og de 3 sidste observationer kommer fra en -fordeling, med og parametre med ukendt værdi.

6.1.1 Produkt af faktorer

Ofte vil data være inddelt i undergrupper ud fra flere inddelingskriterier. Hvis der er to faktorer, for eksempel Køn og Art, kan vi danne en ny faktor Køn*Art, der inddeler efter begge faktorer. Her er et eksempel:
Vi kan se i dette eksempel, at Køn*Art inddeler i fire grupper betegnet med og
Et produkt mellem to faktorer, som beskrevet ovenfor, hører grundlæggende til en modelformel, hvilket bliver beskrevet i dette kapitel. I det følgende skjulte punkt viser jeg, hvordan man i R kan efterligne produkt mellem to faktorer direkte i kommandovinduet.

Produkt af faktorer direkte i kommandoinduet

Prøv at køre den følgende kode. I vil se, at R ikke accepterer "*" mellem to faktorer direkte i kommandovinduet, hvorimod ":" mellem to faktorer ser ud til at give produktet af to faktorer som beskrevet ovenfor. Hvis det derimod er tale om en modelformel i R, må man gerne bruge "*" mellem to faktorer, og colon er kun relevant i forbindelse med en mere præcis kontrol af den parametrisering af modellen, som R bruger.

ForegåendeNæste