Afsnit 6.1: Faktorer

Som omtalt i indledningen til dette kapitel, tænker vi på hele datasættet som organiseret i variable (søjler i datatabellen). En faktor er en variabel, der bruges til at inddele data i undergrupper. Hvis der for eksempel laves en undersøgelse, hvor der deltager 4 kvinder og 3 mænd, og resultaterne for kvinderne angives først, kan vi angive dette med en variabel koenOrd på formen

$\text{koenOrd=(kvinde,kvinde,kvinde,kvinde,mand,mand,mand)}.$ Vi kunne også vælge at kode kvinde som 1 og mand som 2, og i stedet for koenOrd benytte variablen

$\text{koenTal=(1,1,1,1,2,2,2)}.$ I den sidste udgave, koenTal, kan man ikke umiddelbart se, om denne variabel skal bruges til at inddele data i undergrupper (altså som en faktor), eller skal bruges for eksempel som forklarende variabel i en regressionsmodel. I Python kan man lave en variabel om til en faktor på følgende vis,

$\begin{array}{l} \text{import pandas as pd} \\ \text{faktorKoen=pd.Categorical(koenTal)} \end{array}$ Man kan tænke på indgangene i faktorKoen som navne på undergrupper, hvor i tilfældet her navnene er tallene 1 og 2. Hvis man har en datatabel, dtabel, og ønsker at omdanne en søjle med navnet snavn til en faktor, kan dette gøres med følgende kommando,

$\text{dtabel.snavn=dtabel.snavn.astype('category')}$ I en faktor kaldes de forskellige værdier, der optræder, for faktorniveauer. Man kan se de forskellige faktorniveauer i faktorKoen ved i Python at skrive faktorKoen.categories.

Faktor i Python

Prøv at køre den følgende kode, hvor der først udskrives en faktor, og derefter analyseres der to modeller. Kan du se at ols fitter forskellige modeller, alt efter om højresiden i modelformlen er en numerisk variabel eller en faktor ?

I har allerede brugt funktionen ols i Python til analyse af regressionsmodellen. Input til denne funktion er en såkaldt modelformel. For en regressionsmodel med respons i variablen $x$ og den forklarende variabel $t$ benyttede I 'x~t'. En modelformel består af responsvariablen på venstre side af "tilde"-symbolet og en angivelse af modellen på højre side af tilde (højresiden i sig selv kaldes også modelformlen). I regressionssituationen ved I, at 'x~t' angiver modellen $X_i\sim N(\alpha+\beta t_i,\sigma^2),$ $i =1,\ldots,n.$ Hvis $G$ er en faktor med indgangene $G_1,\ldots,G_n,$ angiver modelformlen 'x~G' modellen med $X_i\sim N(\mu_{G_i},\sigma^2),$ $i =1,\ldots,n.$ Det vil sige, at alle de observationer, der ligger på samme niveau af $G$ (har samme værdi af $G_i$ ), får den samme middelværdi. Modelformlen indfører dermed indirekte lige så mange middelværdiparametre som antallet af niveauer i faktoren. Mere konkret: for faktoren faktorKoen ovenfor betragter vi modellen, hvor de 4 første observationer kommer fra en $N(\mu_1,\sigma^2)$ -fordeling, og de 3 sidste observationer kommer fra en $N(\mu_2,\sigma^2)$ -fordeling, med $\mu_1$ og $\mu_2$ parametre med ukendt værdi. Bemærk, at hvis man i en modelformel bruger en søjle fra datatabellen, der består af tekststrenge (i modsætning til tal), så vil Python behandle denne søjle som en faktor.

6.1.1 Produkt af faktorer

Ofte vil data være inddelt i undergrupper ud fra ﬂere inddelingskriterier. Hvis der er to faktorer, for eksempel Køn og Art, kan vi danne en ny faktor Køn*Art, der inddeler efter begge faktorer. Her er et eksempel:

$\begin{array}{cccc}\hline \text{Nummer} & \text{Køn} & \text{Art} & \text{Køn*Art} \\ \hline 1 & \text{K1} & \text{A1} & \text{(K1,A1)} \\ 2 & \text{K1} & \text{A1} & \text{(K1,A1)} \\ 3 & \text{K1} & \text{A2} & \text{(K1,A2)} \\ 4 & \text{K1} & \text{A2} & \text{(K1,A2)} \\ 5 & \text{K2} & \text{A1} & \text{(K2,A1)} \\ 6 & \text{K2} & \text{A1} & \text{(K2,A1)} \\ 7 & \text{K2} & \text{A2} & \text{(K2,A2)} \\ 8 & \text{K2} & \text{A2} & \text{(K2,A2)} \\ \hline \end{array}$ Vi kan se i dette eksempel, at Køn*Art inddeler i fire grupper betegnet med $(K1,A1),$ $(K1,A2),$ $(K2,A1)$ og $(K2,A2).$

Et produkt mellem to faktorer, som beskrevet ovenfor, hører grundlæggende til en modelformel, hvilket bliver beskrevet i dette kapitel. I det følgende skjulte punkt viser jeg, hvordan man i Python kan efterligne produkt mellem to faktorer direkte i kommandovinduet.

Produkt af faktorer direkte i kommandoinduet

Et produkt af to faktorer bruges i en modelformel til at inddele i grupper efter begge inddelingskriterier. I Python kan man lave en inddeling efter to faktorer uden for en modelformel ved hjælp af groupby, som vist i nedenstånde kommandovindue. Kør koden og forstå hvordan output viser gruppeinddelingen.

Foregående Næste