I kapitel 6 og 7 blev grunden lagt til forståelsen af en generel klasse af normalfordelingsmodeller. I afsnit 6.1 blev data inddelt i to undergrupper med hver sin middelværdi og i afsnit 7.1 så vi på regressionsmodellen, hvor middelværdien af respons afhænger lineært af en forklarende variabel. Endvidere stiftede vi i afsnit 7.4 bekendtskab med funktionen ols i python til analyse af modellen. I den generelle model inddeles data i mere end to grupper og endvidere inddeles data ofte efter flere inddelingskriterier (som for eksempel i biologi efter køn og art). Vi vil også betragte regressionsmodeller med mere en

\acute{\text{e}}

n forklarende variabel og situationer, hvor regressionslinjen afhænger af hvilken undergruppe data tilhører.

Alle modellerne vil blive analyseret via ols eller fitlm, og et væsentligt aspekt i fremstillingen er at lave en simpel notation for modellerne, således at vi nemt kan "kommunikere" med programmet, der bruges til analysen. Det første element i fremstillingen er at tænke på data i form af en datatabel som beskrevet i afsnit 6.6. Hver søjle i datatabellen svarer til en variabel, som for eksempel responsvariabel, forklarende variabel eller variabel, der bruges til at inddele data i undergrupper. Hver række svarer til et observationsnummer og indeholder værdierne for de forskellige variable knyttet til dette observationsnummer. Data i indledningen til kapitel 6 vedrørende mængden af cell free DNA vil på datatabelform se ud som følger.

\begin{array}{rrr} \hline & \text{Gruppe} & \text{Mængde} \\ \hline 1 & \text{qiagen} & 14.8 \\ 2 & \text{qiagen} & 13.3 \\ \vdots & & \\ 14 & \text{qiagen} & 25.1 \\ 15 & \text{triton} & 21.6 \\ 16 & \text{triton} & 26.3 \\ \vdots & & \\ 33 & \text{triton} & 48.5 \\ 34 & \text{triton} & 49.1 \\ \hline \end{array}

Den generelle statistiske model bliver på formen

X_i\sim N(\xi_i,\sigma^2),\enspace i=1,\ldots,n,\enspace \text{uafhængige,}

hvor den specifikke model fremkommer ved at beskrive, hvordan midddelværdien

\xi_i

afhænger af værdierne for de forskellige variable i datasættet. Bemærk, at vi siger, at alle de stokastiske variable har samme varians

\sigma^2.

En specifik model

M

angiver, hvordan vektoren af middelværdier

(\xi_1,\xi_2,\ldots,\xi_n)

afhænger af nogle ukendte parametre. Antallet af disse ukendte parametre betegnes med

d(M).

Når de ukendte parametre i middelværdien er estimeret, indsættes disse i

\xi_i

og vi taler om de forventede værdier

(\hat\xi_1,\hat\xi_2,\ldots,\hat\xi_n)

og om residualerne

r_i=X_i-\hat\xi_i,

i=1,\ldots,n.

Desuden bruger vi

\mathit{df}(M)=n-d(M),\quad \mathit{SSD}(M)=\sum_{i=1}^n(X_i-\hat\xi_i)^2\quad\text{og}\quad s^2(M)=\frac{\mathit{SSD}(M)}{\mathit{df}(M)},

hvor

\mathit{df}(M)

står for "degrees of freedom" (frihedsgradsantallet), og

\mathit{SSD}(M)

står for "Sum of Squared Deviations". Klassen af modeller, vi betragter, kaldes lineære normale modeller, hvor lineær kommer fra, at når vi specificerer en model, angiver vi indirekte et lineært underrum, hvor vektoren af middelværdier

(\xi_1,\xi_2,\ldots,\xi_n)

kan variere frit.

Afsnit 8.1 starter med en beskrivelse af, hvordan data inddeles i undergrupper via faktorer. Begrebsmæssigt er en faktor meget simpel, men også meget nyttig, når vi skal udvikle en sprogbrug for de generelle modeller. Et kendetegn ved den generelle model er, at alle de stokastiske variable har samme varians. Når data inddeles i undergrupper, er det naturligt at lave en indledende undersøgelse, hvor vi vurderer, om der er samme varians i de forskellige undergrupper. Vi ved fra afsnit 6.4, hvordan to varianser sammenlignes, og generelt fra afsnit 6.7 hvordan flere varianser sammenlignes via Bartletts test. Bartletts test illustreres i afsnittene 8.1 og 8.6.

Afsnittene 8.2, 8.3 og 8.4 handler om ensidet variansanalyse, hvor data inddeles i undergrupper ud fra en enkelt faktor. Når data inddeles i undergrupper efter to faktorer, taler vi om tosidet variansanalyse, og denne model behandles i afsnittene 8.6

\,-\,

8.8, hvor de to sidste afsnit giver generelle resultater til brug for vilkårlige lineære modeller.

De sidste tre afsnit i dette kapitel vedrører en regressionssituation, hvor data er inddelt i undergrupper, og hvor hver undergruppe har sin egen lineære sammenhæng mellem respons og forklarende variabel. Modellen indføres i afsnit 8.9, og et eksempel analyseres i afsnit 8.10.

Foregående Næste

Kapitel 8: Generel lineær model