I kapitel 4 og 5 blev grunden lagt til forståelsen af en generel klasse af normalfordelingsmodeller. I afsnit 4.9 blev data inddelt i to undergrupper med hver sin middelværdi og i afsnit 5.1 så vi på regressionsmodeller, hvor middelværdien af respons afhænger lineært af en forklarende variabel. Endvidere stiftede vi i afsnit 5.4 bekendtskab med funktionen lm i R til analyse af modellen. I den generelle model inddeles data i mere end to grupper og endvidere inddeles data efter flere inddelingskriterier (som for eksempel i biologi efter køn og art). Vi vil også betragte regressionsmodeller med mere en $\acute{\text{e}}$ n forklarende variabel og situationer, hvor regressionslinjen afhænger af hvilken undergruppe data tilhører.

Alle modellerne vil blive analyseret via lm i R, og et væsentligt aspekt i fremstillingen er at lave en simpel notation for modellerne, således at vi nemt kan "kommunikere" med lm. Det første element i fremstillingen er at tænke på data på "matriksform" svarende til en dataframe i R. Hver søjle i matricen svarer til en variabel, som for eksempel responsvariabel, forklarende variabel eller variabel, der bruges til at inddele data i undergrupper. Hver række svarer til et observationsnummer og indeholder værdierne for de forskellige variable knyttet til dette observationsnummer. Data i i afsnit 4.8 vedrørende tykheden af rullesten vil på matrixform se ud som følger.

$\begin{array}{rrr} \hline & \text{Gruppe} & \text{Længde} \\ \hline 1 & \text{kyst} & 25.8 \\ 2 & \text{kyst} & 61.5 \\ \vdots & & \\ 50 & \text{kyst} & 40.0 \\ 51 & \text{flod} & 50.6 \\ 52 & \text{flod} & 69.5 \\ 98 & \text{flod} & 67.6 \\ 99 & \text{flod} & 43.6 \\ \hline \end{array}$ Den generelle statistiske model bliver på formen

$X_i\sim N(\xi_i,\sigma^2),\enspace i=1,\ldots,n,\enspace \text{uafhængige,}$ hvor den specifikke model fremkommer ved at beskrive, hvordan middelværdien $\xi_i$ afhænger af værdierne for de forskellige variable i datasættet. Bemærk, at vi siger, at alle de stokastiske variable har samme varians $\sigma^2.$ En specifik model $M$ angiver, hvordan vektoren af middelværdier $(\xi_1,\xi_2,\ldots,\xi_n)$ afhænger af nogle ukendte parametre. Antallet af disse parametre betegnes med $d(M).$ Når de ukendte parametre i middelværdien er estimeret, indsættes disse i $\xi_i$ og vi taler om de forventede værdier $(\hat\xi_1,\hat\xi_2,\ldots,\hat\xi_n)$ og om residualerne $r_i=X_i-\hat\xi_i,$ $i=1,\ldots,n.$ Desuden bruger vi

$\mathit{df}(M)=n-d(M),\quad \mathit{SSD}(M)=\sum_{i=1}^n(X_i-\hat\xi_i)^2\quad\text{og}\quad s^2(M)=\frac{\mathit{SSD}(M)}{\mathit{df}(M)},$ hvor $\mathit{df}(M)$ står for "degrees of freedom" (frihedsgradsantallet), og $\mathit{SSD}(M)$ står for "Sum of Squared Deviations".

Afsnit 6.1 starter med en beskrivelse af, hvordan data inddeles i undergrupper via faktorer. Begrebsmæssigt er en faktor meget simpel, men også meget nyttig når vi skal udvikle en sprogbrug for de generelle modeller. Et kendetegn ved den generelle model er, at alle de stokastiske variable har samme varians. Når data inddeles i undergrupper, er det naturligt at lave en indledende undersøgelse, hvor vi vurderer, om der er samme varians i de forskellige undergrupper. Vi ved fra afsnit 4.12, hvordan to varianser sammenlignes, men hvordan sammenlignes varianser fra flere end to grupper ? I afsnit 6.5 indføres Bartletts test til vurdering af mere end to varianser.

Afsnittene 6.2, 6.3 og 6.4 handler om ensidet variansanalyse, hvor data inddeles i undergrupper ud fra en enkelt faktor. Når data inddeles i undergrupper efter to faktorer, taler vi om tosidet variansanalyse, og denne model behandles i afsnittene 6.6 og 6.7.

Foregående Næste

Kapitel 6: En og tosidet variansanalyse