I kapitel 4 og 5 blev grunden lagt til forståelsen af en generel klasse
af normalfordelingsmodeller. I afsnit
4.9
blev data inddelt i to undergrupper med hver sin middelværdi
og i afsnit
5.1
så vi på regressionsmodeller, hvor middelværdien
af respons afhænger lineært af en forklarende variabel.
Endvidere stiftede vi i afsnit
5.4
bekendtskab med funktionen
lm i
R til analyse af modellen.
I den generelle model inddeles data i mere end to grupper
og endvidere inddeles data efter flere inddelingskriterier
(som for eksempel i biologi efter køn og art).
Vi vil også betragte regressionsmodeller med mere en
n forklarende variabel og situationer,
hvor regressionslinjen afhænger af hvilken undergruppe data
tilhører.
Alle modellerne vil blive analyseret via
lm i
R,
og et væsentligt aspekt i fremstillingen er at lave en
simpel notation for modellerne, således at vi nemt kan
"kommunikere" med
lm.
Det første element i fremstillingen er at tænke på data på
"matriksform" svarende til en
dataframe i
R.
Hver søjle i matricen svarer til en variabel, som
for eksempel responsvariabel, forklarende variabel eller
variabel, der bruges til at inddele data i undergrupper.
Hver række svarer til et observationsnummer og indeholder
værdierne for de forskellige variable knyttet til dette
observationsnummer. Data i i afsnit
4.8
vedrørende tykheden af rullesten vil på
matrixform se ud som følger.
Den generelle statistiske model bliver
på formen
hvor den specifikke model fremkommer ved at beskrive, hvordan
middelværdien
afhænger af værdierne for de forskellige
variable i datasættet. Bemærk, at vi siger, at alle de stokastiske
variable har samme varians
En specifik model
angiver, hvordan vektoren af middelværdier
afhænger af nogle ukendte parametre.
Antallet af disse parametre betegnes med
Når de ukendte parametre i middelværdien er estimeret,
indsættes disse i
og vi taler om de
forventede værdier
og om
residualerne
Desuden bruger vi
hvor
står for "degrees of freedom"
(frihedsgradsantallet), og
står for
"Sum of Squared Deviations".
Afsnit
6.1 starter med en beskrivelse af,
hvordan data inddeles i undergrupper via
faktorer.
Begrebsmæssigt er en faktor meget simpel,
men også meget nyttig når vi skal udvikle en sprogbrug for de
generelle modeller. Et kendetegn ved den generelle model er,
at alle de stokastiske variable har samme varians.
Når data inddeles i undergrupper, er det naturligt at
lave en indledende undersøgelse, hvor vi vurderer,
om der er samme varians i de forskellige undergrupper.
Vi ved fra afsnit
4.12, hvordan to varianser sammenlignes,
men hvordan sammenlignes varianser fra flere end to grupper
 ?
I afsnit
6.5 indføres
Bartletts test
til vurdering
af mere end to varianser.
Afsnittene
6.2,
6.3 og
6.4
handler om ensidet variansanalyse, hvor data inddeles i undergrupper
ud fra en enkelt faktor. Når data inddeles i undergrupper
efter to faktorer, taler vi om tosidet variansanalyse, og denne
model behandles i afsnittene
6.6 og
6.7.
ForegåendeNæste