I kapitel 6 og 7 blev grunden lagt til forståelsen af en generel klasse
af normalfordelingsmodeller. I afsnit
6.1
blev data inddelt i to undergrupper med hver sin middelværdi
og i afsnit
7.1
så vi på regressionsmodellen, hvor middelværdien
af respons afhænger lineært af en forklarende variabel.
Endvidere stiftede vi i afsnit
7.4
bekendtskab med funktionen
ols i
python
til analyse af modellen.
I den generelle model inddeles data i mere end to grupper
og endvidere inddeles data ofte efter flere inddelingskriterier
(som for eksempel i biologi efter køn og art).
Vi vil også betragte regressionsmodeller med mere en
n forklarende variabel og situationer,
hvor regressionslinjen afhænger af hvilken undergruppe data
tilhører.
Alle modellerne vil blive analyseret via
ols
eller
fitlm,
og et væsentligt aspekt i fremstillingen er at lave en
simpel notation for modellerne, således at vi nemt kan
"kommunikere" med programmet, der bruges til analysen.
Det første element i fremstillingen er at tænke på data
i form af en datatabel som beskrevet i afsnit
6.6.
Hver søjle i datatabellen svarer til en variabel, som
for eksempel responsvariabel, forklarende variabel eller
variabel, der bruges til at inddele data i undergrupper.
Hver række svarer til et observationsnummer og indeholder
værdierne for de forskellige variable knyttet til dette
observationsnummer. Data i indledningen til kapitel
6
vedrørende mængden af
cell free DNA vil på
datatabelform se ud som følger.
Den generelle statistiske model bliver
på formen
hvor den specifikke model fremkommer ved at beskrive, hvordan
midddelværdien
afhænger af værdierne for de forskellige
variable i datasættet. Bemærk, at vi siger, at alle de stokastiske
variable har samme varians
En specifik model
angiver, hvordan vektoren af middelværdier
afhænger af nogle ukendte parametre.
Antallet af disse ukendte parametre betegnes med
Når de ukendte parametre i middelværdien er estimeret,
indsættes disse i
og vi taler om de
forventede værdier
og om
residualerne
Desuden bruger vi
hvor
står for "degrees of freedom"
(frihedsgradsantallet), og
står for
"Sum of Squared Deviations". Klassen af modeller, vi betragter, kaldes
lineære normale modeller, hvor
lineær kommer fra,
at når vi specificerer en model, angiver vi indirekte
et lineært underrum, hvor vektoren af middelværdier
kan variere frit.
Afsnit
8.1 starter med en beskrivelse af,
hvordan data inddeles i undergrupper via
faktorer.
Begrebsmæssigt er en faktor meget simpel,
men også meget nyttig, når vi skal udvikle en sprogbrug for de
generelle modeller. Et kendetegn ved den generelle model er,
at alle de stokastiske variable har samme varians.
Når data inddeles i undergrupper, er det naturligt at
lave en indledende undersøgelse, hvor vi vurderer,
om der er samme varians i de forskellige undergrupper.
Vi ved fra afsnit
6.4, hvordan to varianser sammenlignes,
og generelt fra afsnit
6.7 hvordan flere varianser sammenlignes
via
Bartletts test. Bartletts test illustreres i
afsnittene
8.1 og
8.6.
Afsnittene
8.2,
8.3 og
8.4
handler om ensidet variansanalyse, hvor data inddeles i undergrupper
ud fra en enkelt faktor. Når data inddeles i undergrupper
efter to faktorer, taler vi om tosidet variansanalyse, og denne
model behandles i afsnittene
8.68.8,
hvor de to sidste afsnit giver generelle resultater til brug for vilkårlige
lineære modeller.
De sidste tre afsnit i dette kapitel vedrører en regressionssituation,
hvor data er inddelt i undergrupper, og hvor hver undergruppe
har sin egen lineære sammenhæng mellem respons og forklarende variabel.
Modellen
indføres i afsnit
8.9, og et eksempel analyseres i
afsnit
8.10.
ForegåendeNæste