Afsnit 6.1: Den generelle lineære model via underrum

I har nu i de tidligere kapitler set forskellige eksempler på normalfordelingsmodeller specificeret gennem faktorer og regressionsvariable. Det har været en stor bekvemmelighed, at modellen kan angives gennem en modelformel. Dette giver en meget simpel og kompakt sprogbrug, der også gør det nemt at kommunikere med R, specielt med funktionen lm.
Det der karakteriserer modellerne, ud fra en matematisk synsvinkel, er, at vektoren af middelværdier kan variere frit i et lineært underrum af hvor er antallet af observationer. Lad , være uafhængige stokastiske variable, og lad . En lineær model siger, at kan variere frit i et givet lineært underrum I det næste skjulte punkt vises det relevante underrum for nogle af de modeller, vi har betragtet i de tidligere kapitler.

Kendte eksempler

To grupper

Vi starter med modellen, hvor vi har to grupper af normalfordelte variable med hver sin middelværdi og Betragt en ordning, hvor de observationer fra gruppe 1 kommer først, og de observationer fra gruppe 2 kommer sidst. Betragt de to vektorer
og lad være matricen med søjlerne og og lad være underrummet udspændt af de to vektorer. Så kan modellen skrives på formen hvor er søjlevektoren med indgangene og , og kan også formuleres på den måde, at kan variere frit i
Det er nemt at se, at er diagonalmatricen med indgangene og , er søjlevektoren med summen over gruppe 1 og summen over gruppe 2 som indgange, og derfor
hvor og er gennemsnittene i de to grupper.

Simpel lineær regression

Vi betragter den lineære regressionsmodel med , med kendte tal. Betragt de to vektorer
og lad være matricen med søjlerne og , og lad være underrummet udspændt af de to vektorer. Så kan modellen skrives på formen og kan også formuleres på den måde, at kan variere frit i .
Hvis vi lader så er også udspændt af og Lad være matricen med søjlerne og . Så viser en simpel beregning at
med givet i (3.2.1). Da
ses at

One way anova

Vi betragter normalfordelingsmodellen med , hvor er en faktor, der deler op i grupper. For hver gruppe defineres en vektor ved at den 'te indgang er 1, hvis , og nul ellers. Så kan vi skrive modellen på formen
hvor er matricen med søjlerne , og er søjlevektoren indeholdende
Bemærk at bliver en diagonalmatriks, hvoraf det let ses, at giver, at er gennemsnittet i den 'te gruppe.
Matricen giver parametriseringen med Det samme middelværdirum kan imidlertid også udspændes af søjlevektorerne , , , hvor er vektoren med lutter 1-taller, som svarer til den parametrisering, der bruges i R med ,

I en generel lineær model kan middelværdien skrives som en sum af bidrag fra enten en faktor eller en regressionsvariabel. Vi har set i eksemplerne ovenfor, hvordan henholdsvis en faktor og en regressionsvariabel definerer et linært underrum. Når vi i en model betragter sum af bidrag, svarer dette til sum af de lineære underrum, og dette er i sig selv et nyt lineært underrum. Vi ender derfor med følgende generelle setup,
hvor er et -dimensionalt lineært underrum af og er et -dimensionalt lineært underrum af Model fremkommer typisk ved, at man sætter nogle af parametrene i model lig med nul, eller man sætter nogle parametre lig med hinanden. Vi skal i næste afsnit bruge følgende matematiske resultat.
Resultat 6.1.1. (Ortogonalitet af projektioner)
Lad og være projektionsmatricer hørende til de to underrum og . Så gælder der
For en projektionsmatriks har vi og Hvis den første ligning ovenfor er vist, kan ligning nummer to reduceres som følger
Ligning nummer 3 og 4 følger på samme vis. Vi skal derfor blot argumentere for korrektheden af den første ligning. For en vektor gælder der, at eftersom Da søjlerne i projektionmatricen ligger i følger det nu, at
ForegåendeNæste