Afsnit 6.3: T-test

Betragt den generelle lineære model , hvor søjlevektoren af middelværdier ligger i det lineære underrum af dimension . Betragt en parametrisering givet ved hvor er en matrix og er en søjlevektor.
Vi har, at jævnfør Resultat 6.0.2, hvilket specielt viser, at enhver koordinat er en linearkombination af Dette er baggrunden for resultaterne i de tidligere kapitler, hvor alle skønnene over parametrene i middelværdien er normalfordelte. Når alle disse skøn også har haft den egenskab, at middelværdien er lig med den sande værdi af parameteren, følger dette af
Med notationen for en vektor med normalfordelte variable fra afsnit 6.0 kan vi skrive
idet
Resultat 6.3.1. (-test i lineær model)
Betragt en lineær normal model , hvor er en af koordinaterne i middelværdiparametriseringen. Ifølge ovenstående kan vi så skrive for passende konstanter Lad endvidere variansskønnet være med frihedsgrader.
  1. Under hypotesen gælder der, at
  2. Lad så er et 95%-konfidensinterval for på formen

Bevis

Med har vi
og de to stokastiske variable er uafhængige ifølge Resultat 6.2.2. Fra Definition 2.4.1 har vi derfor
hvilket viser (i).
For at vise konfidensintervallet laver vi omskrivningen

6.3.1 Korrelation i multipel regressionsmodel

Som angivet ovenfor er variansmatricen for i den lineære model med givet ved Dette kan vi bruge til at studere korrelationen mellem to estimatorer.
For at se princippet kan vi starte med den simple regressionsmodel , alle uafhængige. Det lineære underrum for middelværdivektoren er frembragt af og Med får vi, med og at
Vi ser her, at korrelationen mellem og er
Specielt ser vi, at hvis så er de to skøn ukorrelerede, og omvendt, hvis bliver meget stor, nærmer korrelationen sig plus eller minus 1.
Lad os dernæst betragte den multiple regressionsmodel med to forklarende variable og Lad og Det lineære underrum for middelværdivektoren udspændes af , og . For denne model finder vi
hvor er determinanten, , og en stjerne er en ikke-angivet værdi. Vi får nu herfra, at korrelationen mllem og er
som er den minus den empiriske korrelation mellem de to forklarende variable.
En stor korrelation mellem de to forklarende variable giver således anledning til en stor korrelation (med modsat fortegn) mellem de to skøn over regressionskoefficienterne. Ydermere vil en stor korrelation mellem de forklarende variable også øge spredningen på parameterskønnet. Vi kan se dette nemt, hvis vi betragter tilfældet med (eller ). Så får vi,
som netop viser, at variansen stiger, når korrelationen bliver stor.
Med en stor korrelation mellem de forklarende variable er det således svært at bestemme regressionskoefficienterne præcist. Dette kan umiddelbart virke negativt, men man skal huske, at der findes kombinationer af de to koefficienter, der er mere velbestemte. Vi kan anskueliggøre dette ved at starte med en situation uden korrelation. Lad os sige, at , og . I denne situation er variansen på skønnet over regressionskoefficienten givet ved Vi laver nu nye forklarende variable ved at definere og , hvor er en konstant. Korrelationen mellem og bliver , og varianserne på de to skøn er Så med en stor værdi af er og ikke særligt velbestemte, men de to kombinationer og er stadig velbestemte.
Foregående