Afsnit 3.7: R-squared
Måske har I bemærket, at der i output fra
summary(lm(xt)) i teksten under parametertabellen
står
Multiple R-squared og en værdi for denne størrelse.
I vil opdage, at når I læser artikler, bliver denne værdi ofte angivet.
Jeg vil ikke gøre brug af værdien i dette kursus, men vil her lige
definere værdien.
Ideen bygger på, at vi tænker på respons som havende en variation,
og noget af denne variation bliver forklaret ved vores model for
middelværdien. Hvis responsværdierne er
er den
totale variation i respons givet ved
hvor
er gennemsnit af responsværdierne. Betragt nu en model
og lad
være de
forventede værdier, det vil sige middelværdien
med skøn over
parametre indsat. I regressionsmodellen i dette kapitel er
og de forventede værdier er
Med den del af variationen,
der forklares af middelværdimodellen, menes
Den del af variationen i respons, der ikke forklares af modellen, er
som bruges i skønnet over variansen
Der gælder generelt at
og
R-squared værdien defineres som
den fraktion af den totale variation, der forklares af modellen:
En R-squared værdi tæt på 1 er et udtryk for, at variansskønnet
er lille relativt til den totale variation i respons.
Hvis R-squared skal være lig med 1, skal variansskønnet være nul.
I regressionsmodellen betyder dette, at alle datapunkterne ligger
præcist på en ret linje.
I definitionen af R-squared ovenfor kan vi dividere tæller og nævner med
og tænke på de to led som variansskøn,
I vores normale ariansskøn dividerer vi imidlertid med antallet
af frihedsgrader. Hvis vi gør dette får vi den såkaldte
Adjusted R-squared:
I kodevinduet nedenfor er vist to eksempler med forskellig værdi
af R-squared. Det første er med data fra Eksempel
3.1.1 og
det andet med data fra afsnit
3.6.
Eksempler på R-squared værdier
3.7.1 Relation til korrelation
I kender fra jeres sandsynlighedskursus definitionen på
kovarians og korrelation mellem to stokastiske variable
og
:
I kender også følgende regneregler
og der gælder lighedstegn hvis og kun hvis der eksisterer
konstanter
og
således at
(bevis for uligheden
står også i MSRR Proposition 9.2.3 og Proposition 9.2.4).
Ligesom vi har indført empirisk varians
kan vi indføre empirisk kovarians som
, og dermed
empirisk korrelation
på formen
Her er
skøn over hældning ved regression af
på
, og
og
er de empiriske varianser for henholdsvis
og
.
Lad os nu vende tilbage til
-værdien for
regression af
på
Lad
være det
'te residual. Så har vi
Dermed bliver
-værdien
hvor
er en empiriske korrelation mellem
og
. Udover fortolkningen af
-værdien ovenfor, kan vi altså også tænke på denne som den kvadrerede
empiriske korrelation.
ForegåendeNæste