Afsnit 3.7: R-squared

Måske har I bemærket, at der i output fra summary(lm(x $\sim$ t)) i teksten under parametertabellen står Multiple R-squared og en værdi for denne størrelse. I vil opdage, at når I læser artikler, bliver denne værdi ofte angivet. Jeg vil ikke gøre brug af værdien i dette kursus, men vil her lige definere værdien.

Ideen bygger på, at vi tænker på respons som havende en variation, og noget af denne variation bliver forklaret ved vores model for middelværdien. Hvis responsværdierne er $x_i,$ $i=1,\ldots,n,$ er den totale variation i respons givet ved

$\text{SSD}_{\text{total}}=\sum_{i=1}^n\big(x_i-\bar x\big)^2,$ hvor $\bar x$ er gennemsnit af responsværdierne. Betragt nu en model $X_i\sim N(\xi_i,\sigma^2),$ og lad $\hat\xi_i$ være de forventede værdier, det vil sige middelværdien $\xi_i$ med skøn over parametre indsat. I regressionsmodellen i dette kapitel er $\xi_i=\alpha+\beta t_i,$ og de forventede værdier er $\hat\xi_i=\hat\alpha+\hat\beta t_i.$ Med den del af variationen, der forklares af middelværdimodellen, menes

$\text{SSD}_{\text{forklaret}}=\sum_{i=1}^n\big(\hat\xi_i-\bar x\big)^2.$ Den del af variationen i respons, der ikke forklares af modellen, er

$\text{SSD}(M)=\sum_{i=1}^n\big(x_i-\hat\xi_i\big)^2,$ som bruges i skønnet over variansen $s^2(M)=\text{SSD}(M)/\text{df}(M).$ Der gælder generelt at $\text{SSD}_{\text{total}}=\text{SSD}_{\text{forklaret}}+\text{SSD}(M),$ og R-squared værdien defineres som den fraktion af den totale variation, der forklares af modellen:

$\text{R-squared}= \frac{\text{SSD}_{\text{forklaret}}}{\text{SSD}_{\text{total}}}= 1-\frac{\text{SSD}(M)}{\text{SSD}_{\text{total}}}.$ En R-squared værdi tæt på 1 er et udtryk for, at variansskønnet $s^2(M)$ er lille relativt til den totale variation i respons.

Hvis R-squared skal være lig med 1, skal variansskønnet være nul. I regressionsmodellen betyder dette, at alle datapunkterne ligger præcist på en ret linje.

I definitionen af R-squared ovenfor kan vi dividere tæller og nævner med $n$ og tænke på de to led som variansskøn, $\text{R-squared}=1-\big(\text{SSD}(M)/n\big)/\big(\text{SSD}_{\text{total}}/n\big).$ I vores normale ariansskøn dividerer vi imidlertid med antallet af frihedsgrader. Hvis vi gør dette får vi den såkaldte Adjusted R-squared: $1-\big(\text{SSD}(M)/\text{df}(M)\big)/\big(\text{SSD}_{\text{total}}/(n-1)\big).$

I kodevinduet nedenfor er vist to eksempler med forskellig værdi af R-squared. Det første er med data fra Eksempel 3.1.1 og det andet med data fra afsnit 3.6.

Eksempler på R-squared værdier

Se opstartskoden (til/fra)

3.7.1 Relation til korrelation

I kender fra jeres sandsynlighedskursus definitionen på kovarians og korrelation mellem to stokastiske variable $X$ og $Y$ :

$\begin{aligned} \text{Cov}(X,Y) &= E\{X-E(X)\}\{Y-E(Y)\} \\ \text{Corr}(X,Y) &= \frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}}= \text{Cov}\Big( \frac{X-E(X)}{\text{sd}(X)},\frac{Y-E(Y)}{\text{sd}(Y)} \Big). \end{aligned}$ I kender også følgende regneregler

$\text{Corr}(a+bX,c+dY)=\text{Corr}(X,Y),\enspace |\text{Corr}(X,Y)|\leq 1,$ og der gælder lighedstegn hvis og kun hvis der eksisterer konstanter $a$ og $b$ således at $Y=a+bX$ (bevis for uligheden står også i MSRR Proposition 9.2.3 og Proposition 9.2.4).

Ligesom vi har indført empirisk varians $s^2=\sum_i(x_i-\bar x)^2/(n-1)$ kan vi indføre empirisk kovarians som $s^2_{xy}=\sum_i(x_i-\bar x)(y_i-\bar y)/(n-1)$ , og dermed empirisk korrelation $r$ på formen

$r=\frac{\frac{1}{n-1}\sum_i(x_i-\bar x)(y_i-\bar y)}{ \sqrt{\frac{1}{n-1}\sum_i(x_i-\bar x)^2\frac{1}{n-1}\sum_i(y_i-\bar y)^2}} =\hat\beta\sqrt{\frac{s_y^2}{s_x^2}}.$ Her er $\hat\beta$ skøn over hældning ved regression af $x$ på $y$ , og $s_x^2$ og $s_y^2$ er de empiriske varianser for henholdsvis $x$ og $y$ .

Lad os nu vende tilbage til $R^2$ -værdien for regression af $x$ på $y.$ Lad $r_i=x_i-\hat\alpha-\hat\beta=x_i-\bar x-\hat\beta(t_i-\bar t)$ være det $i$ 'te residual. Så har vi

$\begin{aligned} \mathit{SSD}(M)&=\sum_ir_i^2=\sum_i(x_i-\bar x)^2+\hat\beta^2\sum_i(t_i-\bar t)^2- \hat\beta\sum_i(t_i-\bar t)(x_i-\bar x) \\ & = \sum_i(x_i-\bar x)^2-\hat\beta^2\sum_i(t_i-\bar t)^2. \end{aligned}$ Dermed bliver $R^2$ -værdien

$R^2=1-\frac{ \sum_i(x_i-\bar x)^2-\hat\beta^2\sum_i(t_i-\bar t)^2 } { \sum_i(x_i-\bar x)^2 } =\hat\beta^2\frac{s_t^2}{s_x^2}=r^2,$ hvor $r$ er en empiriske korrelation mellem $x$ og $t$ . Udover fortolkningen af $R^2$ -værdien ovenfor, kan vi altså også tænke på denne som den kvadrerede empiriske korrelation.

Foregående Næste