Afsnit 5.7: R-squared

Måske har I bemærket, at der i output fra summary(lm(x\simt)) i teksten under parametertabellen står Multiple R-squared og en værdi for denne størrelse. I vil opdage, at når I læser artikler, bliver denne værdi ofte angivet. Jeg vil ikke gøre brug af værdien i dette kursus, men vil her lige definere værdien.
Ideen bygger på, at vi tænker på respons som havende en variation, og noget af denne variation bliver forklaret ved vores model for middelværdien. Hvis responsværdierne er xi,x_i, i=1,,n,i=1,\ldots,n, er den totale variation i respons givet ved
SSDtotal=i=1n(xixˉ)2, \text{SSD}_{\text{total}}=\sum_{i=1}^n\big(x_i-\bar x\big)^2,
hvor xˉ\bar x er gennemsnit af responsværdierne. Betragt nu en model XiN(ξi,σ2),X_i\sim N(\xi_i,\sigma^2), og lad ξ^i\hat\xi_i være de forventede værdier, det vil sige middelværdien ξi\xi_i med skøn over parametre indsat. I regressionsmodellen i dette kapitel er ξi=α+βti,\xi_i=\alpha+\beta t_i, og de forventede værdier er ξ^i=α^+β^ti.\hat\xi_i=\hat\alpha+\hat\beta t_i. Med den del af variationen, der forklares af middelværdimodellen, menes
SSDforklaret=i=1n(ξ^ixˉ)2. \text{SSD}_{\text{forklaret}}=\sum_{i=1}^n\big(\hat\xi_i-\bar x\big)^2.
Den del af variationen i respons, der ikke forklares af modellen, er
SSD(M)=i=1n(xiξ^i)2, \text{SSD}(M)=\sum_{i=1}^n\big(x_i-\hat\xi_i\big)^2,
som bruges i skønnet over variansen s2(M)=SSD(M)/df(M).s^2(M)=\text{SSD}(M)/\text{df}(M). Der gælder generelt at SSDtotal=SSDforklaret+SSD(M),\text{SSD}_{\text{total}}=\text{SSD}_{\text{forklaret}}+\text{SSD}(M), og R-squared værdien defineres som den fraktion af den totale variation, der forklares af modellen:
R-squared=SSDforklaretSSDtotal=1SSD(M)SSDtotal. \text{R-squared}= \frac{\text{SSD}_{\text{forklaret}}}{\text{SSD}_{\text{total}}}= 1-\frac{\text{SSD}(M)}{\text{SSD}_{\text{total}}}.
En R-squared værdi tæt på 1 er et udtryk for, at variansskønnet s2(M)s^2(M) er lille relativt til den totale variation i respons.
Hvis R-squared skal være lig med 1, skal variansskønnet være nul. I regressionsmodellen betyder dette, at alle datapunkterne ligger præcist på en ret linje.
I kodevinduet nedenfor er vist to eksempler med forskellig værdi af R-squared. Det første er med data fra Eksempel 5.1.1, hvor R-squared er 0.90, og det andet med data fra afsnit 5.6, hvor R-squared er 0.62.

Eksempler på R-squared værdier

Se opstartskoden (til/fra)

ForegåendeNæste