Afsnit 7.7: R-squared

Måske har I bemærket, at der i output fra python står en værdi med navnet R-squared. I vil opdage, at når I læser artikler, bliver denne værdi ofte angivet. Jeg vil ikke gøre brug af værdien i dette kursus, men vil her lige definere værdien.

Ideen bygger på, at vi tænker på respons som havende en variation, og noget af denne variation bliver forklaret ved vores model for middelværdien. Hvis responsværdierne er $x_i,$ $i=1,\ldots,n,$ er den totale variation i respons givet ved

$\text{SSD}_{\text{total}}=\sum_{i=1}^n\big(x_i-\bar x\big)^2,$ hvor $\bar x$ er gennemsnit af responsværdierne. Betragt nu en model $X_i\sim N(\xi_i,\sigma^2),$ og lad $\hat\xi_i$ være de forventede værdier, det vil sige middelværdien $\xi_i$ med skøn over parametre indsat. I regressionsmodellen i dette kapitel er $\xi_i=\alpha+\beta t_i,$ og de forventede værdier er $\hat\xi_i=\hat\alpha+\hat\beta t_i.$ Med den del af variationen, der forklares af middelværdimodellen, menes

$\text{SSD}_{\text{forklaret}}=\sum_{i=1}^n\big(\hat\xi_i-\bar x\big)^2.$ Den del af variationen i respons, der ikke forklares af modellen, er

$\text{SSD}(M)=\sum_{i=1}^n\big(x_i-\hat\xi_i\big)^2,$ som bruges i skønnet over variansen $s^2(M)=\text{SSD}(M)/\text{df}(M).$ Der gælder generelt, at $\text{SSD}_{\text{total}}=\text{SSD}_{\text{forklaret}}+\text{SSD}(M),$ og R-squared værdien defineres som den fraktion af den totale variation, der forklares af modellen:

$\text{R-squared}= \frac{\text{SSD}_{\text{forklaret}}}{\text{SSD}_{\text{total}}}= 1-\frac{\text{SSD}(M)}{\text{SSD}_{\text{total}}}.$ En R-squared værdi tæt på 1 er et udtryk for, at variansskønnet $s^2(M)$ er lille relativt til den totale variation i respons.

Hvis R-squared skal være lig med 1, skal variansskønnet være nul. I regressionsmodellen betyder dette, at alle datapunkterne ligger præcist på en ret linje.

I kodevinduet nedenfor er vist to eksempler med forskellig værdi af R-squared. Det første er med data fra Eksempel 7.1.1, hvor R-squared er 0.90, og det andet med data fra afsnit 7.6, hvor R-squared er 0.62. Forfatterne til artiklen bag Eksempel 7.1.1 skriver selv: "Regression analysis revealed that a 90% variation of the variable log GLUase-HR was directly related to the variable log E. coli concentrations", som netop er et udsagn om R-squared.

Eksempler på R-squared værdier

Se opstartskoden (til/fra)

7.7.1 Ikke-lineær sammenhæng

Formålet med dette underafsnit er at gøre jer bekendt med den statistiske model, der ligger bag avancerede programmer i python til estimation af ikke-lineære sammenhænge. I skal ikke selv analysere data med disse programmer, da dette ligger uden for indholdet i denne webbog.

I nogle situationer er en lineær funktion ikke tilstrækkelig til at beskrive sammenhængen i data. Et eksempel er inden for studiet af iontransport. I artiklen Unbiased Simulations Reveal the Inward-Facing Conformation of the Human Serotonin Transporter and Na+ Ion Release, skrevet af forskere fra Aarhus Universitet, omtales et eksperiment med transport af Na+ i celler fra pattedyr. Forskellige koncentrationer af NA+ er indsat i cellerne, og raten hvormed ionerne transporteres måles. Der omtales to eksperimenter, hvor der bruges forskellige proteiner til transport af Na+, henholdsvis en vildtype hSERT (human serotonin transporter) og en muteret type Asp437Asn. Koncentrationen måles i mM og raten i cpm (counts per minute). Data der anvendes nedenfor er aflæst fra figur 6 i artiklen og er vist i nedenstående figuren.

Michaelis-Menten kinetik forbinder en reaktionsrate $v$ med koncentrationen $T$ af et substrat gennem ligningen

$v(T)=\frac{\alpha T}{\beta+T}. \tag{7.7.1}$ Der er således to parametre i denne model. Parameteren $\alpha$ angiver den maksimale reaktionsrate, og parameteren $\beta$ angiver den koncentration, under hvilken reaktionsraten vil være det halve af den maksimale værdi $\alpha$ . Relationen (7.7.1) med skønnede parameterværdier er indtegnet i den figur nedenfor, hvor den venstre kurve er for hSERT eksperimentet og den højre kurve er for Asp437Asn eksperimentet.

Hvis $x_i$ betegner den $i$ 'te måling af reaktionraten og $t_i$ den tilhørende koncentration, vil vi benytte modellen

$X_i\sim N\Big(\frac{\alpha t_i}{\beta+t_i},\frac{\sigma^2}{w_i}\Big), \enspace i=1,\ldots,n, \tag{7.7.2}$ hvor målingerne antages at være uafhængige. Vi tillader her, at der kan være forskellig usikkerhed på målingerne gennem konstanterne $w_i$ , som antages at være kendte. I ovenstående figur er dette illustreret ved en errorbar ved hvert målepunkt.

Analyse af data

Tabellen nedenfor viser parameterskøn og approksimative konfidensintervaller for de to eksperimenter vist i ovenstående figur. Konfidensintervallerne er på formen

$\text{skøn}\pm t_0\cdot\text{standard error}, \qquad t_0=t_{\text{inv}}\big(0.975,\mathit{df}\big).$ Frihedsgradsantallet er $\mathit{df}=n-2$ , hvor tallet 2 kommer fra at middelværdimodellen har 2 parametre: $\alpha$ og $\beta$ . Beregningen af standard error er kompliceret og er baseret på en approksimation, der ikke altid er god.

$\begin{array}{lcccccccc} \\ \hline && &\alpha & && & \beta & \\ \text{Protein} && \text{Skøn} & \text{Nedre} & \text{Øvre} && \text{Skøn} & \text{Nedre} & \text{Øvre} \\ \hline \text{hSERT} && 21678 & 20453 & 22902 && 2.32 & 1.06 & 3.59 \\ \text{Asp437Asn} && 72553 & 33437 & 111670 && 367 & 117 & 616 \\ \hline \end{array}$

Se opstartskoden (til/fra)

For begge datasæt får vi et meget bredt konfidensinterval (den øvre grænse er flere gange større end den nedre grænse). For ASP datasættet er det tydeligt, at forklaringen på dette er, at vi ikke er i stand til at fastlægge den øvre grænse for raten, og dermed kan vi ikke fastlægge hvilken koncentration, der giver en rate, der er haldelen af maksimum. For hSert datasættet har vi god viden om den øvre grænse, men i det område hvor raten cirka er halvdelen af den øvre grænse, er der stor usikkerhed på ratemålingen, hvorfor vi har svært ved at fastlægge, for hvilket koncentration raten er lig med halvdelen af den øvre grænse.

Foregående Næste