Måske har I bemærket, at der i output fra python
står en værdi med navnet R-squared.
I vil opdage, at når I læser artikler, bliver denne værdi ofte angivet.
Jeg vil ikke gøre brug af værdien i dette kursus, men vil her lige
definere værdien. Ideen bygger på, at vi tænker på respons som havende en variation,
og noget af denne variation bliver forklaret ved vores model for
middelværdien. Hvis responsværdierne er er den
totale variation i respons givet ved
hvor er gennemsnit af responsværdierne. Betragt nu en model
og lad være de
forventede værdier, det vil sige middelværdien med skøn over
parametre indsat. I regressionsmodellen i dette kapitel er
og de forventede værdier er
Med den del af variationen,
der forklares af middelværdimodellen, menes
Den del af variationen i respons, der ikke forklares af modellen, er
som bruges i skønnet over variansen
Der gælder generelt, at
og R-squared værdien defineres som
den fraktion af den totale variation, der forklares af modellen:
En R-squared værdi tæt på 1 er et udtryk for, at variansskønnet
er lille relativt til den totale variation i respons. Hvis R-squared skal være lig med 1, skal variansskønnet være nul.
I regressionsmodellen betyder dette, at alle datapunkterne ligger
præcist på en ret linje. I kodevinduet nedenfor er vist to eksempler med forskellig værdi
af R-squared. Det første er med data fra Eksempel 7.1.1,
hvor R-squared er 0.90, og
det andet med data fra afsnit 7.6, hvor R-squared er 0.62.
Forfatterne til artiklen bag Eksempel 7.1.1 skriver selv:
"Regression analysis revealed that a 90% variation of the variable
log GLUase-HR was directly related to the variable log E. coli
concentrations", som netop er et udsagn om R-squared.
Formålet med dette underafsnit er at gøre jer bekendt med den
statistiske model,
der ligger bag avancerede programmer i python
til estimation af ikke-lineære sammenhænge.
I skal ikke selv analysere data med disse programmer,
da dette ligger uden for indholdet i denne webbog. I nogle situationer er en lineær funktion ikke tilstrækkelig til at
beskrive sammenhængen i data. Et eksempel er inden for studiet af
iontransport.
I artiklen
Unbiased Simulations Reveal the Inward-Facing
Conformation of the Human Serotonin Transporter and
Na+ Ion Release,
skrevet af forskere fra Aarhus Universitet,
omtales et eksperiment
med transport af Na+ i celler fra pattedyr. Forskellige
koncentrationer af NA+ er indsat i cellerne, og raten hvormed ionerne
transporteres måles. Der omtales to eksperimenter,
hvor der bruges forskellige proteiner til transport af Na+,
henholdsvis en vildtype
hSERT (human serotonin transporter) og en muteret type Asp437Asn.
Koncentrationen måles i mM og raten i cpm (counts
per minute).
Data der anvendes nedenfor er aflæst fra figur 6 i artiklen og er
vist i nedenstående figuren. Michaelis-Menten kinetik
forbinder en reaktionsrate med koncentrationen
af et substrat gennem ligningen
Der er således to parametre i denne model. Parameteren angiver den
maksimale reaktionsrate, og parameteren angiver den koncentration,
under hvilken reaktionsraten vil være det halve af den maksimale
værdi . Relationen (7.7.1) med skønnede parameterværdier
er indtegnet i den figur nedenfor, hvor den venstre kurve er for
hSERT eksperimentet og den højre kurve er for Asp437Asn eksperimentet.
Hvis betegner den 'te måling af reaktionraten og den
tilhørende koncentration, vil vi benytte modellen
hvor målingerne antages at være uafhængige.
Vi tillader her, at der kan være forskellig usikkerhed på målingerne
gennem konstanterne , som antages at være kendte. I ovenstående figur
er dette illustreret ved en errorbar ved hvert målepunkt.
Tabellen nedenfor viser parameterskøn og approksimative
konfidensintervaller for de
to eksperimenter vist i ovenstående figur.
Konfidensintervallerne er på formen
Frihedsgradsantallet er ,
hvor tallet 2 kommer fra at middelværdimodellen har 2 parametre:
og . Beregningen af standard error er kompliceret
og er baseret på en approksimation, der ikke altid er god.
For begge datasæt får vi et meget bredt konfidensinterval
(den øvre grænse er flere gange større end den nedre grænse).
For ASP datasættet er det tydeligt, at forklaringen på dette er, at
vi ikke er i stand til at fastlægge den øvre grænse for raten,
og dermed kan vi ikke fastlægge hvilken koncentration, der giver
en rate, der er haldelen af maksimum.
For hSert datasættet har vi god viden om den øvre grænse, men i det område
hvor raten cirka er halvdelen af den øvre grænse, er der stor
usikkerhed på ratemålingen, hvorfor vi har svært ved at fastlægge,
for hvilket koncentration raten er lig med halvdelen af den øvre grænse.