Afsnit 7.5: Linjens værdi og kalibrering

I nogle situationer kan man være specielt interesseret i linjens værdi for bestemte værdier af den forklarende variabel $t.$ I eksemplet, vi har betragtet, med en ny måde at måle forureningsgraden i vandprøver kan det være, at man vil oversætte en grænseværdi på antallet af E.coli bakterier til en grænseværdi på GLUase aktiviteten. Dette kan formuleres på den måde, at i modellen $X_i\sim N(\alpha+\beta t_i,\sigma^2),$ $i=1,\ldots,n,$ vil vi gerne sige noget om parameteren $\xi_*=\alpha+\beta t_*,$ hvor $t_*$ er en given værdi af den forklarende variabel.

Som skøn over linjens værdi bruges $\hat\xi_*=\hat\alpha+\hat\beta t_*.$ På samme måde som i Resultat 7.2.1 kan man indse, at $\hat\xi_*\sim N\big(\xi_*,\sigma^2 \big(\frac{1}{n}+\frac{(t_*-\bar t)^2}{\mathit{SSD}_t}\big)\big).$ Som i Resultat 7.3.1 kan vi derfor lave test for værdien af $\xi_*,$ og vi kan lave et 95%-konfidensinterval. Det sidste er på formen

$\hat\xi_*\pm t_0\cdot\text{std}_s(\hat\xi_*),\quad \text{std}_s(\hat\xi_*)= s_r\sqrt{\frac{1}{n}+\frac{(t_*-\bar t)^2}{\mathit{SSD}_t}},\quad t_0=t_{\text{inv}}(0.975,n-2).$ Man omtaler ofte $\hat\xi_*$ som en prædikteret værdi og intervallet som et konfidensinterval for prædiktionen.

Derudover taler man også om et prædiktionsinterval, som er bredere end ovenstående konfidensinterval. Et 95%-prædiktionsinterval er et interval, der vil indeholde en kommende observation med sandsynlighed 0.95. Hvis $X_*\sim N(\alpha+\beta t_*,\sigma^2),$ skal der laves et interval, der indeholder $X_*$ med sandsynlighed 0.95. Hertil benyttes, at $\hat\xi_*-X_*\sim N\big(0,\sigma^2\big(1+\frac{1}{n}+ \frac{(t_*-\bar t)^2}{\mathit{SSD}_t}\big)\big).$ Ud fra dette kan vi konstruere en " $t$ -teststørrelse":

$\frac{\hat\xi_*-X_*}{\text{std}_{\text{præ}}},\quad \text{std}_{\text{præ}}= s_r\sqrt{1+\frac{1}{n}+\frac{(t_*-\bar t)^2}{\mathit{SSD}_t}},$ og lave prædiktionsintervallet som

$\hat\xi_*\pm t_0\cdot\text{std}_{\text{præ}},\quad t_0=t_{\text{inv}}(0.975,n-2).$

Lad os nu se på beregningen af et konfidensinterval for linjens værdi, og et prædiktionsinterval for en kommende observation, i python. Input til de relevante funktioner er output fra estimationen af den lineære regressionsmodel, kaldet lmUD i foregående afsnit, samt et datasæt med de nye værdier af den forklarende variabel hvori vi ønsker at foretage beregningen. De nye værdier skal stå som en søjle i datasættet og navnet på søjlen skal være det samme som navnet på den forklarende variabel i det oprindelige datasæt til estimationen af modellen.

Nedenfor vises konstruktionen af det ny datasæt, hvor navnet på den forklarende variabel er $t$ , og konstruktionen af et konfidensinterval for linjens værdi eller et prædiktionsinterval for en kommende observation, idet resultatet fra estimationen af regressionsmodellen ligger i lmUD.

$\begin{array}{l} \text{nyData=pd.DataFrame(}\{\text{'t':[nye værdier]}\}\text{)} \\ \text{predUD=lmUD.get\textunderscore prediction(nyData)}\\ \text{print(predUD.predicted\textunderscore mean)}\\ \text{print(predUD.conf\textunderscore int(obs=True))}\\ \text{print(predUD.conf\textunderscore int(obs=False))} \end{array}$ Hvis der er $k$ nye værdier i nyData giver python med predicted $\text{\textunderscore}$ mean en vektor af længde $k$ med skøn over linjens værdi, conf $\text{\textunderscore}$ int(obs=False) giver en $k\times 2$ matrix med konfidensintervaller for linjens værdi, og conf $\text{\textunderscore}$ int(obs=True) giver en $k\times 2$ matrix med prædiktionsintervaller for en kommende observation.

Eksempel 7.5.1. (Forurening i vandprøver)

I Eksempel 7.1.1, omkring GLUase aktivitetens afhængighed af mængden af E.coli bakterier, kan vi være interesseret i at kunne skelne mellem badevand af udmærket kvalitet, god kvalitet eller ringe kvalitet, svarende til at mængden af E.coli bakterier er 250, 500 eller 1000 (cfu per 100 ml).

I det følgende kodevindue beregnes konfidensinterval for linjens værdi i disse punkter, det vil sige konfidensinterval for middelværdien af logaritmen til GLUase aktiviteten for de tre niveuaer af E.coli bakterier.

7.5.2 Lave prædiktioner i python

Se opstartskoden (til/fra)

Test dig selv

Hvorfor er konfidensintervallet i tilfældet med 250 bakterier noget smallere end intervallet i tilfældet med 1000 bakterier ?
Lav prædiktionsintervaller i stedet for konfidensintervaller. Hvorfor er disse intervaller meget bredere end konfidensintervallerne ?
Hvis du har fået en ny måling af GLUase aktiviteten, hvor $\log$ -værdien er 1.05, vil du så mene, det tyder på et E.coli bakterietal på 250 eller på $500$ ? Kunne det tænkes, at bakterietallet er $1000$ ?

Svar: Prædiktionsinterval

Med 250 bakterier ligger man ind mod midten af dataområdet i forhold til 1000 bakterier, hvor man ligger i yderkanten af dataområdet. Formelmæssigt ses denne forskel gennem bidraget $(t_*-\bar t)^2/\mathit{SSD}_t$ til standard error for skønnet over linjens værdi.
Skifter blot False ud med True for at få lavet prædiktionsintervallerne. Intuitivt skal prædiktionsintervaller "stikke" 1 til 2 gange spredningen længere ud end konfidensintervallerne, og da $s_r$ er forholdsvis stor, bliver prædiktionsintervallerne væsentligt bredere end konfidensintervallerne.
Værdien 1.05 ligger både i prædiktionsintervallet for tilfældet 250 og i prædiktionsintervallet for tilfældet 500, og i begge tilfælde lige langt fra en af grænserne i intervallet. Begge de to muligheder er derfor lige gode. Dog ligger 1.05 langt uden for prædiktionsintervallet i tilfældet med 1000 bakterier, hvorfor det ikke virker troligt med så højt et bakterieantal.

I det følgende kodevindue beregnes konfidensintervallet for linjens værdi i mange punkter og indtegnes som en kurve i figur med data.

Se opstartskoden (til/fra)

Prøv at ændre "False" til "True" i ovenstående kørsel.

7.5.1 Kalibrering (invers regression)

For den lineære sammenhæng givet ved $E(X)=\alpha+\beta t$ tænker man for det meste på relationen på den måde at $t$ måles og dette giver os information om $E(X)$ . I nogle situationer er vi imidlertid interesseret i at gå den modsatte vej, altså fra $E(X)$ til $t.$ Et eksempel på dette er efter et trafikuheld, hvor politiet måler længden af et bremsespor for at regne tilbage til hastigheden. Vi benytter således relationen $t=(E(X)-\alpha)/\beta.$ Brugen af regressionsmodellen på denne måde kendes også fra kemi. I kemi bruges lineære sammenhænge ofte til at lave et "måleapperat", hvor værdien af den forklarende variabel bestemmes ud fra respons (omtales ofte som "invers regression"). Når den lineære regressionsmodel etableres ud fra data, taler man om at kalibrere målemetoden. For eksempel kan man have lavet en række prøver med en kendt koncentration af et stof og målt intensiteten af lys efter passage af prøven. Typisk vil der være en lineær sammenhæng mellem logaritmen til lysintensiteten og koncentrationen. Efterfølgende kan man for en prøve med en ukendt koncentration måle lysintensiteten og lave skøn over koncentrationen ud fra den etablerede lineære sammenhæng.

I vores eksempel i dette afsnit med forurenede vandprøver ønsker vi, efter at sammenhængen mellem GLUase og antal bakterier er etableret, at bruge sammenhængen til ud fra en måling af GLUase at sige, hvad antallet af bakterier er.

Dette kan formuleres generelt på følgende vis. Ud fra de indsamlede data har vi estimeret parametrene i modellen $X_i\sim N(\alpha+\beta t_i,\sigma^2),$ $i=1,\ldots,n.$ For en ny værdi $\theta$ af den forklarende variabel $t$ betragtes $m$ målinger $Y_1,\ldots,Y_m$ fra modellen $Y_i\sim N(\alpha+\beta\theta,\sigma^2).$ Vi ønsker at lave inferens om $\theta$ baseret på både $X_1,\ldots,X_n$ og på $Y_1,\ldots,Y_m.$ Fra relationen $E(\bar Y)=\alpha+\beta\theta$ har vi $\theta=(E(\bar Y)-\alpha)/\beta,$ og som skøn over $\theta$ bruger vi derfor $\hat\theta=(\bar Y-\hat\alpha)/\hat\beta.$

Ved beregninger af samme type som i forbindelse med Resultat 7.3.1 kan man indse, at

$t(\theta)= \frac{\bar Y -\big(\hat\alpha+\hat\beta\theta\big)}{ s_r\sqrt{ \frac{1}{m}+\frac{1}{n}+ \frac{\big(\theta-\bar t\big)^2}{\mathit{SSD}_{t}} }} \sim t(n-2),$ hvor $\bar Y=(Y_1+\cdots+Y_m)/m.$ Man kan derfor konstruere et 95%-konfidensinterval for $\theta$ som de værdier af $\theta,$ for hvilke

$-t_0\leq t(\theta)\leq t_0,\quad t_0=t_{\text{inv}}(0.975,n-2).$ For at finde de relevante værdier af $\theta$ skal man løse en andengradsligning. Beregningerne er vist i kodevinduet nedenfor for data omkring forurening af vandprøver fra Eksempel 7.1.1. Der laves et konfidensinterval for $\log$ -værdien af antallet af E.coli bakterier i tilfældet, hvor $\log$ -værdien af GLUase aktiviteten er målt til 1.05. Beregningerne laves på den måde, at der først defineres en funktion inversReg, hvorefter denne funktion kaldes. Funktionen inversReg findes i filen pytFunktioner.py omtalt under punktet Egne funktioner i python i afsnit 1.6. Input til fuktionen inversReg er output fra analysen af regressionsmodellen med ols-funktionen samt en liste med de målte værdier af $Y_1,\ldots,Y_m.$

7.5.3 Invers regresion i python

Se opstartskoden (til/fra)

Kør koden og kommenter på resultatet (omregn eventuelt konfidensintervallet for tColi til et konfidensinterval på oprindelige skala ved at tage eksponentialfunktionen på endepunkterne). Prøv at ændre [1.05] i kaldet til [1.05,1.05,1.05,1.05]. Dette svarer til, at man har gentaget målingen af GLUase 4 gange (og tilfældigvis har målt den samme værdi alle fire gange). Kommenter også på dette resultat.

Svar: Kalibrering

Kørsel af program viser, at antallet af E.coli bakterier ikke er særlig godt bestemt ud fra en enkelt måling af GLUases aktiviteten og ved brug af de data, vi har til rådighed. Konfidensintervallet på log-skala er fra 5.09 til 6.55 og det tilsvarende interval på ikke-log skala er fra 162 til 701.

Hvis vi har fire gentagne målinger af GLUase aktiviteten for den samme værdi af antallet af E.coli bakterier, får vi cirka halveret længden af konfidensintervallet på en log-skala.

Den overordnede konklusion er, at godt nok er der en lineær sammenhæng mellem GLUase aktiviteten og antallet af E.coli bakterier, men der er behov for forbedring af målemetoderne for at kunne bruge relationen i praksis til at vurdere antallet af bakterier ud fra GLUases aktiviteten.

Foregående Næste