Afsnit 9.2: Eksempel: Opløsningsmidler

I det følgende kodevindue analyseres datasættet med opløsningsmidler omtalt i indledningen til dette kapitel. Lad ess være opløsningsevnen,

A

være Lewis acidity, og lad

B

være Lewis basicity. Vi vil undersøge en model, hvor middelværdien af ESS beskrives ved et generelt andengradspolynomium i A og B. Vi indfører derfor yderligere tre forklarende variable

\text{AA=A}^2,\quad \text{BB=B}^2,\quad \text{AB=A}\cdot\text{B}\quad

Modellen, der analyseres, er Statistisk Model 9.1.1, her formuleret som

\text{ESS}_i\sim N\big(\alpha+\beta_A\cdot\text{A}_i+ \beta_B\cdot\text{B}_i+ \beta_{\mathit{AA}}\cdot\text{AA}_i+ \beta_{\mathit{BB}}\cdot\text{BB}_i+ \beta_{\mathit{AB}}\cdot\text{AB}_i, \sigma^2),\enspace i=1,\ldots,31,

hvor

(\alpha,\beta_A,\beta_B,\beta_{\mathit{AA}},\beta_{\mathit{BB}}, \beta_{\mathit{AB}},\sigma)

kan variere frit. Kør koden i det følgende skjulte punkt.

9.2.1 Backward selektion

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
import matplotlib.pyplot as plt
from statsmodels.graphics.gofplots import qqplot
​
# funktionen summaryLM defineres
def summaryLM(lmUD:"ols_output"):
  # lave summary af estimeret model i ols-output
  pd.options.display.float_format = '{:,.4f}'.format
  print('Estimated Coefficients:')
  print(lmUD.summary2().tables[1])
  print(' ')
  print('Number of observations:','{:.0f}'.format(lmUD.nobs),
  ' Error degrees of freedom:','{:.0f}'.format(lmUD.df_resid))
  print('Root Mean Squared Error:',format(np.sqrt(lmUD.mse_resid),'.4g'))
  print('R-squared:',format(lmUD.rsquared,'.3g'),' Adjusted R-Squared:',
  format(lmUD.rsquared_adj,'.3g'))
  print('F-statistic vs. constant model:',format(lmUD.fvalue,'.1f'),
  ' p-value =',format(lmUD.f_pvalue,'.3g'))
​
# data indskrives
ess0=np.array([0.04,0.18,0.26,0.28,0.29,0.30,0.32,0.37,0.38,0.40,
0.42,0.43,0.44,0.51,0.56,0.56,0.57,0.58,0.60,0.63,0.64,0.65,0.71,
0.75,0.82,0.88,0.95,1.11])
A0=np.array([0.01,0.05,0.07,0.10,0.09,0.21,0.11,0.21,0.12,0.26,
0.32,0.26,0.34,0.32,0.35,0.16,0.20,0.22,0.28,0.34,0.48,0.47,
0.29,0.44,0.61,0.65,0.76,0.71])
B0=np.array([0.00,0.00,0.20,0.41,0.03,0.00,0.09,0.23,0.41,0.00,0.00,
0.57,0.23,0.41,0.37,0.32,0.47,0.45,0.45,0.77,0.38,0.23,0.67,0.54,
0.37,0.77,0.71,0.61])
​
# datatabel dannes 
# (hvis data indlæses med read_csv har man allerede en datatabel)
dataoploes=pd.DataFrame({'ess':ess0,'A':A0,'B':B0,'AA':A0*A0,'BB':B0*B0,'AB':A0*B0})
​
print("Opstart gennemført: ess, A, B, AA, BB og AB er indskrevet i tabel dataoploes")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt. Data er i datatabellen dataoploes
​
# multipel regressionsmodel analyseres
lmUD=ols(data=dataoploes,formula='ess~A+B+AA+BB+AB').fit()
summaryLM(lmUD)

Fra parametertabellen ses det, at

t

-test for

\beta_{\mathit{AA}}=0

giver en

p

-værdi på 0.8864, og dette er den største

p

-værdi blandt de fem regressionsparametre. Da denne

p

-værdi er langt over 0.05 fjerner vi leddet AA fra modellen. Kør det ovenstående program igen med AA fjernet fra modelformlen. Konstater, at AB kan fjernes, og dernæst at BB kan fjernes. I slutmodellen med multipel regression på A og B er

p

-værdierne for test af de tilhørende regressionskoefficienter meget små, og modellen kan ikke reduceres yderligere. De estimerede regressionskoefficienter i slutmodellen er henholdsvis 0.86 og 0.33. Hvis man laver et

F

-test for reduktion fra den fulde model til slutmodellem ved hjælp af kommandoen anova $\text{\textunderscore}$ lm(lmUD2,lmUD1), hvor lmUD1 og lmUD2 er output fra estimationen af henholdsvis startmodel og slutmodel, får man en

p

-værdi på 0.67 (se afsnit 8.7 for beskrivelse af anova $\text{\textunderscore}$ lm).

I slutmodellen aflæses et 95%-konfidensinterval for regressionskoefficienten

\beta_B

til

[0.17,\,0.49],

hvorimod det tilsvarende konfidensinterval i den fulde model med alle fem regressionsvariable (kør eventuelt koden igen) er

[0.11,\,1.01].

Ved at reducere modellen til kun at indeholde to regressionsvariable får vi altså et konfidensinterval, hvor længden er blevet reduceret til næsten kun en tredjedel. Dette er et vigtigt motivationspunkt for, at vi i en statistisk analyse prøver at reducere en kompliceret model til en mere simpel mode. Med færre parametre er det også nemmere at tolke på betydningen af de forskellige parametre.

I indledningen til dette kapitel stillede vi spørgsmålet, om beskrivelsen af opløsningsevnen som en regression af ess på

A

kunne forbedres ved at inkludere

B

. Vi har ovenfor set, at i den multiple regression med både

A

B

er begge led nødvendige i modellen, og hvis vi ser på skøn over spredning, har vi værdien 0.103 for regression på

A

og værdien 0.080 for regression på både

A

B

. Vi reducerer således spredningen omkring modellen med cirka 20 procent ved at inkludere

B

i modellen. Det nedre højre delplot i figuren, der laves i det skjulte punkt Modelkontrol nedenfor, viser de observerede værdier afsat mod de forventede værdier i slutmodellen.

Forfatterne til artiklen, hvor data stammer fra, ønsker at indføre en simplificeret beskrivelse via en "ionizing power parameter" og foreslår parameteren

A+B

. Der laves ikke et test for reduktion fra modellen

\beta_A\cdot A_i+\beta_B\cdot B_i

til modellen

\beta\cdot(A+B)_i,

og et sådant test giver en

p

-værdi langt under 0.05, og skønnet over spredningen bliver 0.096. Overvej eventuelt, hvordan du vil lave et sådant test.

Svar: Ionizing parameter

Ved at definere en ny parameter IP=A+B kan man lave multipel regression på

A

og IP, og se på

p

-værdien for test af

\beta_A=0.

Det næste kodevindue laver plots af residualer mod henholdsvis acidity og basicity, og et normalt qqplot.

9.2.2 Modelkontrol

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
import matplotlib.pyplot as plt
from statsmodels.graphics.gofplots import qqplot
​
def refline(haeldning:"float",skaering:"float",
   linestyle:"linestyle"='-',color:"color"='b',
   ax:"plotwindow(default_plt)"=plt):
   # indtegne linje i figur
   if (ax==plt):
     axx=plt.gca()
   else:
     axx=ax
   x_endePkt=axx.get_xlim()
   x_midt=(x_endePkt[1]+x_endePkt[0])/2
   y_midt=skaering+haeldning*x_midt
   axx.axline([x_midt,y_midt],slope=haeldning,linestyle=linestyle,color=color)
​
# data indskrives
ess0=np.array([0.04,0.18,0.26,0.28,0.29,0.30,0.32,0.37,0.38,0.40,
0.42,0.43,0.44,0.51,0.56,0.56,0.57,0.58,0.60,0.63,0.64,0.65,0.71,
0.75,0.82,0.88,0.95,1.11])
A0=np.array([0.01,0.05,0.07,0.10,0.09,0.21,0.11,0.21,0.12,0.26,
0.32,0.26,0.34,0.32,0.35,0.16,0.20,0.22,0.28,0.34,0.48,0.47,
0.29,0.44,0.61,0.65,0.76,0.71])
B0=np.array([0.00,0.00,0.20,0.41,0.03,0.00,0.09,0.23,0.41,0.00,0.00,
0.57,0.23,0.41,0.37,0.32,0.47,0.45,0.45,0.77,0.38,0.23,0.67,0.54,
0.37,0.77,0.71,0.61])
​
# datatabel dannes 
# (hvis data indlæses med read_csv har man allerede en datatabel)
dataoploes=pd.DataFrame({'ess':ess0,'A':A0,'B':B0,'AA':A0*A0,'BB':B0*B0,'AB':A0*B0})
​
print("Opstart gennemført: ess, A, B, AA, BB og AB er indskrevet i tabel dataoploes")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt. Data er i datatabellen dataoploes
​
# model analyseres
lmUD=ols(data=dataoploes,formula='ess~A+B').fit()
​
# residualer dannes og fire figurer dannes
r=lmUD.resid
​
ax1 = plt.subplot(2, 2, 1)
ax2 = plt.subplot(2, 2, 2)
ax3 = plt.subplot(2, 2, 3)
ax4 = plt.subplot(2, 2, 4)
​
# residualplots
ax1.plot(dataoploes.A,r,'o')
ax1.set_xlabel('Acidity')
ax1.set_ylabel('Residualer')
ax1.axhline(0)
ax2.plot(dataoploes.B,r,'o')
ax2.set_xlabel('Basicity')
ax2.set_ylabel('Residualer')
ax2.axhline(0)
​
# qqplot af residualer
qqplot(r,line='q',ax=ax3)
ax3.set_title('Residualer')
​
# målte mod forventede værdier
ax4.plot(dataoploes.ess-r,dataoploes.ess,'o')
ax4.set_xlabel('Forventede')
ax4.set_ylabel('ESS')
refline(1,0,ax=ax4)
plt.tight_layout()
plt.show()

Alle fire figurer understøtter den multiple regressionsmodel for disse data.

Lad os afslutte dette eksempel med at lave prædiktion af opløsningsevne for to nye opløsningsmidler med værdierne

\begin{array}{lcc} \\ \hline & \text{Acidity} & \text{Basicity} \\ \hline \text{Opløsningsmiddel 1} & 0.3 & 0.4 \\ \text{Opløsningsmiddel 2} & 0.7 & 0.6 \\ \hline \end{array}

Det følgende kodevindue laver konfidensintervaller for middelværdien af opløsningsevnen for de to opløsningsmidler.

9.2.3 Konfidensinterval og prædiktionsinterval

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
import matplotlib.pyplot as plt
from statsmodels.graphics.gofplots import qqplot
​
# data indskrives
ess0=np.array([0.04,0.18,0.26,0.28,0.29,0.30,0.32,0.37,0.38,0.40,
0.42,0.43,0.44,0.51,0.56,0.56,0.57,0.58,0.60,0.63,0.64,0.65,0.71,
0.75,0.82,0.88,0.95,1.11])
A0=np.array([0.01,0.05,0.07,0.10,0.09,0.21,0.11,0.21,0.12,0.26,
0.32,0.26,0.34,0.32,0.35,0.16,0.20,0.22,0.28,0.34,0.48,0.47,
0.29,0.44,0.61,0.65,0.76,0.71])
B0=np.array([0.00,0.00,0.20,0.41,0.03,0.00,0.09,0.23,0.41,0.00,0.00,
0.57,0.23,0.41,0.37,0.32,0.47,0.45,0.45,0.77,0.38,0.23,0.67,0.54,
0.37,0.77,0.71,0.61])
​
# datatabel dannes 
# (hvis data indlæses med read_csv har man allerede en datatabel)
dataoploes=pd.DataFrame({'ess':ess0,'A':A0,'B':B0,'AA':A0*A0,'BB':B0*B0,'AB':A0*B0})
​
print("Opstart gennemført: ess, A, B, AA, BB og AB er indskrevet i tabel dataoploes")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt. Data er i datatabellen dataoploes
​
# model analyseres
lmUD=ols(data=dataoploes,formula='ess~A+B').fit()
​
# konfidensinterval for middelværdi beregnes og udskrives
nyData=pd.DataFrame({'A':np.array([0.3,0.7]),'B':np.array([0.4,0.6])})
predUD=lmUD.get_prediction(nyData)
​
print(pd.DataFrame({'Skøn':predUD.predicted_mean,
'Lower':predUD.conf_int(obs=False)[:,0],
'Upper':predUD.conf_int(obs=False)[:,1]}))

Kør koden. Kan du forklare, hvorfor det andet konfidensinterval er bredere end det første ? Ændr koden, så der beregnes prædiktionsintervaller i stedet.

Svar: Opløsningsmidler

Det første af de to nye opløsningsmidler ligger midt i området for data, hvor middelværdien er velbestemt, hvorimod det andet opløsningsmiddel ligger i udkanten af dataområdet.

For at lave et prædiktionsinterval skal man erstatte "False" med "True" i koden.

Foregående Næste