Afsnit 7.6: Regression med kendt skæring

Hubbles lov siger, at den hastighed, hvormed galakser bevæger sig væk fra hinanden, er proportional med afstanden mellem galakserne. Formuleringen af loven af Edwin Hubble i 1929 er baseret på data indsamlet over en 10-års periode og vist i kodevinduet nedenfor. Loven danner baggrund for teorien om det ekspanderende univers.

Data består af værdierne

(\text{afstand},\text{hast})

for 24 galakser (afstand måles i megaparsecs og hastighed i kilometer per sekund). Som statistisk model bruger vi (Statistisk Model 7.1.2)

\text{Hast}_i\sim N(\alpha+\beta\cdot\text{afstand}_i,\sigma^2), \enspace i=1,\ldots,24,\enspace (\alpha,\beta,\sigma)\in \mathbf{R}^2\times\mathbf{R}_+.

I kodevinduet analyseres denne model.

Analyse og figur

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols
​
# funktionen summaryLM defineres
def summaryLM(lmUD):
  pd.options.display.float_format = '{:,.4f}'.format
  print('Estimated Coefficients:')
  print(lmUD.summary2().tables[1])
  print(' ')
  print('Number of observations:','{:.0f}'.format(lmUD.nobs),
  ' Error degrees of freedom:','{:.0f}'.format(lmUD.df_resid))
  print('Root Mean Squared Error:',format(np.sqrt(lmUD.mse_resid),'.4g'))
  print('R-squared:',format(lmUD.rsquared,'.3g'),' Adjusted R-Squared:',
  format(lmUD.rsquared_adj,'.3g'))
  print('F-statistic vs. constant model:',format(lmUD.fvalue,'.1f'),
  ' p-value =',format(lmUD.f_pvalue,'.3g'))
​
def refline(haeldning,skaering,linestyle='-',color='b',ax=plt):
    if (ax==plt):
      axx=plt.gca()
    else:
      axx=ax
    x_endePkt=axx.get_xlim()
    x_midt=(x_endePkt[1]+x_endePkt[0])/2
    y_midt=skaering+haeldning*x_midt
    axx.axline([x_midt,y_midt],slope=haeldning,linestyle=linestyle,color=color)
​
​
# data indskrives
afstand0=np.array([0.032,0.034,0.214,0.263,0.275,0.275,0.450,
0.500,0.500,0.630,0.800,0.900,0.900,0.900,0.900,1.000,1.100,
1.100,1.400,1.700,2.000,2.000,2.000,2.000])
hast0=np.array([170,290,-130,-70,-185,-220,200,290,270,200,300,
-30,650,150,500,920,450,500,500,960,500,850,800,1090])
print("Opstart er gennemført: afstand0 og hast0 er indskrevet")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# datatabel dannes 
# (hvis data indlæses med read_csv har man allerede en datatabel)
dataHubble=pd.DataFrame({'afstand':afstand0,'hast':hast0})
​
# model analyseres
lmUD=ols(data=dataHubble,formula='hast~afstand').fit()
​
# figur med regressionslije indtegnet
plt.plot(dataHubble.afstand,dataHubble.hast,'o')
plt.xlabel('Afstand'); plt.ylabel('Hastighed')
par=lmUD.params
refline(par[1],par[0])
plt.show()
summaryLM(lmUD)

Når du kører ovenstående kode, vil du se, at

p

-værdien for et test af hypotesen

\alpha=0

er 0.630. Data strider altså ikke mod denne hypotese, som netop siger, at der er proportionalitet mellem afstand og (middelværdi af) hastighed.

Fra output ses også, at et 95%-konfidensinterval for hældningen

\beta

[298.1,\,610.2].

Intervallet er meget bredt, hvilket afspejler, at der er stor variation i data omkring den lineære sammenhæng.

Modellen, der udtrykker proportionalitet, kan udtrykkes generelt som

X_i\sim N(\beta t_i,\sigma^2),\enspace i=1,\ldots,n,\enspace (\beta,\sigma^2)\in \mathbf{R}\times\mathbf{R}_+. \tag{7.6.1}

Analysen af denne model i python foretages som før med funktionen ols. For at fortælle at skæringen er nul, skal man tilføje "-1" i modelformlen, således at denne bliver 'x $\sim$ t-1'. For Hubbles data er dette vist i det kommende kodevindue, hvor den røde linje i figuren er den estimerede linje i tilfældet med

\alpha=0

7.6.1 Analyse af regressionsmodel med kendt skæring

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols
​
# funktionen summaryLM defineres
def summaryLM(lmUD):
  pd.options.display.float_format = '{:,.4f}'.format
  print('Estimated Coefficients:')
  print(lmUD.summary2().tables[1])
  print(' ')
  print('Number of observations:','{:.0f}'.format(lmUD.nobs),
  ' Error degrees of freedom:','{:.0f}'.format(lmUD.df_resid))
  print('Root Mean Squared Error:',format(np.sqrt(lmUD.mse_resid),'.4g'))
  print('R-squared:',format(lmUD.rsquared,'.3g'),' Adjusted R-Squared:',
  format(lmUD.rsquared_adj,'.3g'))
  print('F-statistic vs. constant model:',format(lmUD.fvalue,'.1f'),
  ' p-value =',format(lmUD.f_pvalue,'.3g'))
​
def refline(haeldning,skaering,linestyle='-',color='b',ax=plt):
    if (ax==plt):
      axx=plt.gca()
    else:
      axx=ax
    x_endePkt=axx.get_xlim()
    x_midt=(x_endePkt[1]+x_endePkt[0])/2
    y_midt=skaering+haeldning*x_midt
    axx.axline([x_midt,y_midt],slope=haeldning,linestyle=linestyle,color=color)
​
# data indskrives
afstand0=np.array([0.032,0.034,0.214,0.263,0.275,0.275,0.450,\
0.500,0.500,0.630,0.800,0.900,0.900,0.900,0.900,1.000,1.100,\
1.100,1.400,1.700,2.000,2.000,2.000,2.000])
hast0=np.array([170,290,-130,-70,-185,-220,200,290,270,200,300,\
-30,650,150,500,920,450,500,500,960,500,850,800,1090])
print("Opstart er gennemført: afstand0 og hast0 er indskrevet")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# datatabel dannes 
# (hvis data indlæses med read_csv har man allerede en datatabel)
dataHubble=pd.DataFrame({'afstand':afstand0,'hast':hast0})
​
# model analyseres
lmUD=ols(data=dataHubble,formula='hast~afstand').fit()
lmUD1=ols(data=dataHubble,formula='hast~afstand-1').fit()
summaryLM(lmUD1)
​
# figur med to linjer
plt.plot(dataHubble.afstand,dataHubble.hast,'o')
plt.xlabel('Afstand'); plt.ylabel('Hastighed')
par=lmUD.params
refline(par[1],par[0])
par1=lmUD1.params
refline(par1[0],0,color='r')
plt.show()

I regressionsmodellen, hvor vi har antaget proportionalitet, altså at skæringen er nul,

\alpha=0,

viser output, at konfidensintervallet for hældningen

\beta

[336.7,\,511.1].

Vi kan se, at konfidensintervallet bliver noget smallere sammenlignet med konfidensintervallet fra modellen, hvor

\alpha

er en ukendt parameter. Dette er et generelt fænomen: hvis man kan reducere en model ved at sætte nogle parametre til nul, vil de resterende parametre blive bedre bestemt. En del af den statistiske analyse går netop ud på at reducere en model for både at få en mere simpel model og for at få de resterende parametre bedre bestemt.

Intervallet for hældningen (= proportionalitetskonstanten = Hubbles konstant) er stadig stort og, som det har vist sig, fejlvisende. Den anerkendte værdi i dag ligger omkring 70. Et af problemerne med Hubbles data er, at strukturen af nogle af de stjerner, der blev brugt, blev fejltolket på daværende tidspunkt.

Ovenfor har vi betragtet delmodellen af modellen

X_i\sim N(\alpha+\beta t_i,\sigma^2),

hvor

\alpha

er kendt og lig med nul. Mere generelt kan vi se på situationen, hvor

\alpha

er kendt og lig med

\alpha_0.

Denne model kan analyseres ved at betragte

\tilde X_i=X_i-\alpha_0

og benytte resultaterne for situationen med

\alpha=0.

7.6.1 Fordelingsresultater

I modellen

X_i\sim N(\beta t_i,\sigma^2)

\hat\beta=\frac{\sum_iX_it_i}{\sum_i t_i^2}\sim N\Big(\beta,\sigma^2/\sum_i t_i^2\Big),

og skønnet over variansen

\sigma^2

s^2_{r0}=\frac{1}{n-1}\sum_i\big(X_i-\hat\beta t_i\big)^2\sim \sigma^2\chi^2(n-1)/(n-1).

Ud fra disse resultater kan vi lave en

t

-teststørrelse for test af værdien af hældningen

\beta

og lave et 95%-konfidensinterval. Det sidstnævnte er på formen

\hat\beta\pm t_0 \frac{s_{r0}}{\sqrt{\sum_i t_i^2}},\quad t_0=t_{\text{inv}}(0.975,n-1).

Foregående Næste