Afsnit 7.6: Regression med kendt skæring

Hubbles lov siger, at den hastighed, hvormed galakser bevæger sig væk fra hinanden, er proportional med afstanden mellem galakserne. Formuleringen af loven af Edwin Hubble i 1929 er baseret på data indsamlet over en 10-års periode og vist i kodevinduet nedenfor. Loven danner baggrund for teorien om det ekspanderende univers.
Data består af værdierne (afstand,hast)(\text{afstand},\text{hast}) for 24 galakser (afstand måles i megaparsecs og hastighed i kilometer per sekund). Som statistisk model bruger vi (Statistisk Model 7.1.2)
HastiN(α+βafstandi,σ2),i=1,,24,(α,β,σ)R2×R+. \text{Hast}_i\sim N(\alpha+\beta\cdot\text{afstand}_i,\sigma^2), \enspace i=1,\ldots,24,\enspace (\alpha,\beta,\sigma)\in \mathbf{R}^2\times\mathbf{R}_+.
I kodevinduet analyseres denne model.

Analyse og figur

Se opstartskoden (til/fra)

Når du kører ovenstående kode, vil du se, at pp-værdien for et test af hypotesen α=0\alpha=0 er 0.630. Data strider altså ikke mod denne hypotese, som netop siger, at der er proportionalitet mellem afstand og (middelværdi af) hastighed.
Fra output ses også, at et 95%-konfidensinterval for hældningen β\beta er [298.1,610.2].[298.1,\,610.2]. Intervallet er meget bredt, hvilket afspejler, at der er stor variation i data omkring den lineære sammenhæng.
Modellen, der udtrykker proportionalitet, kan udtrykkes generelt som
XiN(βti,σ2),i=1,,n,(β,σ2)R×R+.(7.6.1) X_i\sim N(\beta t_i,\sigma^2),\enspace i=1,\ldots,n,\enspace (\beta,\sigma^2)\in \mathbf{R}\times\mathbf{R}_+. \tag{7.6.1}
Analysen af denne model i python foretages som før med funktionen ols. For at fortælle at skæringen er nul, skal man tilføje "-1" i modelformlen, således at denne bliver 'x\simt-1'. For Hubbles data er dette vist i det kommende kodevindue, hvor den røde linje i figuren er den estimerede linje i tilfældet med α=0\alpha=0.

7.6.1 Analyse af regressionsmodel med kendt skæring

Se opstartskoden (til/fra)

I regressionsmodellen, hvor vi har antaget proportionalitet, altså at skæringen er nul, α=0,\alpha=0, viser output, at konfidensintervallet for hældningen β\beta er [336.7,511.1].[336.7,\,511.1]. Vi kan se, at konfidensintervallet bliver noget smallere sammenlignet med konfidensintervallet fra modellen, hvor α\alpha er en ukendt parameter. Dette er et generelt fænomen: hvis man kan reducere en model ved at sætte nogle parametre til nul, vil de resterende parametre blive bedre bestemt. En del af den statistiske analyse går netop ud på at reducere en model for både at få en mere simpel model og for at få de resterende parametre bedre bestemt.
Intervallet for hældningen (= proportionalitetskonstanten = Hubbles konstant) er stadig stort og, som det har vist sig, fejlvisende. Den anerkendte værdi i dag ligger omkring 70. Et af problemerne med Hubbles data er, at strukturen af nogle af de stjerner, der blev brugt, blev fejltolket på daværende tidspunkt.
Ovenfor har vi betragtet delmodellen af modellen XiN(α+βti,σ2),X_i\sim N(\alpha+\beta t_i,\sigma^2), hvor α\alpha er kendt og lig med nul. Mere generelt kan vi se på situationen, hvor α\alpha er kendt og lig med α0.\alpha_0. Denne model kan analyseres ved at betragte X~i=Xiα0\tilde X_i=X_i-\alpha_0 og benytte resultaterne for situationen med α=0.\alpha=0.

7.6.1 Fordelingsresultater

I modellen XiN(βti,σ2)X_i\sim N(\beta t_i,\sigma^2) er
β^=iXitiiti2N(β,σ2/iti2), \hat\beta=\frac{\sum_iX_it_i}{\sum_i t_i^2}\sim N\Big(\beta,\sigma^2/\sum_i t_i^2\Big),
og skønnet over variansen σ2\sigma^2 er
sr02=1n1i(Xiβ^ti)2σ2χ2(n1)/(n1). s^2_{r0}=\frac{1}{n-1}\sum_i\big(X_i-\hat\beta t_i\big)^2\sim \sigma^2\chi^2(n-1)/(n-1).
Ud fra disse resultater kan vi lave en tt-teststørrelse for test af værdien af hældningen β\beta og lave et 95%-konfidensinterval. Det sidstnævnte er på formen
β^±t0sr0iti2,t0=tinv(0.975,n1). \hat\beta\pm t_0 \frac{s_{r0}}{\sqrt{\sum_i t_i^2}},\quad t_0=t_{\text{inv}}(0.975,n-1).
ForegåendeNæste