Afsnit 7.4: Analyse af model i python

Regressionsmodellen $X_i\sim N(\alpha+\beta t_i,\sigma^2),$ $i=1,\ldots,n,$ analyseres med funktionen ols i python, hvor ols står for ordinary least squares. Input til de funktionen består af en datatabel og en modelformel. I regressionsmodellen her, hvor vektoren med responsværdierne hedder $x$ og vektoren med værdierne af den forklarende variabel hedder $t,$ er modelformlen blot "x $\sim$ t". Generelt skal der på venstresiden af tildesymbolet i en modelformel stå navnet på responsvariablen og på højre side skal strukturen af middelværdien angives. For den lineære regressionsmodel angives middelværdien $E(X)=\alpha+\beta t$ ved blot at skrive navnet på regressionsvariablen.

Funktionen ols laver ikke automatisk et passende output. For at få dette har jeg lavet en funktion summaryLM, der danner et output identisk med output fra andre statistikprogrampakker. Idet data ligger i en datatabel, der indeholder en søjle med navnet $x$ og en søjle med navnet $t,$ laves analysen af regressionsmodellen med følgende kommandoer

$\begin{array}{l} \text{from statsmodels.formula.api import ols} \\ \text{from pytFunktioner import *} \\ \text{lmUD=ols(data=mydata,formula='x}\sim\text{t').fit()} \\ \text{summaryLM(lmUD)} \end{array}$ De variabelnavne, der optræder i modelformlen, skal være navne på søjler i mydata. Ofte vil indlæsningen af data give en datatabel, der allerede indeholder de relevante variable. I modsat fald, hvis responsværdierne ligger i en vektor xvek, og værdierne af den forklarende variabel ligger i en vektor tvek, konstrueres datatabellen som følger:

$\begin{array}{l} \text{import pandas as pd} \\ \text{mydata=pd.DataFrame(}\{\text{'x':xvek,'t':tvek}\}\text{)} \end{array}$ Her, og i modelformlen, er brugt navnene $x$ og $t$ , men i anvendelser vil man typisk bruge mere beskrivende navne.

Den vigtigste del af output er en parametertabel (Estimated Coefficients), hvor hver række svarer til en parameter i middelværdimodellen, i den lineære regressionsmodel er dette skæring $\alpha$ og hældning $\beta$ , navngivet som Intercept og med navnet på den forklarende variabel, i kaldet ovenfor $t.$ Tabellen har søjler med parameterskøn, standard error, $t\text{-}$ teststørrelse og en $p$ -værdi. Søjleoverskrifterne er som følger:

$\begin{array}{rrrrrr} \text{Coef.} & \text{Std.Err.} & \text{t} & \text{P>|t|} [0.025 & 0.975] \end{array}$ Søjlen med standard error angiver et skøn over spredningen på parameterskønnet jævnfør formlerne for $\text{std}_s$ i Resultat 7.3.1. For at teste hypotesen, at den sande parameterværdi er nul, laves en $t$ -teststørrelse, som netop er parameterskøn divideret med standard error. Endelig er søjlen med $p$ -værdier fremkommet ved at slå op i en $t$ -fordeling med det relevante antal frihedsgrader. Antallet af frihedsgrader, såvel som skønnet $s_r$ over spredningen af punkterne omkring linjen, kan aflæses i teksten under parametertabellen:

$\begin{array}{rl} \mathit{Error\,\,degrees\,\,of\,\,freedom}:&\text{angiver frihedsgrader,} \\ \mathit{Root\,\,Mean\,\,Squared\,\,Error}:&\text{angiver spredningsskøn.} \end{array}$

Desuden har output fra summaryLM to yderligere søjler med nedre og øvre endepunkter i 95%-konfidensintervallet for de forskellige parametre i middelværdistrukturen.

Ved hjælp af kodeord (navne) kan man udtrække ønskede elementer fra output i lmUD. Følgende tabel viser de vigtigste muligheder.

$\begin{array}{lr}\hline \text{Element} & \text{Python} \\ \hline s_r & \text{np.sqrt(lmUD.mse\textunderscore resid)} \\ \text{Frihedsgrader} & \text{lmUD.df\textunderscore resid} \\ \text{Parameterskøn} & \text{lmUD.params} \\ \text{Standard errors} & \text{lmUD.bse} \\ \text{Forventede værdier} & \text{lmUD.fittedvalues} \\ \text{Residualer} & \text{lmUD.resid} \\ \text{Konfidensintervaller} & \text{lmUD.conf\textunderscore int()} \\ \hline \end{array}$

7.4.1 Regressionsanalyse via ols, modelkontrol

Benyt nu estimationsfunktionen ols til at få lavet en parametertabel (og et residualplot) i regressionsmodellen for data omkring forurening af vandprøver fra Eksempel 7.1.1. For at have summaryLM til rådighed er definitionen skrevet ind i kodevinduet. Find skønnene over hældning, skæring og spredning, og sammenlign med værdierne beregnet i Eksempel 7.2.2. Find dernæst et 95%-konfidensinterval for hældning og skæring og sammenlign med beregningerne i Eksempel 7.3.2.

Se opstartskoden (til/fra)

Hvorfor bruges der logG og logC i modelformlen ?
Hvor aflæses skønnet over spredningen omkring linjen ?
Hvor aflæses konfidensintervallet for hældningen i den lineære sammenhæng ?

Svar: Bruge ols

I datatabellen indføres navnene logG og logC hvorfor disse skal bruges i modelformlen.
Skøn over spredningen aflæses til 0.3094 under Root Mean Squared Error.
Konfidensintervallet aflæses til $[0.7926,0.9061]$ i linjen hørende til logC.

Foregående Næste