Afsnit 9.6: Cross-validation i ridge regression

For ridge regression har vi ikke et naturligt skøn over spredningen

\sigma

i den multiple regressionsmodel. Output fra funktionen ridge giver skønnet

s(\lambda)=\sqrt{\frac{1}{n}\sum_i(x_i-\hat\xi_i(\lambda))^2},

hvor der divideres med

n

i stedet for et passende (men ukendt) antal frihedsgrader. Skønnet

s(\lambda)

vil aftage med

\lambda,

og blive lig med nul når

\lambda

er nul. For at få et mere realistisk billede af spredningen vil vi bruge prædiktionsspredningen

s_{\text{cv}}(\lambda)

fra leave one out cross-validation (LOOCV) som i afsnit 9.3. Denne kan så bruges til at lave et passende valg af regulariseringsparameteren

\lambda.

Figuren nedenfor viser i det venstre delplot forløbet af

s(\lambda)

som funktion af

\lambda

på en logaritmisk skala. Vi ser her, hvordan

s(\lambda)

langsomt vokser op fra nul, og omkring

\log(\lambda)=5

skifter til en kraftig voksende funktion (gå eventuelt tilbage til foregående afsnit og beregn nogle af

s(\lambda)

-værdierne i figuren). Prædiktionsspredningen

s_{\text{cv}}(\lambda)

er vist i det højre delplot. Minimum fås med

\lambda

omkring 1 og i området med

\lambda

mellem 0.4 og 10 er

s_{\text{cv}}(\lambda)

tæt på minimumsværdien. Med

\lambda=10

er prædiktionsfejlen fra krydsvalideringen

s_{\text{cv}}=0.21.

Dette er en smule bedre end værdien 0.26 fra forward selektion med tre variable (en 20 procents forbedring). Beregningen af prædiktionsspredningen er vist i det skjulte punkt nedenfor under brug af funktionen cvRidge.

I de to nederste delfigurer vises forskellige aspekter af ridge regression for forskellige værdier af

\lambda

. I nederste venstre delfigur er vist forløbet af tre af koordinaterne i

\hat\beta(\lambda)

. Vi kan se her, hvordan koordinaterne går mod nul, når

\lambda

bliver stor. I nederste højre delfigur er vist forløbet for tre forventede værdier

\hat\xi_i(\lambda)

. For

\lambda

stor nærmer disse værdier sig genemsnittet af alle responsværdierne.

Resultat 9.6.1. (Valg af regulariseringsparameter)

I ridge regression vælges værdien af regulariseringsparameteren

\lambda

ved hjælp af cross-validation. Som udgangspunkt vælges den værdi af

\lambda,

der giver den mindste værdi af prædiktionsspredningen

s_{\text{cv}}(\lambda).

Værdien kaldes

\lambda_{\min}.

Eventuelt vælges en værdi lidt større end

\lambda_{\min},

der opfylder, at

s_{\text{cv}}(\lambda)

ikke er meget større end

s_{\text{cv}}(\lambda_{\min}),

og et plot med de observerede mod de forventede ikke viser systematisk afvigelse fra identitetslinjen.

9.6.2 Cross-validation

For at finde prædiktionsspredningen ved LOOCV har jeg lavet en funktion cvRidge. Input til denne er

n\times d

matricen

T

med de forklarende variable, vektoren

x

med responsværdierne, og værdien af

\lambda

, der ønskes undersøgt. Output er prædiktionsspredningen

s_{\text{cv}}

defineret som i (9.3.2), og en standard error for

s_{\text{cv}}

baseret på de

n

værdier, der indgår i beregningen (

\text{std}_s(s_{\text{cv}})

). I det følgende kodevindue er koden til cvRidge skrevet ind, og data omkring oktantallet i bensinprøver analyseres. Prøv at køre koden flere gange med en følge af

\lambda

-værdier på formen 0.1, 1, 10, 100 og 1000, og se at de fundne værdier stemmer overens med figuren ovenfor.

Se opstartskoden (til/fra)

xxxxxxxxxx
 
import numpy as np
import pandas as pd
​
# funktionen cvRidge defineres
def cvRidge(T:"numpyarray_matrix_float",x:"numpyarray_float",lamda:"float"):
  # beregne cross-validation i ridge regression med regularisering lamda
  d=T.shape[1]; n=len(x); n1=n-1
  predFejl=np.repeat(0.0,n)
  for i in np.arange(n):
    # observation i fjernes fra datasaet
    Ti=np.delete(T,i,0); xi=np.delete(x,i)
    gns=np.mean(Ti, axis=0); spred=np.std(Ti, axis=0,ddof=1)
    T0=(Ti-gns)/spred
    mux=np.mean(xi); x0=xi-mux
    U,S,V=np.linalg.svd(T0) 
    k=len(S); dmat=np.zeros((d,n1))
    dmat[:k,:k]=np.diag(S/(S*S+lamda))
    beta0=V.T@dmat@U.T@x0
    beta=beta0/spred; alpha=mux-sum(gns*beta) 
    # lave praediktion for observation der er udeladt
    predFejl[i]=x[i]-alpha-sum(beta*T[i,:])
  scv=np.sqrt(np.mean(predFejl**2))
  sd=np.std(predFejl**2,ddof=1)/np.sqrt(n)
  sdscv=sd/(2*scv)
  return(pd.DataFrame({'s_cv':[scv],'std_s(s_cv)':[sdscv]}))
​
print("Opstart er gennemført: funktion cvRidge er defineret")

xxxxxxxxxx
 
# Opstart ovenfor skal være kørt
​
# data indlæses
bensindata=pd.read_csv('https://raw.githubusercontent.com/gustavovelascoh/octane-NIR/master/gasoline.csv')
oktan=bensindata.iloc[:,0].values
spek=pd.DataFrame.to_numpy(bensindata.iloc[:,1:402])
​
# cross-validation spredningsskøn beregnes
print(cvRidge(spek,oktan,1))

I ovenstående eksempel har jeg lagt op til, at et endeligt valg af

\lambda

\lambda=10.

Minimum af

s_{\text{cv}}(\lambda)

fås med valget

\lambda_{\min}=0.8

, og minimumsværdien er

s_{\text{cv}}(\lambda_{\min})=0.2102.

Dette tal kommer med en usikkerhed (standard error), og denne er vurderet til

\text{std}_s=0.0176

i programmet cvRidge. Der er delvist en tradition for, at man vælger en værdi af

\lambda

lidt over den værdi, der giver minimum. Dette skyldes, at man ønsker at regularisere løsningen

\hat\beta(\lambda)

mest muligt. Nogle programmer har indbygget, at

\lambda

vælges som den værdi større end

\lambda_{\min},

hvor

s_{\text{cv}}(\lambda)

s_{\text{cv}}(\lambda_{\min})+\text{std}_s.

Jeg lægger ikke op til at bruge denne regel automatisk. I stedet anbefaler jeg, at man vurderer en værdi af

\lambda

lidt over

\lambda_{\min}

ved at se efter, om der optræder systematiske afvigelser i et plot af de observerede mod de forventede. Ud fra en sådan tilgang vil jeg vælge

\lambda

omkring 10 for bensindata. Med

\lambda=10

er prædiktionsspredningen

s_{\text{cv}}(10)=0.2118,

som cirka er

s_{\text{cv}}(\lambda_{\min})+\frac{1}{2}\text{std}_s.

Man skal vælge

\lambda

til cirka 60, for at få en prædiktionsspredning der er

s_{\text{cv}}(\lambda_{\min})+\text{std}_s.

For denne værdi synes jeg, at der er tydelige systematiske afvigelser i et plot af de observerede mod de forventede. Prøv selv i koden Ridge regression i python at køre

\lambda=10

\lambda=60,

og se på de figurer der dannes med de observerede afsat mod de forventede.

Foregående Næste