Afsnit 9.5: Ridge regression

Når vi har mange forklarende variable som i eksemplet med oktantallet i bensinprøver, kan vi ikke bruge backward selektion, og forward selektion giver kun begrænsede muligheder for valget af variable. Hvis for eksempel forward selektion giver fire variable, er disse fremkommet ved en bestemt sekventiel procedure og ikke ved, at man har søgt blandt alle mulige valg med fire variable. I eksemplet med 401 forklarende variable er der over 1 milliard muligheder for valg af fire variable. Forward selektion lægger restriktion på valget af variable. I dette afsnit skal vi anskue estimationsproblematikken på en anden måde, idet vi beholder alle variable, men lægger restriktion på, hvor meget estimaterne af regressionskoefficienterne må variere. Når vi estimerer parametrene i en multipel regressionsmodel med $d$ forklarende variable minimerer vi kvadratsummen

$\sum_{i=1}^n \big(x_i-\alpha-\beta_1t_{i1}-\beta_2 t_{i2}-\cdots - \beta_dt_{id}\big)^2. \tag{9.5.1}$ Hvis $d>n$ , er det uendelig mange løsninger, hvor ovenstående sum bliver lig med nul, eller sagt på en anden måde, hvor alle de forventede værdier $\hat\xi_i$ er lig med de observerede værdier $x_i,$ og spredningsskønnet er $s(M)=0$ . Figuren nedenfor (stiplede linje) viser en af de mulige løsninger for datasættet med oktantal. Løsningen er udvalgt, således at kvadratnormen $\sum_j\hat\beta_j^2$ er mindst mulig, nemlig 3.16. Vi kan gå videre i denne retning ved at se på løsninger, der gør kvadratsummen (9.5.1) lille, samtidig med at kvadratnormen $\sum_j\hat\beta_j^2$ ikke er for stor. I figuren nedenfor er den fuldt optrukne kurve en sådan løsning, hvor kvadratnormen $\sum_j\hat\beta_j^2$ er lig med 0.12 og kvadratsummen (9.5.1) er 1.26. Vi ser tydeligt her, at ved at lægge restriktion på $\sum_j\hat\beta_j^2$ får vi løsninger, der "udglatter" den voldsomme variation i løsningen med $s(M)=0.$ Det virker rimeligt, at en løsning skal udvise en "glathed", der ligner den glathed, der er i et spektrum $t_{ij}$ $j=1,\ldots,d.$ De løsninger, der betragtes i dette afsnit, kaldes også regulariserede løsninger.

I den følgende figur viser de to nederste delfigurer udsnit af den øverste figur i områder omkring de tre første variable, der kommer med ved forward selektionsmetoden i afsnit 9.4.

Metoden til at finde de regulariserede løsninger kaldes ridge regression.

Definition 9.5.1. (Ridge regression)

I ridge regression vælges en værdi af $\lambda$ (regulariseringsparameteren), og skøn over $\alpha$ og $\beta$ i den multiple regressionsmodel 9.1.1 findes ved at minimere

$\sum_{i=1}^n \big(x_i-\alpha-\beta_1t_{i1}-\beta_2 t_{i2}-\, \cdots\, - \beta_pt_{id}\big)^2+\lambda\sum_{j=1}^d \beta_j^2.$

Når vi lader $\lambda$ gå mod nul, får vi den stiplede løsning i figuren ovenfor, og når vi lader $\lambda$ blive meget stor, får vi løsningen, hvor alle estimaterne af regressionskoefficienterne er nul. I Definition 9.5.1 vægter alle regressionskoefficienterne lige meget i kvadratnormen. Dette forudsætter, at alle de forklarende variable er på "samme skala". I implementeringen af ridge regression i det følgende skjulte punkt foretages derfor en centrering og skalering af alle de forklarende variable, og figurerne i dette afsnit, såvel som angivne kvadratnormer, vedrører regressionskoefficienterne hørende til de skalerede variable.

9.5.2 Ridge regression i python

For at finde løsningen $\hat\alpha(\lambda)$ og $\hat\beta(\lambda)$ til minimerigsproblemet 9.5.1 har jeg lavet en funktion ridge (ligger i filen pytFunktioner.py, henholdsvis ridge.m). Input til denne er $n\times d$ matricen $T$ med de forklarende variable, vektoren $x$ med responsværdierne, og værdien af $\lambda$ der ønskes undersøgt. Output er $\hat\alpha(\lambda)$ , $\hat\beta(\lambda)$ og $s(\lambda)=\sqrt{\frac{1}{n}\sum_i(x_i-\hat\xi_i(\lambda))^2)},$ hvor $\hat\xi_i(\lambda)=\hat\alpha(\lambda)+\sum_j\hat\beta_j(\lambda)t_{ij}$ er den $i$ 'te forventede værdi. Normalt dividerer vi i et spredningsskøn ikke med $n$ , men med et frihedsgradsantal. For ridge regression er der imidlertid ikke et naturligt frihedsgradsantal. I det følgende kodevindue er koden til ridge skrevet ind, og data omkring oktantallet i bensinprøver analyseres. Der laves en figur af $\hat\beta(\lambda)$ og en figur med de observerede oktantal mod de forventede værdier.

Se opstartskoden (til/fra)

Prøv at lege med koden ved at køre koden flere gange med en følge af $\lambda$ -værdier på formen 0.01,0.1, 1, 10, 100 og 1000. Hold især øje med, om der kommer systematiske afvigelser fra identitetslinjen i figuren med de observerede afsat mod de forventede. Hvilken værdi af $\lambda$ vil du vælge ud fra den sidste synsvinkel ?

Svar: Vælge $\lambda$

Med værdien $\lambda=1,$ som er værdien givet i koden, kan man ikke se nogen systematisk afvigelse, og vi kan godt prøve at gøre $lambda$ større. Med $\lambda=10$ ser figuren stadig acceptabel ud, men det yderste punkt i hver ende er faktisk blevet rykket lidt bort fra identitetslinjen. Med $\lambda=100$ ser vi klare systematiske afvigelser, hvor langt de fleste punkter med forventet værdi i den nedre halvdel ligger under identitetslinjen. En værdi af $\lambda$ omkring 10 synes derfor rimelig. I næste afsnit bliver cross-validation til bestemmelse af $\lambda$ omtalt.

Når man har analyseret data, og besluttet hvilken værdi af regulariseringsparameteren $\lambda$ , der giver den bedste tilpasning til data, vil man ofte bruge modellen til at prædiktere respons (eller rettere middelværdien af respons) for nye værdier af de forklarende variable. Den prædikterede værdi er

$\hat\xi=\hat\alpha(\lambda)+\hat\beta_1(\lambda)t_{*1}+ \hat\beta_2(\lambda)t_{*2}+\cdots+ \hat\beta_d(\lambda)t_{*d},$ hvor $(\hat\alpha(\lambda),\hat\beta_1(\lambda),\ldots,\hat\beta_d(\lambda)$ er parameterskønnene fra ridge regressionen, og $(t_{*1},\ldots,t_{*d})$ er de nye forklarende værdier.

9.5.3 Ridge prædiktion i python

De prædikterede værdier beregnes meget nemt i python. Lad alpha og beta være output fra ridge-funktionen, og lad Tnye være en $m\times d$ matriks, hvor hver række indeholder et sæt forklarende værdier, for hvilke man ønsker at beregne en prædikteret værdi (i alt ønskes altså $m$ prædikterede værdier). Beregningen foretages som følger,

$\text{xipredict=alpha+Tnye@beta}$ Beregningsmetoden blev brugt i det ovenstående skjulte punkt Ridge regression i python til at beregne de forventede værdier, hvilket svarer til, at Tnye er den oprindelige matriks $T$ med de forklarende værdier.

Et approksimativt prædiktionsinterval for en kommende observation kan laves som

$\text{xipredict }\pm 1.96\cdot s_{\text{cv}},$ hvor $s_{\text{cv}}=s_{\text{cv}}(\lambda)$ er prædiktionsspredningen fundet ved cross-validation, hvilket beskrives i det næste afsnit.

Foregående Næste