Afsnit 5.6: Crossvalidation

Motivationen for at betragte NIR-spektret i det foregående afsnit er, at vi ønsker at konstruere en metode, hvormed man kan prædiktere respons (i vores tilfælde brixværdien i ferskner). Det er derfor naturligt at tænke på at evaluere en metode ved at se på, hvor god metoden er til at prædiktere et nyt sæt observationer. Man taler generelt om prædiktionsspredningen (root mean squared error of prediction: RMSEP) og prædiktionsvariansen, hvor man i den sidste tager gennemsnit over de kvadrerede prædiktionsfejl, det vil sige afstand mellem den observerede værdi og den prædikterede værdi. Problemet i denne tankegang er, at man typisk ikke har et nyt sæt observationer. I stedet deler vi det oprindelige datasæt op i et træningssæt og et testsæt, benytter træningssættet til at konstruere vores prædiktionsmetode og bruger testsættet til at se, hvor god metoden er. Typisk laver man så flere forskellige opdelinger i træningssæt og testsæt for, at testsættet kommer rundt i hele det oprindelige datasæt. Dette kendes under navnet crossvalidation (krydsvalidering på dansk). Når man som her lægger vægten på prædiktionsspredningen, betragtes den multiple regressionsmodel også som en del af emneområdet machine learning.

Lad mig først prøve at beskrive crossvalidation abstrakt. Vi har $n$ datapunkter og ønsker at evaluere en estimationsmetode. Crossvalidation kan beskrives gennem følgende punkter.

Del på tilfældig vis data op i et træningssæt og et testsæt.
Gennemfør estimationsmetoden på træningssættet, og find skøn over de parametre, der indgår i slutmodellen.
Lav for hver prøve i testsættet en prædikteret værdi ud fra de forklarende værdier hørende til prøven og parameterskønnene fra foregående punkt. Beregn dernæst prædiktionsfejl som responsværdi minus den prædikterede værdi.
Gentag punkt 1-3 med andre inddelinger i træningssæt og testsæt, således at de forskellige testsæt kommer rundt i hele datasættet.
Beregn prædiktionsvarians som gennemsnit over alle de kvadrerede værdier af prædiktionsfejlene. Beregn prædiktionspredning (root mean squared eror of prediction, RMSEP) som kvadratroden af prædiktionsvariansen.

Lad os nu betragte crossvalidation i forbindelse med forward selektionsmetoden i den multiple regressionsmodel. Antag, at vi i træningsdelen har udvalgt de forklarende variable $j_1,j_2,\ldots, j_k$ og har fået skønnene $\hat\alpha,\hat\beta_1,\ldots,\hat\beta_k$ i den multiple regressionsmodel $X_i\sim N\big(\alpha+\beta_1t_{ij_1}+\cdots+\beta_kt_{ij_k},\sigma^2\big).$ For et observationsnummer $i$ i testsættet bliver den prædikterede værdi

$\hat\xi_i^{\text{cv}}=\hat\alpha+\hat\beta_1t_{ij_1}+\cdots+ \hat\beta_kt_{ij_k},$ og bidraget til prædiktionsvariansen er $\big(x_i-\hat\xi_i^{\text{cv}}\big)^2.$

I Leave one out crossvalidation (LOOCV) lader man testsættet bestå af kun en enkelt observation, og træningssættet er de resterende $n-1$ observationer. Dette gentager man $n$ gange, hvor i det $i$ 'te trin observation nummer $i$ udgør testsættet. Hvis vi lader $\hat\xi_i^{(-i)}$ betegne den prædikterede værdi for den $i$ 'te observation, når træningssættet består af alle observationerne pånær den $i$ 'te, kan vi skrive crossvalidation skønnet over prædiktionsspredningen som

$s_{\text{cv}}=\sqrt{\frac{1}{n}\sum_{i=1}^n\big(x_i-\hat\xi_i^{(-i)}\big)^2}.$ I $K$ -fold crossvalidation deler man datasættet op i $K$ cirka lige store dele, og hver del er så efter tur testsættet. Opdelingen er tilfældig og kan eventuelt gentages en række gange.

I figuren med spredningsskøn i det foregående afsnit er den røde kurve i venstre delplot prædiktionsspredningen fra leave one out crossvalidation. For $j$ variable ( $j$ på førsteaksen i den omtalte figur) foregår beregningen som følger. I det $i$ 'te trin i beregningen fjernes den $i$ 'te observation fra datasættet. Dernæst laves der forward selektion med $j$ variable, den multiple regressionsmodel med de $j$ fundne variable estimeres, der laves prædiktion for den $i$ 'te observation, som netop ikke var med i træningssættet, og bidraget til prædiktionsvariansen beregnes. Dette gentages for $i=1,\ldots,n.$ Til sidst beregnes kvadratroden af gennemsnit af de $n$ kvadrerede prædiktionsfejl. Figuren peger på, at der efter inklusion af seks variable ved forward selektion ikke længere sker en forbedring i evnen til at prædiktere brixværdien i ferskner. Crossvalidation giver altså i eksemplet med brixværdien anledning til et større antal variable, end den formelle stopregel for forward selektion, som kun giver to variable.

Foregående Næste