Afsnit 7.6: Crossvalidation
Motivationen for at betragte NIR-spektret i det foregående afsnit
er, at vi ønsker at
konstruere en metode, hvormed man kan prædiktere respons (i vores
tilfælde LOI-værdien i sedimenter). Det er derfor naturligt at tænke
på at evaluere en metode ved at se på, hvor god metoden er til at
prædiktere et nyt sæt observationer. Man taler generelt om
prædiktionsspredningen (root mean squared error of prediction: RMSEP)
og
prædiktionsvariansen, hvor man i den sidste tager
gennemsnit over de kvadrerede prædiktionsfejl, det vil sige afstand
mellem den observerede værdi og den prædikterede værdi.
Problemet i denne tankegang er, at man typisk
ikke har et nyt sæt observationer. I stedet deler vi det
oprindelige datasæt op i et
træningssæt og et
testsæt, benytter træningssættet til at konstruere vores
prædiktionsmetode og bruger testsættet til at se, hvor
god metoden er. Typisk laver man så flere forskellige opdelinger
i træningssæt og testsæt for, at testsættet kommer rundt i
hele det oprindelige datasæt.
Dette kendes under navnet
crossvalidation
(
krydsvalidering på dansk).
Når man som her lægger vægten på prædiktionsspredningen, betragtes
den multiple regressionsmodel også som en del af emneområdet
machine learning.
Lad mig først prøve at beskrive crossvalidation abstrakt. Vi har
datapunkter og ønsker at evaluere en estimationsmetode.
Crossvalidation kan beskrives gennem følgende punkter.
- Del på tilfældig vis data op i et træningssæt og et testsæt.
- Gennemfør estimationsmetoden på træningssættet, og find
skøn over de parametre, der indgår i slutmodellen.
- Lav for hver prøve i testsættet en prædikteret værdi ud
fra de forklarende værdier hørende til prøven og parameterskønnene
fra foregående punkt. Beregn dernæst prædiktionsfejl som
responsværdi minus den prædikterede værdi.
- Gentag punkt 1-3 med andre inddelinger i træningssæt og testsæt,
således at de forskellige testsæt kommer rundt i hele datasættet.
- Beregn prædiktionsvarians som gennemsnit over
alle de kvadrerede værdier af prædiktionsfejlene.
Beregn prædiktionspredning (root mean squared eror of
prediction, RMSEP) som kvadratroden af prædiktionsvariansen.
Lad os nu betragte crossvalidation i forbindelse med
forward selektionsmetoden i den multiple regressionsmodel.
Antag, at vi i træningsdelen har udvalgt de forklarende variable
og har fået skønnene
i den multiple regressionsmodel
For et observationsnummer
i
testsættet
bliver den prædikterede værdi
og bidraget til
prædiktionsvariansen er
I
-fold crossvalidation deler man datasættet op i
cirka lige store dele, og hver del er så efter tur testsættet.
Opdelingen er tilfældig og kan eventuelt gentages en række
gange.
I
Leave one out crossvalidation (LOOCV) lader man testsættet
bestå af kun en enkelt observation, og træningssættet er de
resterende
observationer. Dette gentager man
gange,
hvor i det
'te trin observation nummer
udgør testsættet.
Hvis vi lader
betegne den prædikterede værdi for
den
'te observation, når træningssættet består af alle
observationerne pånær den
'te, kan vi skrive crossvalidation skønnet
over prædiktionsspredningen som
I denne bog vil jeg vælge antallet af led i modellen ud
fra følgende princip.
Definition 7.6.1.
(Forward selektion med cross-validation)
Prædiktionsspredningen i en model, der inkluderer variable, findes ved,
at der i hvert trin af LOOCV proceduren laves en model med
variable fundet ved forward selektion.
Antallet af variable i slutmodellen findes
som den værdi af hvor prædiktionsspredningen er mindst.
Lad os vende tilbage til data omkring
mængden af organisk materiale i sedimenter på bunden af søer
i afsnit
7.5. Tabellen nedenfor
viser i de tre første rækker resultatet af at bruge forward selektion,
indtil 6
variable er inkluderet. Den sidste række viser prædiktionsspredningen
fra LOOCV som
funktion af, hvor mange variable der inkluderes. Bemærk, at vi har et lokalt
minimum ved 3 variable, både i spredningsskøn og i
prædiktionsspredning. Inklusion af variablene 25 og 23 giver således en
forbedring i modellen, men ikke inklusion af variabel 25 alene.
Dette kan være en indikation af, at informationen ligger i for eksempel
differensen mellem spektrumværdierne for de to variable.
I figuren med spredningsskøn i det
foregående afsnit
er den røde kurve i venstre delplot prædiktionsspredningen fra
leave one out crossvalidation. For
variable
(
på førsteaksen i den omtalte figur)
foregår beregningen som følger. I det
'te
trin i beregningen fjernes den
'te observation fra datasættet.
Dernæst laves der forward selektion med
variable, den multiple
regressionsmodel med de
fundne variable estimeres,
der laves prædiktion for den
'te observation, som netop ikke var
med i træningssættet, og bidraget til prædiktionsvariansen
beregnes. Dette gentages for
Til sidst beregnes kvadratroden af gennemsnit af de
kvadrerede
prædiktionsfejl.
Figuren
peger på, at vi skal helt op på 14 variable før et minimum i
prædiktionsspredninen er fundet.
ForegåendeNæste