Afsnit 7.6: Crossvalidation

Motivationen for at betragte NIR-spektret i det foregående afsnit er, at vi ønsker at konstruere en metode, hvormed man kan prædiktere respons (i vores tilfælde LOI-værdien i sedimenter). Det er derfor naturligt at tænke på at evaluere en metode ved at se på, hvor god metoden er til at prædiktere et nyt sæt observationer. Man taler generelt om prædiktionsspredningen (root mean squared error of prediction: RMSEP) og prædiktionsvariansen, hvor man i den sidste tager gennemsnit over de kvadrerede prædiktionsfejl, det vil sige afstand mellem den observerede værdi og den prædikterede værdi. Problemet i denne tankegang er, at man typisk ikke har et nyt sæt observationer. I stedet deler vi det oprindelige datasæt op i et træningssæt og et testsæt, benytter træningssættet til at konstruere vores prædiktionsmetode og bruger testsættet til at se, hvor god metoden er. Typisk laver man så flere forskellige opdelinger i træningssæt og testsæt for, at testsættet kommer rundt i hele det oprindelige datasæt. Dette kendes under navnet crossvalidation (krydsvalidering på dansk). Når man som her lægger vægten på prædiktionsspredningen, betragtes den multiple regressionsmodel også som en del af emneområdet machine learning.
Lad mig først prøve at beskrive crossvalidation abstrakt. Vi har datapunkter og ønsker at evaluere en estimationsmetode. Crossvalidation kan beskrives gennem følgende punkter.
  1. Del på tilfældig vis data op i et træningssæt og et testsæt.
  2. Gennemfør estimationsmetoden på træningssættet, og find skøn over de parametre, der indgår i slutmodellen.
  3. Lav for hver prøve i testsættet en prædikteret værdi ud fra de forklarende værdier hørende til prøven og parameterskønnene fra foregående punkt. Beregn dernæst prædiktionsfejl som responsværdi minus den prædikterede værdi.
  4. Gentag punkt 1-3 med andre inddelinger i træningssæt og testsæt, således at de forskellige testsæt kommer rundt i hele datasættet.
  5. Beregn prædiktionsvarians som gennemsnit over alle de kvadrerede værdier af prædiktionsfejlene. Beregn prædiktionspredning (root mean squared eror of prediction, RMSEP) som kvadratroden af prædiktionsvariansen.
Lad os nu betragte crossvalidation i forbindelse med forward selektionsmetoden i den multiple regressionsmodel. Antag, at vi i træningsdelen har udvalgt de forklarende variable og har fået skønnene i den multiple regressionsmodel For et observationsnummer i testsættet bliver den prædikterede værdi
og bidraget til prædiktionsvariansen er
I -fold crossvalidation deler man datasættet op i cirka lige store dele, og hver del er så efter tur testsættet. Opdelingen er tilfældig og kan eventuelt gentages en række gange.
I Leave one out crossvalidation (LOOCV) lader man testsættet bestå af kun en enkelt observation, og træningssættet er de resterende observationer. Dette gentager man gange, hvor i det 'te trin observation nummer udgør testsættet. Hvis vi lader betegne den prædikterede værdi for den 'te observation, når træningssættet består af alle observationerne pånær den 'te, kan vi skrive crossvalidation skønnet over prædiktionsspredningen som
I denne bog vil jeg vælge antallet af led i modellen ud fra følgende princip.
Definition 7.6.1. (Forward selektion med cross-validation)
Prædiktionsspredningen i en model, der inkluderer variable, findes ved, at der i hvert trin af LOOCV proceduren laves en model med variable fundet ved forward selektion. Antallet af variable i slutmodellen findes som den værdi af hvor prædiktionsspredningen er mindst.
Lad os vende tilbage til data omkring mængden af organisk materiale i sedimenter på bunden af søer i afsnit 7.5. Tabellen nedenfor viser i de tre første rækker resultatet af at bruge forward selektion, indtil 6 variable er inkluderet. Den sidste række viser prædiktionsspredningen fra LOOCV som funktion af, hvor mange variable der inkluderes. Bemærk, at vi har et lokalt minimum ved 3 variable, både i spredningsskøn og i prædiktionsspredning. Inklusion af variablene 25 og 23 giver således en forbedring i modellen, men ikke inklusion af variabel 25 alene. Dette kan være en indikation af, at informationen ligger i for eksempel differensen mellem spektrumværdierne for de to variable.
I figuren med spredningsskøn i det foregående afsnit er den røde kurve i venstre delplot prædiktionsspredningen fra leave one out crossvalidation. For variable ( på førsteaksen i den omtalte figur) foregår beregningen som følger. I det 'te trin i beregningen fjernes den 'te observation fra datasættet. Dernæst laves der forward selektion med variable, den multiple regressionsmodel med de fundne variable estimeres, der laves prædiktion for den 'te observation, som netop ikke var med i træningssættet, og bidraget til prædiktionsvariansen beregnes. Dette gentages for Til sidst beregnes kvadratroden af gennemsnit af de kvadrerede prædiktionsfejl. Figuren peger på, at vi skal helt op på 14 variable før et minimum i prædiktionsspredninen er fundet.
ForegåendeNæste