Afsnit 5.8: Prædiktion på nyt datasæt
For data omkring brixværdien i ferskner i afsnit
5.5 brugte jeg kun de 40 første ud af i alt
50 målinger i analysen. Vi kan derfor
bruge de sidste 10 målinger som et testsæt til at
vurdere den model vi er kommet frem til.
Hvor jeg i afsnit
5.6 beregnede en prædiktionsspredning
baseret på leave one out
crossvalidation, kan jeg her beregne en prædiktionsspredning
baseret på de 10 sidste målinger.
I kodevinduet nedenfor er vist
beregningen for data omkring brixværdien i tilfældet med
4 forklarende variable fra forward selektion.
Se opstartskoden (til/fra)
Når I kører koden, vil I se, at prædiktionsspredningen
fra det uafhængige testsæt er 1.69. Vi fandt tidligere
at prædiktionsspredningen fra crossvalidation var 2.14,
og testsættet viser derfor ikke en yderligere afvigelse,
end den der ses gennem crossvalidation.
Figuren nedenfor viser den tidligere figur med spredningskøn
(sort)
og prædiktionsspredningen fra crossvalidation (rød), og hvor
nu også prædiktionsspredningen fra det uafhængige testsæt
er inkluderet (blå).
For data omkring brixværdien ser vi, at kurven (blå kurve) baseret
på de sidste 10 målinger generelt har et lidt overraskende forløb,
idet den for op til 11 variable ligger under den sorte kurve.
Den har et lokalt minimum for 3 variable, men en noget mindre
værdi for 10 variable. Udover eventuelle særheder ved data
kan dette afspejle, at kurven kun er baseret på 10 målinger.
ForegåendeNæste