Afsnit 5.8: Prædiktion på nyt datasæt

For data omkring brixværdien i ferskner i afsnit 5.5 brugte jeg kun de 40 første ud af i alt 50 målinger i analysen. Vi kan derfor bruge de sidste 10 målinger som et testsæt til at vurdere den model vi er kommet frem til. Hvor jeg i afsnit 5.6 beregnede en prædiktionsspredning baseret på leave one out crossvalidation, kan jeg her beregne en prædiktionsspredning baseret på de 10 sidste målinger. I kodevinduet nedenfor er vist beregningen for data omkring brixværdien i tilfældet med 4 forklarende variable fra forward selektion.

Se opstartskoden (til/fra)

Når I kører koden, vil I se, at prædiktionsspredningen fra det uafhængige testsæt er 1.69. Vi fandt tidligere at prædiktionsspredningen fra crossvalidation var 2.14, og testsættet viser derfor ikke en yderligere afvigelse, end den der ses gennem crossvalidation.
Figuren nedenfor viser den tidligere figur med spredningskøn (sort) og prædiktionsspredningen fra crossvalidation (rød), og hvor nu også prædiktionsspredningen fra det uafhængige testsæt er inkluderet (blå).
For data omkring brixværdien ser vi, at kurven (blå kurve) baseret på de sidste 10 målinger generelt har et lidt overraskende forløb, idet den for op til 11 variable ligger under den sorte kurve. Den har et lokalt minimum for 3 variable, men en noget mindre værdi for 10 variable. Udover eventuelle særheder ved data kan dette afspejle, at kurven kun er baseret på 10 målinger.
ForegåendeNæste