Afsnit 7.5: Datasæt med et stort antal forklarende variable

Near-infrared spectroscopy (NIRS) er en måleteknik, der benyttes mere og mere såvel i industrien som i forskningssammenhænge. Ideen er, at ved at sende lys af forskellige bølgelængder gennem en prøve kan man få viden om sammensætning af prøven. For eksempel kan vi være interesseret i at kunne vurdere mængden af fedtstoffer (respons) i en kødprøve ud fra reflektansen ved en række forskellige bølgelængder. Her er reflektansen ved en bestemt bølgelænde en forklarende variabel, og antallet af forklarende variable bliver det antal bølgelængde, som der måles ved. Reflektansen ved de forskellige bølgelængder kaldes tilsammen spektrum for prøven.
Som et konkret eksempel vil jeg se på brugen af NIRS til bestemmelse af mængden af organisk materiale i sedimenter på bunden af en sø. Denne type undersøgelser kan blandt andet være af interesse for studiet af klimaforandringer. Mængden af organisk materiale måles som Loss-on-ignition (LOI), hvilket er en dyr og tidskrævende målemetode. I artiklen How well can near infrared reflectance spectroscopy (NIRS) measure sediment organic matter in multiple lakes? beskrives et eksperiment, hvor der er indsamlet data fra seks søer. I dette afsnit vil jeg kun betragte en delmængde af de indsamlede data, der fremkommer ved at medtage hver sjette prøve. For hver prøve er NIRS spektrum målt ved 2151 bølgelængder (i området 350-2500 nm). For at gøre beregningsarbejdet mindre vil jeg dog kun betragte hver 20-ende af disse, således at der er 107 bølgelængder til rådighed. Data kan findes på følgende dataverse-adresse.
Som nævnt, betragter jeg kun en delmængde af data, som indeholder 89 prøver. Analysen af disse i R vises i afsnit 7.7, og i afsnit 7.8 benytter jeg den valgte model til prædiktion på andre af de indsamlede prøver.
Figuren nedenfor viser spektrum for fire prøver hvori indgår prøverne med den mindste og den største LOI-værdi.
I det konkrete eksempel har vi således mange flere forklarende variable end antallet af datapunkter. Dette gør det svært at konstruere en multipel regressionsmodel. Hvis man prøver at lave regression på alle variablene, vil man fitte en model, hvor alle de forventede værdier bliver lig med de observerede responsværdier, og skønnet over spredningen bliver Man kan kalde dette en ekstrem grad af "overfitting".
I en situation med mange forklarende variable kan vi således ikke lave backward selektion til at reducere modellen. Jeg vil nu beskrive en alternativ metode, kaldet forward selektion, til at etablere en model. Ved forward selektion starter man med den mindst mulige model, det vil sige modellen uden nogen forklarende variabel, hvor alle de stokastiske variable har samme middelværdi. Man bygger dernæst modellen op successivt, ved i hvert trin at inkludere en ny forklarende variabel valgt således, at spredningsskønnet reduceres mest muligt.
Definition 7.5.1. (Forward selektion)
Et trin i forward selektionsalgoritmen kan beskrives på følgende vis. Antag, at den nuværende model har inkluderet variablene (ved start af algoritmen er ). For hver variabel prøver vi at udvide modellen med variabel blandt de variable, der endnu ikke er inkluderet. Dette giver en model med variable, og for hvert kan vi beregne et spredningsskøn, som vi kalder Den variabel med mindst spredningsskøn er vores kandidat til udvidelsen af modellen.
I modellen hvor variabel er inkluderet, kan vi se på -værdien for test af hypotesen det vil sige, et test for at den sidst inkluderede variabel kan undværes i modellen med variable. Alt efter størrelsen på denne -værdi kan vi vælge at stoppe algoritmen.
Figuren nedenfor viser resultatet af at lave forward selektion på data omkring LOI-værdien i sedmenter fra søer. Den sorte kurve i venstre delfigur viser udviklingen af spredningskønnet som funktion af antallet af forklarende variable, der er inkluderet i modellen undervejs i forward selektion (den røde kurve forklares senere). Den højre delfigur viser -værdien for test af , hvor er regressionskoefficienten for det sidst inkluderede led i modellen.
Figuren viser et kraftigt fald i spredningsskønnet når modellen udvides fra 1 variabel til 3 variable ved forward selektion, og tilsvarende små -værdier for test af, at regressionskoefficienten for det sidst inkluderede led i modellen er nul. Når den fjerde variabel inkluderes falder ikke og den tilhørende -værdi er langt over 0.05. Imidlertid falder spredningskønnet igen kraftig, når den femte variabel inluderes. Faldet i fortsætter indtil 11 variable er inkluderet og bliver derefter mindre. Ved 16 variable kommer -værdien igen over 0.05. Med 15 variable er spredningsskønnet 5.9.
Da variable i forward selektion udvælges ved at minimere spredningsskønnet kan vi ikke regne med at dette skøn giver et retvisende billede af variationen omkring middelværdimodellen. Når vi har mange forklarende variable, vil der også være en del, der ved rene tilfældigheder ser ud til at være korreleret med respons, hvorfor disse inkluderes i modellen. Der er således behov for en alternativ måde at lave et spredningsskøn på. Den røde kurve i figuren ovenfor viser netop sådan en alternativ metode, som bliver gennemgået i næste afsnit. Denne alternative metode peger på, at forward selektion med 14 variable er passende for disse data og giver et spredningsskøn (eller rettere et skøn over prædiktionsfejl: se næste afsnit) på 8.6.
ForegåendeNæste