For hvert træ har man målt diameter (inches, målt 54 inches over jorden),
højden (feet) og volumen af tømmer efter fældning (cubic feet).
Figuren nedenfor viser logaritmen til volumen afsat mod henholdsvis
logaritmen til diameter og logaritmen til højden. Den sidste delfigur
viser logaritmen til højden afsat mod logaritmen til diameteren.
Det
er tydeligt, at diameteren og højden hver især giver information
om volumen, og diameteren er den, der bedst kan bruges til at forudsige
volumen. Hældningen i en regression af log-volumen på log-diameter er
2.2, svarende til at volumen er proportional med diameter
opløftet i 2.2. Dette kan umiddelbart være svært at fortolke, men hvis vi
ser på regressionen af log-højde på log-diameter, er hældningen her 0.2.
Vi kan derfor sige, at diameter efterligner
diameterhøjde, hvilket intuitivt giver god
mening. Spørgsmålet er, om man kan lave en model,
hvor log-diameter og log-højde begge indgår, og dermed kan forbedre
beskrivelsen af log-volumen ?
Den relevante modelklasse er multipel regression,
som jeg vil beskrive i det følgende.
5.3.1 Den multiple regressionsmodel
Vi betragter målinger af uafhængige stokastiske variable
Til hvert observationsnummer er der tilknyttet
værdierne af forklarende variable.
I den simple lineære regressionsmodel i afsnit
3.1 blev
værdien af den forklarende variabel betegnet med
Når der er flere forklarende variable, lad os sige af disse,
betegnes værdierne med og
På denne måde passer index med en dataframestruktur, hvor er
rækkenummer og er søjlenummer.
Den 'te forklarende variabel er vektoren
I den multiple regressionsmodel er middelværdien af
respons en linearkombination af de forklarende værdier.
Vi skriver modellen på formen
De forklarende variable kaldes også regressionsvariable, og
kaldes regressionskoefficienter. Modellen analyseres i R med kommandoen
lm(xt1+t2++td)
hvor, i den konkrete situation, skal erstattes af navnet på
responsvariablen, og t1,t2,td skal erstattes med
navnene på de forklarende variable, og summen af de led skal
skrives fuldstændigt ud. I parametertabellen
fra summary er Intercept
skønnet over og skønnet
over den 'te regressionskoefficient står ud for navnet på den
'te forklarende variabel (her tj).
Den 'te forventede værdi er
og skønnet over variansen i modellen er
idet middelværdimodellen
har parametre. Ligesom for den simple regressionsmodel i afsnit 5.5
kan vi være interesseret i middelværdien
for givne
værdier af de forklarende variable.
Skønnet over denne,
kaldes den prædikterede værdi.
Et konfidensinterval for beregnes i R med
predict (med indstillingen interval="confidence")
som i afsnit 3.5, hvor der så skal bruges
en dataframe
nyData=data.frame(t1=td=)
Som i afsnit 3.5 kan man få et prædiktionsinterval
i stedet, det vil sige et interval for en kommende observation,
ved at lave indstillingen interval="prediction" i kaldet
til predict.
Eksempel 5.3.1.
(Cherry trees)
I det følgende kodevindue analyseres Black Cherry Trees datasættet
omtalt ovenfor.
Lad logVol være logaritmen til volumen, logDiam
logaritmen til diameteren, og lad logHoej være logaritmen til højden.
Modellen, der analyseres, er
hvor kan variere frit.
Kør koden.
De estimerede regressionskoefficienter er henholdsvis 1.98 og 1.12,
hvilket næsten svarer til modellen, hvor volumen beskrives
som Skønnet over spredningen er 0.081. Da dette er for
logaritmetransformerede data, svarer dette cirka til en
spredning på 8 procent på den oprindelige skala.Hvis vi kun laver regression på logaritmen til diameteren, bliver
spredningsskønnet 0.115. Dette kan formulers på den måde, at
inddragelsen af logaritmen til højden reducerer spredningen
med knap 30 procent.Det næste kodevindue laver plots af residualer mod henholdsvis
logaritmen til diameteren og logaritmen til højden, og et
normalt qqplot.
Alle tre figurer understøtter den multiple regressionsmodel for disse data.
Lad os afslutte dette eksempel med at lave prædiktion af
logaritmen til volumen for to nye træer med værdierne
Det følgende kodevindue lave konfidensintervaller for middelværdien
for de to træer.
Kør koden. Kan du forklare, hvorfor det andet konfidensinterval er
bredere end det første ?
Ændr koden, så der beregnes
prædiktionsintervaller i stedet.
Det første af de to nye træer ligger midt i området for data, hvor
middelværdien er velbestemt, hvorimod det andet træ ligger i
udkanten af dataområdet. For at lave et prædiktionsinterval skal man erstatte "confidence" med
"prediction" i koden.