I det følgende kodevindue analyseres datasættet med opløsningsmidler
omtalt i indledningen til dette kapitel.
Lad ess være opløsningsevnen, være Lewis acidity,
og lad være Lewis basicity.
Vi vil undersøge en model, hvor middelværdien af ESS
beskrives ved et generelt andengradspolynomium i
A og B. Vi indfører derfor yderligere
tre forklarende variable
Modellen, der analyseres, er Statistisk Model 9.1.1,
her formuleret som
hvor kan variere frit.
Kør koden i det følgende skjulte punkt.
Fra parametertabellen ses det, at -test for
giver en -værdi på 0.8864,
og dette er den største -værdi blandt de fem regressionsparametre.
Da denne -værdi er langt over 0.05 fjerner vi leddet AA
fra modellen. Kør det ovenstående program igen med AA fjernet
fra modelformlen. Konstater, at AB kan fjernes, og dernæst at
BB kan fjernes. I slutmodellen med multipel regression på
A og B er -værdierne for
test af de tilhørende regressionskoefficienter meget små, og
modellen kan ikke reduceres yderligere.
De estimerede regressionskoefficienter i slutmodellen er henholdsvis 0.86 og 0.33.
Hvis man laver et -test for reduktion fra den fulde model til
slutmodellem ved hjælp af kommandoen
anovalm(lmUD2,lmUD1), hvor
lmUD1 og lmUD2 er output fra
estimationen af henholdsvis startmodel og slutmodel, får man en
-værdi på 0.67 (se afsnit 8.7 for beskrivelse af
anovalm). I slutmodellen aflæses et 95%-konfidensinterval for regressionskoefficienten
til hvorimod det tilsvarende konfidensinterval
i den fulde model med alle fem regressionsvariable (kør eventuelt koden igen)
er Ved at reducere modellen til kun at indeholde to
regressionsvariable får vi altså et konfidensinterval, hvor længden
er blevet reduceret til næsten kun en tredjedel. Dette er et vigtigt
motivationspunkt for, at vi i en statistisk analyse prøver at reducere
en kompliceret model til en mere simpel mode. Med færre parametre er det også
nemmere at tolke på betydningen af de forskellige parametre.I indledningen til dette kapitel
stillede vi spørgsmålet, om beskrivelsen
af opløsningsevnen som en regression af ess på
kunne forbedres ved at
inkludere . Vi har ovenfor set, at i den multiple regression med både
og er begge led nødvendige i modellen, og hvis vi ser på skøn
over spredning,
har vi værdien 0.103 for regression på og værdien 0.080 for
regression på både
og . Vi reducerer således spredningen omkring modellen med
cirka 20 procent ved
at inkludere i modellen. Det nedre højre delplot i figuren, der laves
i det skjulte punkt Modelkontrol nedenfor,
viser de observerede værdier afsat mod de forventede værdier i slutmodellen. Forfatterne til artiklen, hvor data stammer fra, ønsker at indføre en
simplificeret beskrivelse via en "ionizing power parameter" og foreslår
parameteren . Der laves ikke et test for reduktion fra modellen
til modellen og
et sådant test giver en -værdi langt under 0.05, og skønnet over spredningen
bliver 0.096. Overvej eventuelt, hvordan du vil lave et sådant test.
Alle fire figurer understøtter den multiple regressionsmodel for disse data.
Lad os afslutte dette eksempel med at lave prædiktion af
opløsningsevne for to nye opløsningsmidler med værdierne
Det følgende kodevindue laver konfidensintervaller for middelværdien
af opløsningsevnen for de to opløsningsmidler.
Kør koden. Kan du forklare, hvorfor det andet konfidensinterval er
bredere end det første ?
Ændr koden, så der beregnes
prædiktionsintervaller i stedet.
Det første af de to nye opløsningsmidler ligger midt i området for data, hvor
middelværdien er velbestemt, hvorimod det andet opløsningsmiddel ligger i
udkanten af dataområdet. For at lave et prædiktionsinterval skal man erstatte "False" med
"True" i koden.