Afsnit 9.2: Eksempel: Opløsningsmidler

I det følgende kodevindue analyseres datasættet med opløsningsmidler omtalt i indledningen til dette kapitel. Lad ess være opløsningsevnen, være Lewis acidity, og lad være Lewis basicity. Vi vil undersøge en model, hvor middelværdien af ESS beskrives ved et generelt andengradspolynomium i A og B. Vi indfører derfor yderligere tre forklarende variable
Modellen, der analyseres, er Statistisk Model 9.1.1, her formuleret som
hvor kan variere frit. Kør koden i det følgende skjulte punkt.

9.2.1 Backward selektion

Se opstartskoden (til/fra)

MATLAB-kode

Fra parametertabellen ses det, at -test for giver en -værdi på 0.8864, og dette er den største -værdi blandt de fem regressionsparametre. Da denne -værdi er langt over 0.05 fjerner vi leddet AA fra modellen. Kør det ovenstående program igen med AA fjernet fra modelformlen. Konstater, at AB kan fjernes, og dernæst at BB kan fjernes. I slutmodellen med multipel regression på A og B er -værdierne for test af de tilhørende regressionskoefficienter meget små, og modellen kan ikke reduceres yderligere. De estimerede regressionskoefficienter i slutmodellen er henholdsvis 0.86 og 0.33. Hvis man laver et -test for reduktion fra den fulde model til slutmodellem ved hjælp af kommandoen anovalm(lmUD2,lmUD1), hvor lmUD1 og lmUD2 er output fra estimationen af henholdsvis startmodel og slutmodel, får man en -værdi på 0.67 (se afsnit 8.7 for beskrivelse af anovalm).
I slutmodellen aflæses et 95%-konfidensinterval for regressionskoefficienten til hvorimod det tilsvarende konfidensinterval i den fulde model med alle fem regressionsvariable (kør eventuelt koden igen) er Ved at reducere modellen til kun at indeholde to regressionsvariable får vi altså et konfidensinterval, hvor længden er blevet reduceret til næsten kun en tredjedel. Dette er et vigtigt motivationspunkt for, at vi i en statistisk analyse prøver at reducere en kompliceret model til en mere simpel mode. Med færre parametre er det også nemmere at tolke på betydningen af de forskellige parametre.
I indledningen til dette kapitel stillede vi spørgsmålet, om beskrivelsen af opløsningsevnen som en regression af ess kunne forbedres ved at inkludere . Vi har ovenfor set, at i den multiple regression med både og er begge led nødvendige i modellen, og hvis vi ser på skøn over spredning, har vi værdien 0.103 for regression på og værdien 0.080 for regression på både og . Vi reducerer således spredningen omkring modellen med cirka 20 procent ved at inkludere i modellen. Det nedre højre delplot i figuren, der laves i det skjulte punkt Modelkontrol nedenfor, viser de observerede værdier afsat mod de forventede værdier i slutmodellen.
Forfatterne til artiklen, hvor data stammer fra, ønsker at indføre en simplificeret beskrivelse via en "ionizing power parameter" og foreslår parameteren . Der laves ikke et test for reduktion fra modellen til modellen og et sådant test giver en -værdi langt under 0.05, og skønnet over spredningen bliver 0.096. Overvej eventuelt, hvordan du vil lave et sådant test.

Svar: Ionizing parameter

Ved at definere en ny parameter IP=A+B kan man lave multipel regression på og IP, og se på -værdien for test af

Det næste kodevindue laver plots af residualer mod henholdsvis acidity og basicity, og et normalt qqplot.

9.2.2 Modelkontrol

Se opstartskoden (til/fra)

MATLAB-kode

Alle fire figurer understøtter den multiple regressionsmodel for disse data.

Lad os afslutte dette eksempel med at lave prædiktion af opløsningsevne for to nye opløsningsmidler med værdierne
Det følgende kodevindue laver konfidensintervaller for middelværdien af opløsningsevnen for de to opløsningsmidler.

9.2.3 Konfidensinterval og prædiktionsinterval

Se opstartskoden (til/fra)

MATLAB-kode

Kør koden. Kan du forklare, hvorfor det andet konfidensinterval er bredere end det første? Ændr koden, så der beregnes prædiktionsintervaller i stedet.

Svar: Opløsningsmidler

Det første af de to nye opløsningsmidler ligger midt i området for data, hvor middelværdien er velbestemt, hvorimod det andet opløsningsmiddel ligger i udkanten af dataområdet.
For at lave et prædiktionsinterval skal man erstatte "False" med "True" i koden (MATLAB: ændre "curve" til "observation").

ForegåendeNæste