Afsnit 8.4: Analyse i python

Den ensidede variansanalysemodel (Statistisk Model 8.2.3) analyseres i python med funktionerne ols og summary2, som er beskrevet i afsnit 7.4. Modelformlen, der bruges, er 'x~G', hvor $G$ er en faktor, der deler data op i grupper, og $x$ er en vektor med responsværdierne. Se det skjulte punkt nedenfor.

For at forstå parametertabellen er det vigtigt at kende den parametrisering, som anvendes i beregningerne. For modellen i 8.2.3, med $k$ grupper, faktorniveauerne $1,2,\ldots,k$ og tilhørende middelværdiparametre $\mu_1,\ldots,\mu_k,$ benyttes i forbindelse med modelformlen 'x~G' følgende parametrisering og navngivning.

$\begin{array}{lccccc} \hline \text{Parameter} & \mu_1 & \mu_2-\mu_1 & \mu_3-\mu_1 & & \mu_k-\mu_{1} \\ \hline \text{Python} & \text{(Intercept)} & \text{G[T.2]} & \text{G[T.3]} & \cdots & \text{G[T.k]} \\ \hline \end{array}$ Vi kan se, at i parametertabellen bruges intercept, svarende til det første niveau af faktoren, og derefter forskelle mellem parametre, hvilket ofte vil være af større interesse end parameterværdierne selv. Det $t$ -test, der står i parametertabellen ud for et faktorniveau, bliver således et test for at forskellen i parameterværdi er nul, eller sagt på en anden måde et test for, at de to parameterværdier er ens. På tilsvarende vis er konfidensintervallerne for forskel i parameterværdier. (Bemærk iøvrigt, at i tilfældet med to grupper vil analysen her betragte forskellen $\mu_2-\mu_1,$ hvorimod ttest2 fra afsnit 6.5 betragter $\mu_1-\mu_2.)$

Hvis variablen $G$ består af tekststrenge, vil denne i en modelformel automatisk blive opfattet som en faktor, uanset om den er defineret som en faktor eller ej. I python vil intercept i begge tilfælde være det niveau, der kommer først lexikografisk. Hvis man ønsker, at python skal bruge et andet intercept, kan man omdefinere faktoren med kommandoen pd.Categorical. Antag, at vi har en faktor $G$ med de tre niveauer "A", "B" og "C", og vi ønsker "C" skal bruges som intercept, så skriver vi

$\text{G=pd.Categorical(G,categories=["C", "A", "B"])}$ Bogstavet $T$ , der bruges i pythons navngivning i formatet variabelnavn[T.niveau], står for Treatment.

Parametrisering og intercept i python

I nedenstående kodevindue laves en parametertabel, hvor spredningen $\sigma$ er nul, hvorfor estimaterne bliver lig med de sande værdier af parametrene. Kør kommandoerne, og sørg for at forstå output i parametertabellen i forhold til de sande værdier af $\mu_A,\mu_B,\mu_C$ og $\sigma.$

Se opstartskoden (til/fra)

Forklaring

I output er $\text{Intercept}=\mu_A,$ $\text{G[T.B]}=\mu_B-\mu_A$ og $\text{G[T.C]}=\mu_C-\mu_A.$ Vi kan også udtrykke dette omvendt: $\mu_A=\text{Intercept},$ $\mu_B=\text{Intercept+G[T.B]}$ og $\mu_C=\text{Intercept+G[T.C]}.$ I parametriseringen bruges en leksikografisk ordning af niveauerne i faktoren $G,$ således at intercept svarer til "A".

Prøv at lægge mere og mere støj på data ved at vælge sigma=0.5, sigma=1 og sigma=2. Bemærk, hvordan $p$ -værdierne stiger i de tre $t\text{-}$ test i parametertabellen.

Hvis man vil ændre på hvilken gruppe, der bruges som Intercept, kan man i eksemplet ovenfor indsætte følgende lige efter $G$ ,

$\text{G=pd.Categorical(G,categories=["C", "A", "B"])}$ hvorefter Intercept bliver $\mu_C.$ Prøv dette.

Hvis man ønsker, at estimationsalgoritmen skal bruge parametriseringen med $\mu_1,\mu_2,\ldots,\mu_k$ i stedet for forskelle i parameterværdierne, kan dette gøres med modelformlen 'x~G-1'. I modelformlen undertrykker "-1" brugen af et intercept.

8.4.1 Test af modelreduktion i python

Vi vil generelt udtrykke os på den måde, at vi tester en reduktion fra en model $M_1$ til en model $M_2$ , hvis vi tester en hypotese, der bringer os fra model $M_1$ til model $M_2.$ I dette afsnit vil model $M_1$ være den ensidede variansanalysemodel 8.2.3, og model $M_2$ er modellen (8.2.1), hvor alle middelværdierne er ens. For at beregne $F$ -testet for denne reduktion skal man benytte funktionen anova $\text{\textunderscore}$ lm. Input til denne er output fra to kald af estimationsfunktionen, nemlig output fra analyse af model $M_1$ og output fra analyse af model $M_2.$ Hvis vi betegner de to output med lmUD1 og lmUD2 bliver kaldet (bemærk, at lmUD2 står før lmUD1)

anova $\text{\textunderscore}$ lm(lmUD2,lmUD1)

I tilfældet med model $M_2$ fra (8.2.1), hvor alle observationerne har samme middelværdi, foregår analysen med modelformlen 'x~1'. Brugen af anova $\text{\textunderscore}$ lm er vist i eksemplet nedenfor.

Output fra anova $\text{\textunderscore}$ lm er en Testtabel. Denne har 2 rækker og 7 søjler. Strukturen er som følger.

$\begin{array}{rrrrrrr} \hline & \text{df\textunderscore resid} & \text{ssr} & \text{df\textunderscore diff} & \text{ss\textunderscore diff} & \text{F} & \text{Pr(>F)} \\ \hline 0 & - & - & & & & \\ 1 & - & - & - & - & - & -\\ \hline \end{array}$ Søjlen ssr indeholder $\mathit{SSD}(M)$ for de to modeller, og df $\text{\textunderscore}$ resid de tilhørende frihedsgrader. Til beregning af $F$ -testet skal vi bruge $s^2(M_1,M_2),$ som fremkommer som $\text{ss\textunderscore diff}/\text{df\textunderscore diff},$ hvor df $\text{\textunderscore}$ diff kan beregnes som differensen mellem de to værdier under df $\text{\textunderscore}$ resid, og ss $\text{\textunderscore}$ diff kan beregnes som differensen mellem de to værdier under ssr (dette beskrives nøjere i afsnit 8.7). Søjlen $F$ indeholder $F$ -teststørrelsen $s^2(M_1,M_2)/s^2(M_1),$ og søjlen Pr(>F) angiver den tilhørende $p$ -værdi beregnet fra en $F$ -fordeling med df $\text{\textunderscore}$ diff frihedsgrader i tælleren og den anden indgang i df $\text{\textunderscore}$ resid som frihedsgrader i nævneren.

8.4.2 Analyse af data omkring metoder til håndvask

For datasættet beskrevet i starten af afsnit 8.2 lader vi $\mathit{bakt}_i$ være bakterietallet for den $i$ 'te måling og lader $\mathit{metode}_i$ være den tilhørende metode til håndvask. Vi betragter Statistisk Model 8.2.3, her skrevet som

$\text{Bakt}_i\sim N\big(\mu_{\text{metode}_i},\sigma^2\big),\enspace i=1,\ldots,32,$ hvor middelværdiparametrene og $\sigma^2$ kan variere frit. Kør følgende kode for at få lavet en parametertabel for modellen.

8.4.1 Parametertabel i ensidet variansanalyse

Se opstartskoden (til/fra)

Eftersom niveauet "antibakspray" kommer først i en leksikografisk ordning, er Intercept i parametertabellen $\hat\mu_{\text{antibakspray}}=37.50.$ Skønnet over forskellen mellem at bruge antibakteriel sæbe (antisaebe) og antibakteriel spray er $\hat\mu_{\text{antisaebe}}-\hat\mu_{\text{antibakspray}}=55.00,$ som står i rækken "metode[T.antisaebe]". I samme række ses, at $p$ -værdien er 0.0067 for et $t$ -test af, at forskellen i middelværdi er nul (de to middelværdier er ens). Da $p$ -værdien er langt under 0.05, tyder data altså på en forskel i de to metoder til håndvask. Vi kan også fra output se, at 95%-konfidensintervallet for forskel mellem de to middelværdier er $[16.5,\,93.5].$ Dette er et bredt interval, hvilket afspejler, at der kun er 8 observationer i hver gruppe og spredningen i bakterietallet fra dag til dag er stort: skønnet over spredningen er $s(M_1)=37.55=\sqrt{1410.1}.$

Parametertabellen indeholder tre $t$ -test for forskel i middelværdier. Hvis nu de tre $p$ -værdier alle havde været 0.06, skulle vi så konkludere, at data ikke strider mod at alle fire middelværdier er ens ? Svaret er nej, for eksempel kunne $\hat\mu_2$ ligge over $\hat\mu_1$ og $\hat\mu_3$ kunne ligge under $\hat\mu_1,$ og så ville data tyde på en forskel mellem $\mu_2$ og $\mu_3.$ For at teste hypotesen om ens middelværdier

$\mu_{\text{antibakspray}}=\mu_{\text{antisaebe}} =\mu_{\text{saebe}}=\mu_{\text{vand}},$ benyttes kommandoen anova $\text{\textunderscore}$ lm som vist i den følgende kode.

8.4.2 Teste middelværdier ens med anova-funktion

Se opstartskoden (til/fra)

Genfind $F$ -teststørrelsen og $p$ -værdien fra afsnit 8.3 i testtabellen. Beregn også $s^2(M_1)$ ud fra tallene i testtabellen.

Test dig selv

Betragt igen analysen af modellen, hvor hver gruppe har sin egen middelværdi.

Beregn ud fra parametertabellen skøn over de fire middelværdier. Kør så koden igen, hvor du tilføjer "-1" lige efter "metode" i modelformlen for at kontrollere dine beregninger.

Hvis vi gerne vil se forskellen mellem at bruge enten sæbe eller at bruge antibakteriel sæbe, tilføjer vi kommandoen metode=pd.Categorical(metode,categories=["saebe","vand","antisaebe","antibakspray"]) lige efter linjen, hvor metode indskrives, således at "saebe" bliver brugt som Intercept i modelformlen 'bakt~metode'. Prøv dette. Er den antibakterielle sæbe bedre end almindelig sæbe ?

Svar: Bedre sæbe

Fra parametertabellen i output under indgangen metodeantisaebe ses, at skøn over forskellen $\mu_{\text{antisaebe}}-\mu_{\text{saebe}}$ er -13.5, og et $t$ -test, for hypotesen at denne forskel er nul, giver en $p$ -værdi på 0.48. Den observerede forskel er derfor ikke stor nok, til at vi kan påvise en forskel i middelværdi.

Foregående Næste