Afsnit 8.5: Tosidet variansanalyse

I kræftbehandling forsøger man at finde medicin, der kan forhindre, at kræftcellerne spreder sig. Et middel der anvendes er ponatinib, som omtales som en multi-kinase inhibitor.

Problemet med denne type behandling er, at medicinen også påvirker almindelige raske celler. I artiklen Development of a cobalt(III)-based ponatinib prodrug system undersøges en mulighed for at forbinde ponatinib med et prodrug. Ideen er, at prodrug kan transportere ponatinib til kræftcellerne og først udløse medicinen der. Data, vi vil se på, er for to prodrugsystemer (Co(acac)2LPon og Co(Meacac)2LPon) og skal vise stabiliteten af disse ved at måle, hvor meget der optages (måles som LPon-associated fluorescence (a.u.)) på 5 forskellige tidspunkter. I dette afsnit vil jeg kun sammenligne de to prodrugsystemer, men figuren nedenfor, som er en simplificeret version af figur 7 i artiklen, viser også de tilsvarende målinger for ponatinib, og det afledede stof $\text{L}_{\text{Pon}}$ , uden et prodrugsystem. Højre del af figur er uden prodrug, og man kan se, at medicinen optages hurtigt og i meget større mængde end under brug af et prodrugsystem, som vist i venstre del af figur.

Data, vi vil betragte, er simulerede ud fra informationen i figur 7 i artiklen (således at gennemsnit og empiriske spredninger stemmer overens). Figur 7 i artiklen tyder på, at spredning skalerer med middelværdi, hvorfor data er simulerede således, at logaritmen er normalfordelt, og i analysen vil vi betragte logaritmen til målingerne (logFlu). For hver kombination af prodrugsystem (faktoren prodrug) og tidspunkt (faktoren tid) er der 5 målinger.

I kodevinduet nedenfor laves en figur med boxplot for alle 10 grupper svarende til kombination af de to prodrugsystemer og de 5 tidspunkter. De to systemer kodes som "a" og "M", og de 5 tidspunkter, 1, 6, 12, 16 og 24 timer, kodes som "T1", "T2", "T3", "T4" og "T5". Da der kun er 5 observationer i hver gruppe, er boxplottet blot en repræsentation af disse 5 værdier. Med kun 5 observationer i hver gruppe giver det ikke mening at lave qqplot for hver gruppe. Den figur der dannes peger på forskel i middelværdierne mellem grupperne, men muligvis ikke på forskel i varianserne.

8.5.1 Boxplot opdelt efter to faktorer

Se opstartskoden (til/fra)

Jeg vil nu beskrive den tosidede variansanalysemodel generelt. Data består af målinger fra $n$ uafhængige stokastiske variable $X_1,\ldots,X_n.$ Disse inddeles i grupper ved hjælp af to faktorer $G=(G_1,\ldots,G_n)$ og $H=(H_1,\ldots,H_n).$ Vi starter med en model, hvor både middelværdi og varians afhænger af, hvilken af de $k\cdot m$ grupper observationen tilhører. For nemheds skyld betegnes niveauerne i de to faktorer blot med tal.

Statistisk Model 8.5.2. (Grundlæggende tofaktor gruppemodel)

$X_{i}\sim N(\mu_{G_i,H_i},\sigma_{G_i,H_i}^2),\enspace i=1,\ldots,n,\enspace (\mu_{11},\ldots,\mu_{km},\sigma_{11},\ldots,\sigma_{km}) \in \mathbf{R}^{k\cdot m}\times \mathbf{R}^{k\cdot m}_+.$

Når vi reducerer til modellen, hvor alle grupperne har den samme varians, kaldes dette den tosidede variansanalysemodel.

Statistisk Model 8.5.3. (Tosidet variansanalysemodel (twoway anova))

Vi betragter uafhængige stokastiske variable $X_1,\ldots,X_n,$ der deles ind i grupper efter en faktor $G$ med faktorniveauerne $1,2,\ldots,k$ og en faktor $H$ med niveauerne $1,2,\ldots,m.$ Hver gruppe har sin egen middelværdi og alle grupperne har samme varians,

$X_{i}\sim N(\mu_{G_i,H_i},\sigma^2),\enspace i=1,\ldots,n,\enspace (\mu_{11},\ldots,\mu_{km},\sigma) \in \mathbf{R}^{k\cdot m}\times \mathbf{R}_+.$

Den tosidede variansanalysemodel har en meget vigtig undermodel kaldet den additive model. Modellen er vigtig, da den giver mulighed for simple fortolkninger af de parametre, der indgår, hvilket beskrives detaljeret i næste afsnit.

Statistisk Model 8.5.4. (Additive model)

Vi betragter uafhængige stokastiske variable $X_1,\ldots,X_n,$ der deles ind i grupper efter en faktor $G$ med faktorniveauerne $1,2,\ldots,k$ og en faktor $H$ med niveauerne $1,2,\ldots,m.$ Middelværdien i den additive model kan skrives som et bidrag fra faktor $G$ $(\zeta_1,\ldots,\zeta_k)$ plus et bidrag fra faktor $H$ $(\eta_1,\ldots,\eta_m),$

$X_{i}\sim N(\zeta_{G_i}+\eta_{H_i},\sigma^2),\enspace i=1,\ldots,n,\enspace (\zeta_{1},\ldots,\zeta_{k},\eta_1,\ldots,\eta_m,\sigma) \in \mathbf{R}^{k+m}\times \mathbf{R}_+.$ Modellen har $d(M)=k+m-1$ frie parametre i middelværdispecifikatioen.

Fra den additive model kan vi prøve at reducere modellen til en model, hvor middelværdien kun har et bidrag fra faktoren $G$ (eller kun har et bidrag fra faktoren $H$ ). Dette fører os tilbage til den ensidede variansanalysemodel 8.2.3.

For at få en fornemmelse af om data kan beskrives med den additive model, kan man lave et interaktionsplot. Den indbyggede funktion i python er lidt mangelfuld på dette punkt, så i stedet anbefaler jeg en funktion additivitetsPlot, som findes i filen pytFunktioner.py.

I et interaktionsplot beregner man gennemsnit i alle grupperne givet ved opdeling efter $G*H.$ Gennemsnit afsættes mod niveauerne for den ene faktor, og alle gennemsnit, der ligger på det samme niveau af den anden faktor, forbindes. Hvis data kan beskrives med model $M_2$ ovenfor, afspejler gennemsnittene i figuren altså $\zeta_u+\eta_v$ afsat mod for eksempel $u=1,\ldots,k,$ og punkterne med samme værdi af $v$ forbindes. De kurver, der fremkommer, svarer altså til kurven $(u,\zeta_u),$ der parallelforskydes med værdierne fra $\eta_v.$ I et interaktionsplot prøver vi derfor at vurdere, om kurverne ser ud til at være parallelle.

8.5.5 Interaktionsplot

I det følgende kodevindue vises interaktionsplots baseret på den indbyggede funktion interaction $\text{\textunderscore}$ plot i python. Måden denne funktion kaldes på, fremgår af den følgende tabel.

$\begin{array}{rl} \text{Python:} & \text{from statsmodels.graphics.factorplots import interaction\textunderscore plot} \\ & \text{interaction\textunderscore plot(inddel1,inddel2,respons)} \\ & \\ \text{Alternativ:} & \text{additivitetsPlot(inddel1,inddel2,respons)} \end{array}$ De to variable inddel1 og inddel2 bruges til at dele værdierne i variablen respons op i undergrupper. Når I kører et program på jeres egen computer, kan I eventuelt bruge den hjemmelavede funktion additivitetsPlot. Denne laver en tilsvarende figur, men tilføjer også errorbars svarende til plusminus standard error for gennemsnittet. Funktionen ligger i filen pytFunktioner.py.

Se opstartskoden (til/fra)

Begge figurer viser approksimative parallelle kurver, hvilket tyder på, at data kan beskrives med den additive model.

Foregående Næste