Afsnit 7.1: Gruppespecifik regression

De fleste af jer har nok set reportager i nyhederne fra mudderskred rundt omkring i verdenen. For geologer er dette et af bidragene til sedimenttransport på skrånende flader. Det er forventeligt, at sedimenttransporten vil være større, jo større hældning en flade har, og geologerne formulerer dette som relationen

$\text{transportrate}=D\cdot\text{hældning}.$ Dette svarer lidt til en diffusionstypeligning. Det følgende billede viser et mudderskred i Virginia efter en orkan i 2004.

Jeg vil ikke her komme ind på, hvordan man estimerer en værdi af transportkoefficienten $D,$ men i stedet se på en undersøgelse, hvor man prøver at beskrive $D$ ud fra andre forhold såsom nedbørsmængde og jordforhold. I artiklen Influences of climate and life on hillslope sediment transport relateres data for $D$ til et tørhedsindeks (aridity index AI) og til overfladestuktur (lithology) delt op på de to kategorier unconsolidated og igneous/metamorphic. Tørhedsindekset beregnes som gennemsnitlig årsnedbør divideret med et gennemsnitligt potentiel årsfordampningstal. Et tørhedsindeks på 1 svarer derfor til en form for "ligevægt" mellem nedbør og fordampning. Løseligt sagt, jo større tørhedsindeks jo mere vand er der til rådighed til sedimenttransport. Figuren nedenfor viser logaritmen til transportkoefficienten tegnet op mod logaritmen til tørhedsindekset for 102 områder delt op på 37 unconsolidated og 65 igneous/metamorphic. Vi vil betragte en model, hvor der for hver af de to overfladegrupper er en lineær sammenhæng mellem $\log(D)$ og $\log(\mathit{AI}),$ og benytte denne model til at undersøge eventuelle forskelle mellem de to grupper.

Her følger først en grundmodel, hvor hver gruppe bestemt af en faktor har sin egen lineære sammenhæng og sin egen varians. I eksemplet ovenfor vil faktoren kode for de tre hæmmere INH1, INH2 og INH3.

Statistisk Model 7.1.1. (Gruppebestemt regression og varians)

Vi betragter $n$ uafhængige stokastiske variable $X_1,\ldots,X_n,$ en forklarende variabel $t=(t_1,\ldots,t_n)$ og en faktor $G,$ der inddeler data i $k$ grupper (som her betegnes med tallene $1,\ldots,k$ ). Modellen, vi vil analysere, er

$X_i\sim N(\alpha_{G_i}+\beta_{G_i}t_i,\sigma_{G_i}^2), \enspace i=1,\ldots,n,\enspace (\alpha_1,\ldots,\alpha_k,\beta_1,\ldots,\beta_k,\sigma_1,\ldots,\sigma_k)\in \mathbf{R}^{2k}\times \mathbf{R}_+^k.$

Når vi forlanger, at der er samme varians i alle grupperne, får vi følgende model.

Statistisk Model 7.1.2. (Gruppespecifik regression)

$X_i\sim N(\alpha_{G_i}+\beta_{G_i}t_i,\sigma^2), \enspace i=1,\ldots,n,\enspace (\alpha_1,\ldots,\alpha_k,\beta_1,\ldots,\beta_k,\sigma)\in \mathbf{R}^{2k}\times \mathbf{R}_+.$ Vi vil også betragte følgende undermodeller af den gruppespecifikke regressionsmodel,

$\begin{aligned} \text{Gruppespecifik skæring}:\enspace & X_i\sim N(\alpha_{G_i}+\beta t_i,\sigma^2),\enspace (\alpha_1,\ldots,\alpha_k,\beta,\sigma)\in \mathbf{R}^{k+1}\times \mathbf{R}_+, \\ \text{Gruppespecifik hældning}:\enspace & X_i\sim N(\alpha+\beta_{G_i} t_i,\sigma^2),\enspace (\alpha,\beta_1,\ldots,\beta_k,\sigma)\in \mathbf{R}^{k+1}\times \mathbf{R}_+. \end{aligned}$

Den mest simple modelformel i R til analyse af model den gruppespecifikke regressionsmodel er $x\sim G*t.$ For at forstå den parametrisering, som R bruger, skal man vide, at R omskriver modelformlen til $x\sim G+t+G:t.$ Leddet $G$ giver den gruppebestemte skæring $\alpha_{G_i},$ og i overensstemmelse med den ensidede variansanalysemodel fra afsnit 4.4 bruges parametrene $\text{Intercept}=\alpha_1$ og forskellene $\alpha_g-\alpha_1,$ der betegnes Gg, $g=2,\ldots,k.$ Leddet $t$ giver regressionen for den første gruppe, det vil sige parameteren $\beta_1,$ og $G:t$ giver afvigelserne fra denne i de andre grupper, det vil sige $\beta_g-\beta_1,$ som betegnes G:t. Den følgende tabel giver alternative måder at skrive modelformlen på og de tilhørende parametriseringer i R. I tabellen er $M_1$ den gruppespecifikke regressionsmodel, $M_{2\alpha}$ er undermodellen med gruppespecifik skæring, $M_{2\beta}$ er undermodellen med gruppespecifik hældning, og $M_3$ modellen med fælles skæring og fælles hældning i alle grupperne.

$\begin{array}{lll} \text{Model} & \text{Modelformel} & \text{Parametre} \\ M_1 & G*t & (\alpha_1,\alpha_2-\alpha_1,\ldots,\alpha_k-\alpha_1, \beta_1,\beta_2-\beta_1,\ldots,\beta_k-\beta_1) \\ M_1 & G+t+G:t & (\alpha_1,\alpha_2-\alpha_1,\ldots,\alpha_k-\alpha_1, \beta_1,\beta_2-\beta_1,\ldots,\beta_k-\beta_1) \\ M_1 & G-1+G:t & (\alpha_1,\alpha_2,\ldots,\alpha_k, \beta_1,\beta_2,\ldots,\beta_k) \\ M_1 & G-1+t+G:t & (\alpha_1,\alpha_2,\ldots,\alpha_k, \beta_1,\beta_2-\beta_1,\ldots,\beta_k-\beta_1) \\ M_{2\alpha} & G+t & (\alpha_1,\alpha_2-\alpha_1,\ldots,\alpha_k-\alpha_1, \beta) \\ M_{2\alpha} & G-1+t & (\alpha_1,\alpha_2,\ldots,\alpha_k, \beta) \\ M_{2\beta} & t+G:t & (\alpha, \beta_1,\beta_2-\beta_1,\ldots,\beta_k-\beta_1) \\ M_{2\beta} & G:t & (\alpha,\beta_1,\beta_2,\ldots,\beta_k) \\ M_3 & t & (\alpha,\beta) \end{array}$ Blandt de to undermodeller af den gruppespecifikke regressionsmodel 7.1.2 er modellen med gruppespecifik skæring den vigtigste. Når $E(X_i)=\alpha_{G_i}+\beta t_i,$ har vi en "additiv struktur" af $G$ og $t$ : uanset hvilken undergruppe der betragtes, er forskellen i middelværdier mellem to værdier af den forklarende variabel $t$ den samme, og uanset hvilken værdi af den forklarende variabel der betragtes, er forskellen mellem to grupper den samme. Hvis man vil lave et $F$ -test for reduktion fra gruppespecifikke regressionsmodel til modellen med en gruppespecifik skæring bruges Resultat 6.7.1 med de to modelformler x $\sim$ G*t og x $\sim$ G+t. $P$ -værdien for dette test findes fra en $F(k-1,n-2k)$ -fordeling.

Foregående Næste