Afsnit 3.4: Goodness of fit test

Vi skal nu bruge det generelle $G$ -test i multinomialmodellen til at teste, at indsamlede data $x_1,x_2,\ldots,x_n$ følger en bestemt fordeling. Dette går under navnet Goodness of fit test.

Ideen er, at talaksen deles op i en række intervaller, lad os sige $k$ intervaller,

$(-\infty,z_1],\enspace (z_1,z_2],\enspace\cdots,\enspace (z_{k-2},z_{k-1}],\enspace (z_{k-1},\infty),$ hvorefter der tælles op, hvor mange af observationerne $x_1,\ldots,x_n$ der ligger i de forskellige intervaller

$a_j=\text{\{antal }x_i\text{-er, der ligger i intervallet (}z_{j-1},z_j]\text{\}},\enspace j=1,\ldots,k,$ (her bruger vi $z_0=-\infty$ og $z_{k}=\infty$ , og intervallet $(a,b]$ går fra $a$ til $b$ med $b$ ,men ikke $a$ , indeholdt i intervallet). Dette svarer til, at de $n$ observationer er fordelt på $k$ kasser, og de tilhørende stokastiske variable for antallene er derfor multinomialfordelt,

$(A_1,\ldots,A_k)\sim\text{multinom}(n,(\pi_1,\ldots,\pi_k)).$ På grund af den måde data er indsamlet på, kan vi skrive

$\pi_j=P(z_{j-1}< X\leq z_j),\enspace j=1,\ldots,k.$ I modellen $M_0$ er disse sandsynligheder vilkårlige:

$M_0:\quad \pi_j\geq 0,\enspace\sum_j\pi_j=1.$ Vi ønsker at teste, at $X$ har en bestemt fordeling, der eventuelt afhænger af en parameter $\theta,$ der kan variere i området $\Theta.$ For at formulere dette betegnes fordelingsfunktionen (sandsynligheden for at ligge til venstre for et punkt) med $F(x,\theta).$ Vi kan nu formulere en ny model, eller specificere en hypotese, ved

$M_1:\quad \pi_j=F(z_j,\theta)-F(z_{j-1},\theta),\enspace j=1,\ldots,k,\enspace\theta\in\Theta.$ Her skal $F(-\infty,\theta)$ tolkes som 0, og $F(\infty,\theta)$ skal tolkes som 1. Situationen her svarer til det generelle $G$ -test med hypotesen $p_j(\theta)=F(z_j,\theta)-F(z_{j-1},\theta),$ se ligning (3.3.2). Når skøn $\hat\theta$ over $\theta$ er fundet, bliver de forventede antal

$e_j=n\big(F(z_j,\hat\theta)-F(z_{j-1},\hat\theta)\big),\enspace j=1,\ldots,k.$ For at bruge Resultat 3.3.1 skal man have, at alle de forventede er større end eller lig med 5. Hvis dette ikke er opfyldt, gør man traditionelt det, at man slår kasser sammen for at få kravet opfyldt.

3.4.1 Histogram

Typisk vil man, inden man laver et goodness of fit test, lave en grafisk fremstilling af data i form af et histogram. Histogrammet giver en repræsentation af, hvordan et datasæt $x_1,x_2,\ldots,x_n$ fordeler sig. I et antalshistogram er højden af en søjle antallet af observationer, der ligger inden for det interval søjlen dækker.

Mere præcist dannes et histogram ved at dele talaksen op i intervaller $(z_0,z_1],(z_1,z_2],\ldots,(z_{k-1},z_k],$ antallet $a_j$ af $x_i$ -er med en værdi i det $j$ 'te interval tælles op, og i histogrammet laves en søjle med højde $a_j,$ der dækker det $j$ 'te interval $(z_{j-1},z_j].$ Bemærk, at intervallerne indeholder det højre endepunkt, men ikke det venstre.

I et tæthedshistogram er højden af den $j$ 'te søjle ikke længere $a_j,$ men derimod $a_j/(n(z_j-z_{j-1})).$ Her er $a_j/n$ den observerede frekvens i det $j$ 'te interval, og $(a_j/n)/(z_j-z_{j-1})$ er frekvens per længde. Dette kan vi tænke på som skøn over tæthed, idet en tæthed tolkes som sandsynlighed per længde.

I R får man lavet et histogram med kommandoen hist. Hvis $x$ er en vektor med data, giver hist(x) et antalhistogram, hvor R selv vælger inddelingen af talaksen i intervaller. Hvis endePkt er en vektor med intervalendepunkter $z_0,z_1,\ldots,z_k,$ giver hist(x,breaks=endePkt) et histogram med intervalinddeling givet ved endePkt. Et tæthedshistogram fås med kommandoen hist(x,probability=TRUE). For at få antallene i de forskellige intervaller kan man benytte kommandoen Antal=hist(x) $\text{\textdollar}$ counts, hvor antallene så bliver placeret i vektoren Antal.

Indbygget i R er et datasæt rivers, som giver længden (målt i miles) for 141 af de store floder i Nordamerika. I kommandovinduet nedenfor laves et histogram af disse data.

Prøv i stedet at lave et histogram af logaritmen til længden af floderne. Prøv dernæst for de logaritmetransformerede data at lave en intervalinddeling startende i 4 og med intervallængden 0.25. Find antallet af floder i de forskellige intervaller.

Svar: Histogram

Histogram af de logaritmetransformerede data fås med kommandoen hist(log(rivers)). Histogram med intervallængde 0.25 fås med kommandoen hist(log(rivers),breaks=4+0.25*c(0:20)). Endelig fås antallene med kommandoen

antal=hist(log(rivers),breaks=4+0.25*c(0:20)) $\text{\textdollar}$ counts

Foregående Næste