Afsnit 3.4: Goodness of fit test

Vi skal nu bruge det generelle $G$ -test i multinomialmodellen til at teste, at indsamlede data $x_1,x_2,\ldots,x_n$ følger en bestemt fordeling. Dette går under navnet Goodness of fit test.

Ideen er, at talaksen deles op i en række intervaller, lad os sige $k$ intervaller,

$(-\infty,z_1],\enspace (z_1,z_2],\enspace\cdots,\enspace (z_{k-2},z_{k-1}],\enspace (z_{k-1},\infty),$ hvorefter der tælles op, hvor mange af observationerne $x_1,\ldots,x_n$ der ligger i de forskellige intervaller

$a_j=\text{\{antal }x_i\text{-er, der ligger i intervallet (}z_{j-1},z_j]\text{\}},\enspace j=1,\ldots,k,$ (her bruger vi $z_0=-\infty$ og $z_{k}=\infty$ , og intervallet $(a,b]$ går fra $a$ til $b$ med $b$ ,men ikke $a$ , indeholdt i intervallet). Dette svarer til, at de $n$ observationer er fordelt på $k$ kasser, og de tilhørende stokastiske variable for antallene er derfor multinomialfordelt,

$(A_1,\ldots,A_k)\sim\text{multinom}(n,(\pi_1,\ldots,\pi_k)).$ På grund af den måde data er indsamlet på, kan vi skrive

$\pi_j=P(z_{j-1}< X\leq z_j),\enspace j=1,\ldots,k.$ I modellen $M_0$ er disse sandsynligheder vilkårlige:

$M_0:\quad \pi_j\geq 0,\enspace\sum_j\pi_j=1.$ Vi ønsker at teste, at $X$ har en bestemt fordeling, der eventuelt afhænger af en parameter $\theta,$ der kan variere i området $\Theta.$ For at formulere dette betegnes fordelingsfunktionen (sandsynligheden for at ligge til venstre for et punkt) med $F(x,\theta).$ Vi kan nu formulere en ny model, eller specificere en hypotese, ved

$M_1:\quad \pi_j=F(z_j,\theta)-F(z_{j-1},\theta),\enspace j=1,\ldots,k,\enspace\theta\in\Theta.$ Her skal $F(-\infty,\theta)$ erstattes af 0, og $F(\infty,\theta)$ skal erstattes af 1. Situationen her svarer til det generelle $G$ -test med hypotesen $p_j(\theta)=F(z_j,\theta)-F(z_{j-1},\theta),$ se ligning (3.3.2). Når skøn $\hat\theta$ over $\theta$ er fundet, bliver de forventede antal

$e_j=n\big(F(z_j,\hat\theta)-F(z_{j-1},\hat\theta)\big),\enspace j=1,\ldots,k.$ For at bruge Resultat 3.3.1 skal man have, at alle de forventede er større end eller lig med 5. Hvis dette ikke er opfyldt, gør man traditionelt det, at man slår kasser sammen for at få kravet opfyldt.

3.4.1 Histogram

Typisk vil man, inden man laver et goodness of fit test, lave en grafisk fremstilling af data i form af et histogram. Histogrammet giver en repræsentation af, hvordan et datasæt $x_1,x_2,\ldots,x_n$ fordeler sig. I et antalshistogram er højden af en søjle antallet af observationer, der ligger inden for det interval søjlen dækker.

Mere præcist dannes et histogram ved at dele talaksen op i intervaller med endepunkter $z_0,z_1,\ldots,z_k,$ antallet $a_j$ af $x_i$ -er med en værdi i det $j$ 'te interval tælles op, og i histogrammet laves en søjle med højde $a_j,$ der dækker det $j$ 'te interval fra $z_{j-1}$ til $z_j.$ I python indeholder intervallerne det venstre endepunkt, men ikke det højre (i statistisk litteratur er det omvendte mere typisk).

I et tæthedshistogram er højden af den $j$ 'te søjle ikke længere $a_j,$ men derimod $a_j/(n(z_j-z_{j-1})).$ Her er $a_j/n$ den observerede frekvens i det $j$ 'te interval, og $(a_j/n)/(z_j-z_{j-1})$ er frekvens per længde. Dette kan vi tænke på som skøn over tæthed, idet en tæthed tolkes som sandsynlighed per længde.

Den følgende tabel viser forskellige muligheder i python, hvor man i forvejen har kørt kommandoen import matplotlib.pyplot as plt. I tabellen er $x$ en vektor med dataværdierne, og endePkt er en vektor med selvvalgte endepunkter for intervallerne. Den første linje viser kaldet, hvor programmet vælger endepunkter, og den anden linje er udgaven, hvor vi selv vælger endepunkter. I den tredje linje laves et tæthedshistogram i stedet for et antalshistogram, og endelig viser den fjerde linje, hvordan vi kan få antallet af observationer i de forskellige intervaller placeret i en vektor antal.

$\begin{array}{l}\hline \text{plt.hist(x)} \\ \text{plt.hist(x,bins=endePkt)} \\ \text{plt.hist(x,bins=endePkt,density=True)} \\ \text{antal,bi,pa=hist(x,bins=endePkt)} \\ \hline \end{array}$

Indbygget i python er et datasæt rivers, som giver længden (målt i miles) for 141 af de store floder i Nordamerika. I kommandovinduet nedenfor laves et histogram af disse data.

Prøv i stedet at lave et histogram af logaritmen til længden af floderne. Prøv dernæst for de logaritmetransformerede data at lave en intervalinddeling startende i 4 og med intervallængden 0.25. Find antallet af floder i de forskellige intervaller.

Svar: Histogram

Histogram af de logaritmetransformerede data fås med kommandoen plt.hist(np.log(rivers)). Histogram med intervallængde 0.25 fås med kommandoen plt.hist(np.log(rivers),bins=4+0.25*np.arange(21)). Endelig fås antallene med kommandoen

antal,bi,pa=plt.hist(np.log(rivers),bins=4+0.25*np.arange(21))

Foregående Næste