Afsnit 1.4: Goodness of fit test

Vi skal nu bruge det generelle $G$ -test i multinomialmodellen til at teste, at indsamlede data $x_1,x_2,\ldots,x_n$ følger en bestemt fordeling. Dette går under navnet Goodness of fit test.

Ideen er, at talaksen deles op i en række intervaller, lad os sige $k$ intervaller,

$(-\infty,z_1],\enspace (z_1,z_2],\enspace\cdots,\enspace (z_{k-2},z_{k-1}],\enspace (z_{k-1},\infty),$ hvorefter der tælles op, hvor mange af observationerne $x_1,\ldots,x_n$ der ligger i de forskellige intervaller

$a_j=\text{\{antal }x_i\text{-er, der ligger i intervallet (}z_{j-1},z_j]\text{\}},\enspace j=1,\ldots,k,$ (her bruger vi $z_0=-\infty$ og $z_{k}=\infty$ , og intervallet $(a,b]$ går fra $a$ til $b$ med $b$ ,men ikke $a$ , indeholdt i intervallet). Dette svarer til, at de $n$ observationer er fordelt på $k$ kasser, og de tilhørende stokastiske variable for antallene er derfor multinomialfordelt,

$(A_1,\ldots,A_k)\sim\text{multinom}(n,(\pi_1,\ldots,\pi_k)).$ På grund af den måde data er indsamlet på, kan vi skrive

$\pi_j=P(z_{j-1}< X\leq z_j),\enspace j=1,\ldots,k.$ I modellen $M_0$ er disse sandsynligheder vilkårlige:

$M_0:\quad \pi_j\geq 0,\enspace\sum_j\pi_j=1.$ Vi ønsker at teste, at $X$ har en bestemt fordeling, der eventuelt afhænger af en parameter $\theta,$ der kan variere i området $\Theta.$ For at formulere dette betegnes fordelingsfunktionen (sandsynligheden for at ligge til venstre for et punkt) med $F(x,\theta).$ Vi kan nu formulere en ny model, eller specificere en hypotese, ved

$M_1:\quad \pi_j=F(z_j,\theta)-F(z_{j-1},\theta),\enspace j=1,\ldots,k,\enspace\theta\in\Theta.$ Her skal $F(-\infty,\theta)$ erstattes af 0, og $F(\infty,\theta)$ skal erstattes af 1. Situationen her svarer til det generelle $G$ -test med hypotesen $p_j(\theta)=F(z_j,\theta)-F(z_{j-1},\theta),$ se ligning (1.3.2). Når skøn $\hat\theta$ over $\theta$ er fundet, bliver de forventede antal

$e_j=n\big(F(z_j,\hat\theta)-F(z_{j-1},\hat\theta)\big),\enspace j=1,\ldots,k.$ For at bruge Resultat 1.3.1 skal man have, at alle de forventede er større end eller lig med 5. Hvis dette ikke er opfyldt, gør man traditionelt det, at man slår kasser sammen for at få kravet opfyldt.

Typisk vil man, når man laver et goodness of fit test, lave en grafisk fremstilling af data i form af et histogram, og i dette histogram indtegne tætheden for den fordeling, der undersøges.

1.4.1 Opgave med besvarelse: vindhastigheder

Data i denne opgave består af den daglige middelvind i Tirstrup gennem hele 2019. Data er hentet hos Iowa Environmental Mesonet, og de daglige middelvinde er givet i kilometer per time. Et tæthedshistogram er vist i nedenstående figur, og data er indskrevet i kodevinduet nedenfor.

Data af denne type beskrives ofte med weibullfordelingen, og i opgaven her skal der laves et goodness of fit test for, om weibullfordelingen beskriver data. Hvis den stokastiske variabel $X$ er weibullfordelt, gælder der

$P(X>x)=e^{-(x/\lambda)^\alpha},\quad x\geq 0,$ hvor $\alpha$ kaldes en formparameter og $\lambda$ en skalaparameter. Tæthedsfunktionen og fordelingsfunktionen for en weibullfordeling beregnes i R med kommandoerne dweibull(x, $\alpha$ , $\lambda$ ) og pweibull(x, $\alpha$ , $\lambda$ ). Til at lave goodness of fit testet skal der benyttes en intervalinddeling med intervaller af længde 3 startende i nul. Desuden skal der bruges, at maksimum likelihood skønnene baseret på antallene i de forskellige intervaller er $\hat\alpha=3.8851$ og $\hat\lambda=36.1116.$

Idet den største værdi i data er 54, laver vi intervalinddelingen $(0,3],(3,6],\ldots,(48,51],(51,\infty).$ Antallene i de forskellige intervaller betegnes $(a_1,\ldots,a_{18})$ og findes i R med kommandoen hist(vind,breaks=c(0:18)*3) $\text{\textdollar}$ counts. For de tilhørende stokastiske variable vælges modellen

$(A_1,\ldots,A_{18})\sim\text{multinom}(365,(\pi_1,\ldots,\pi_{18})), \quad \pi_j\geq 0,\enspace\sum_j\pi_j=1.$ Vi ønsker at teste hypotesen

$\begin{aligned} \pi_j& =F(3j,\alpha,\lambda)-F(3(j-1),\alpha,\lambda),\quad j=1,\ldots,17, \\ \pi_{18}&=1-F(51,\alpha,\lambda),\quad \alpha,\lambda>0, \end{aligned}$ hvor $F(x,\alpha,\lambda)$ er fordelingsfunktionen for en weibullfordeling. Fra opgaveformuleringen vides, at skønnene over de ukendte parametre er $\hat\alpha=3.8851$ og $\hat\lambda=36.1116.$ De forventede kan derfor beregnes som

$\begin{aligned} e_j&=365\cdot \big( F(3j,3.8851,36.1116)-F(3(j-1),3.8851,36.1116)\big), \quad j=1,\ldots,17, \\ e_{18}&=1-F(51,3.8851,36.1116). \end{aligned}$ Fra R-beregningen får vi de observerede (første række) og forventede (anden række):

  0   0   0   1   9   12   22   26   37   45   37   38   36   35   33   15  13   6
0.0 0.3 1.3 3.4 6.8 11.8 18.2 25.7 33.3 39.8 44.0 44.5 41.1 34.3 25.7 17.0 9.8 8.0

For at få alle de forventede større end eller lig med 5 slås de fire første kasser sammen. Dette giver det observerede antal 1 og det forventede antal 5.02. Efter denne sammenlægning er der 15 kasser, hvorfor antallet af frihedsgrader i $\chi^2$ -fordelingen bliver 15-1-2=12, idet vi under hypotesen har to frie parametre ( $\alpha$ og $\lambda$ ). $G$ -teststørrelsen for vores hypotese beregnes fra formlen $G=2\sum_j\tilde a_j\log(\tilde a_j/\tilde e_j),$ hvor $\tilde a_j$ og $\tilde e_j$ er de observerede og forventede, efter at kasser er slået sammen. Beregningen i R viser, at $G=13.72,$ og den tilhørende $p$ -værdi er $P(G\geq 13.72)=1-\chi^2_{\text{cdf}}(13.72,12)=0.32.$ Da $p$ -værdien ligger langt over 0.05, strider data ikke mod hypotesen om, at de daglige middelvinde er weibullfordelt.

I R-kørslen nedenfor har jeg også indtegnet weibulltætheden i histogrammet. Desuden binder jeg de forskellige dele af output sammen ved at bruge R-kommandoen list.

1.4.1 Beregning i R af goodness of fit

I R-kørslen nedenfor har jeg også indtegnet weibulltætheden i histogrammet. Desuden binder jeg de forskellige dele af output sammen ved at bruge R-kommandoen list.

Se opstartskoden (til/fra)

Simulere fordeling af G-teststørrelsen

For at illustrere $\chi^2$ -approksimationen til fordelingen af $G$ simuleres i kodevinduet nedenfor poissonfordelte data, og der laves et goodness of fit test for, at data er poissonfordelt. I den kode der vises, simuleres $n=100$ observationer fra en poissonfordeling med parameter $\lambda=2$ . For goodness of fit testet deles op i 5 kasser svarende til de mulige værdier $0,1,2,3$ og værdier større end eller lig med 4. Valget af de 5 kasser sikrer, at der er meget lille sandsynlighed for at få et forventet antal mindre end eller lig med 5.

Kør koden. Erstat "c()" med kode for at beregne et 95%-konfidensinterval for sandsynligheden for, at $G$ er større end 95%-fraktilen i en $\chi^2(3)$ -fordeling.

Svar: Konfidensinterval

Konfidensintervallet kan beregnes med kommandoen

prop.test(sum(gTest>=qchisq(0.95,3)),nSim) $\text{{\textdollar}}$ conf.int.

Foregående Næste