Afsnit 1.4: Statistisk beslutningsregel

Jeg har nu indført $p$ -værdien i et statistisk test af en hypotese. $P$ -værdien måler sandsynligheden for at få en observation ved gentagelse af eksperimentet, der afviger mere fra det forventede end den oprindelige observation.

Test dig selv: $p$-værdi

Quiz

Vælg de udsagn nedenfor du synes er mest korrekte.

Hvis $p$ -værdien er over 50%, accepterer jeg hypotesen, og hvis den er under 50%, forkaster jeg hypotesen.

Hvis $p$ -værdien er over 5%, forkaster jeg hypotesen, og hvis den er under 5%, accepterer jeg hypotesen.

Hvis $p$ -værdien for en observation $x_1$ er større end $p$ -værdien for en observation $x_2$ har jeg mest tiltro til hypotesen ved observationen $x_1.$

Hvis $p$ -værdien er over 5%, accepterer jeg hypotesen, og hvis den er under 5%, forkaster jeg hypotesen.

Hvis $p$ -værdien for en observation $x$ er stor, betyder dette, at det er nemt at få noget, der afviger mere fra det forventede end observationen $x.$ Dette betyder, at $x$ ligger tæt på det forventede, og vi siger, at data ikke strider mod hypotesen. Omvendt, hvis $p$ -værdien er lille, betyder dette, at observationen $x$ ligger langt fra det forventede, og vi siger, at data strider mod hypotesen. Spørgsmålet er, hvor man skal lægge grænsen ? Der er ikke noget "korrekt" svar på dette. I dette kursus bruges en grænse på 0.05 (5 procent). Dette er en grænse, der bruges meget ofte, men der kan også være situationer, hvor man vil benytte en lavere grænse. Hvis, for eksempel, man tester en ny medicin, så vil man gerne være meget sikker på, at den nye medicin virker bedre, inden man skifter over til denne. Generelt kan man sige, at det er vigtigere at angive $p$ -værdien end blot at angive, om denne er over eller under 0.05.

Her er en generel formulering af 5%-reglen.

Resultat 1.4.1. (Statistiske beslutningsregel)

Hvis $p$ -værdien for et test er mindre end 0.05, siger vi, at data strider mod hypotesen, eller at vi forkaster hypotesen. Omvendt, hvis $p$ -værdien for et test er større end 0.05, siger vi, at data ikke strider mod hypotesen, eller at vi accepterer hypotesen.

Man vil også ofte se sprogbrugen, at hvis man har lavet et test og fået en $p$ -værdi mindre en 0.05, siger man, at den egenskab man tester for er signifikant. Måske studser I over sprogbrugen et test, men dette er en fagterm inden for statistikfaget. Et test refererer til processen at lave en teststørrelse og vurdere denne gennem en $p$ -værdi.

1.4.1 Type I og II fejl og styrke

Et statistisk test kan formelt beskrives som en procedure, der ud fra data enten accepterer eller forkaster en hypotese. Dette giver anledning til to typer fejl. Type I fejl er når vi forkaster en sand hypotese, og type II fejl er når vi accepterer en falsk hypotese. På skemaform er det som følger,

$\begin{array}{|l|c|c|} \hline & \text{Hypotese er sand} & \text{Hypotese er falsk} \\ \hline \text{Data: forkaster hypotese} & \text{Fejl af type I} & \\ \hline \text{Data: accepterer hypotese} & & \text{Fejl af type II} \\ \hline \end{array}$ For et test, hvor vi forkaster, hvis $p$ -værdien er mindre end eller lig med 0.05, gælder der

$\text{sandsynlighed for en fejl af type I }\leq 0.05.$ Hvis den teststørrelse, der bruges i testet, kan antage alle mulige værdier (ikke blot heltallige værdier), vil der gælde lighedstegn i ovenstående udsagn.

Hvis hypotesen vi tester ikke er sand, vil vi gerne opdage dette med vores test. Man taler ofte om styrken af et test, som er sandsynligheden for at forkaste hypotesen beregnet under et alternativ til hypotesen (dette er også 1 minus sandynligheden for fejl af type II). Styrken afhænger af den alternative værdi af parameteren og vises ofte som en kurve. For test af andel i binomialmodellen, hvor vi tester $p=p_0$ , er styrken sandsynligheden for at få et udfald, hvor den tilhørende $p$ -værdi er mindre end eller lig med 0.05, udregnet når den sande værdi af $p$ er forskellig fra $p_0$ .

I kodevinduet nedenfor beregnes styrken for test i binomialmodellen beskrevet i resultat 1.3.3. Styrken vises som funktion af alternativet $p$ for fast værdi af antalsværdien $n$ . Bemærk, at styrken er cirka 0.05, når $p$ er lig med $p_0$ , hvor styrken er sandsynligheden for fejl af type I. Leg med koden og værdien af $n,$ således at styrken for at teste $p=0.6$ er mindst 0.80, når den sande værdi af $p$ er 0.75.

Foregående Næste