Når for eksempel fysikere og kemikere laver eksperimenter, taler de ofte om systematiske fejl og tilfældige fejl. Hvis jeg måler min egen vægt på min gamle badevægt, aflæser jeg en ny værdi, hver gang jeg træder ned og dernæst op på vægten igen. Hvis jeg gør dette mange gange, kan jeg tage gennemsnit og dermed reducere usikkerheden fra de tilfældige fejl i målingen. Badevægten kan justeres med en skrue, og alt efter denne indstilling vil den aflæste vægt svinge omkring min sande vægt. Hvis badevægten er justeret forkert, taler vi om en systematisk fejl i målingen. Uanset hvor mange gentagne målinger jeg laver af min vægt, vil gennemsnittet ikke nærme sig min sande vægt.

Hvis jeg lader den stokastiske variabel

\hat V

repræsentere en vægtmåling, vil denne svinge omkring sin middelværdi

E(\hat V)

. Hvis badevægten er justeret forkert vil middelværdien være forskellig fra den sande værdi af vægten, som vi her kalder

V

. Forskellen mellem middelværdien og den sande værdi kaldes den systematiske fejl, som i statistik kaldes bias,

\text{systematisk fejl:}\enspace \text{bias} = E(\hat V)-V.

Den tilfældige fejl angiver, hvor meget

\hat V

varierer omkring sin middelværdi. Typisk beskriver vi dette med spredningen (std) på

\hat V

\text{tilfældig fejl:}\enspace \text{std}(\hat V) = \sqrt{\text{Var}(\hat V)}= \sqrt{E\big((\hat V-E(\hat V))^2\big)}.

Mean squared error

Den samlede forskel mellem målingen

\hat V

og den sande værdi

V

kan skrives som

\hat V-V=(\hat V-E(\hat V))+(E(\hat V)-V)= \hat V-E(\hat V)+\text{bias}.

Kvadrerer vi denne og tager middelværdi, får vi følgende alternative mål til varians og spredning

\begin{aligned} \text{MSE}(\hat V)& = E\big\{(\hat V-V)^2\big\} = \text{bias}^2+2\cdot\text{bias}\cdot E(\hat V-V)+\text{Var}(\hat V)= \text{bias}^2+\text{Var}(\hat V), \\ \text{RMSE}(V) & = \sqrt{\text{MSE}(\hat V)}, \end{aligned}

hvor MSE står for mean squared error og RMSE for root mean squared error. Når der i et eksperiment ikke er muligt at korrigere for en systematisk fejl, må denne indregnes i den tilfældige fejl, svarende til at bruge RMSE. Med dette i tankerne, og for ikke at gøre notationen for tung, vil jeg konsekvent bruge ordet spredning, selvom der eventuelt refereres til en RMSE.

Notationen for spredning er i denne bog std, som står for det engelske standard deviation. Dette er en egenskab (en parameter) ved fordelingen hørende til den stokastiske variabel, der betragtes. Når jeg laver et skøn over denne parameter ud fra data, kalder jeg dette standard error. I fysiklitteraturen betegnes både spredning og standard error med det græske bogstav

\sigma.

For en stokastisk variabel

X

kan notationen opsummeres som følger.

\begin{array}{lcc} \hline & \text{Denne Bog} & \text{Fysiknotation} \\ \hline \text{Spredning} & \text{std}(X) & \sigma_x \\ \text{Standard Error} & \text{std}_s(X) & \sigma_x \\ \hline \end{array}

Fysikere bruger ofte ordet usikkerhed. Dette kan have lidt forskellige betydninger alt efter sammenhængen, nogle gange vil det referere til spredning (standard error) og andre gange til en størst mulig afvigelse mellem måling og den sande værdi. Når en fysiker skriver

a\pm b

, er

a

et skøn over en parameter og

b

er usikkerheden, hvor man så ikke altid kan vide, hvilken form for usikkerhed der refereres til.

Ophobningsloven er en metode til at beregne en approksimation til spredning eller standard error på en transformeret størrelse. Man bruger også udtrykket usikkerhedsberegning, og i forbindelse med ophobningsloven i dette kapitel skal alle usikkerheder være spredninger eller standard errors. Metoden indføres i en meget simpel situation i afsnit 5.1, og gennemgås generelt i afsnit 5.2. Et konkret eksempel på anvendelse af ophobningsloven beskrives i afsnit 5.3, og afsnit 5.4 indeholder et katalog med eksempler. Ophobningsloven forudsætter, at transformationen der betragtes er næsten lineær i et passende område af input. Når dette ikke er tilfældet, kan det være nødvendigt at bruge andre metoder. I afsnit 5.5 viser jeg, hvordan vi kan finde standard error og konfidensinterval ved en simulering, og jeg illustrerer dette i afsnit 5.6 med eksemplet fra afsnit 5.3.

Jeg lægger i denne webbog meget vægt på at beskrive data ved en statistisk model, men denne synsvinkel kommer lidt i baggrunden i dette kapitel. Vi kan godt regne (approksimativt) på spredningen uden at angive fordelingen af de underliggende variable. Det approksimative konfidensinterval i Resultat 5.1.1 kræver, at de indgående variable aproksimativt følger en normalfordeling, men dette vil jeg ikke skrive eksplicit, når jeg bruger resultatet (og I skal ikke skrive det, når I regner opgaver med ophobningsloven).

Foregående Næste

Kapitel 5: Ophobningsloven