Når for eksempel fysikere og kemikere laver eksperimenter,
taler de ofte om systematiske fejl og tilfældige fejl.
Hvis jeg måler min egen vægt på min gamle badevægt, aflæser jeg en ny
værdi, hver gang jeg træder ned og dernæst op på vægten igen.
Hvis jeg gør dette mange gange, kan jeg tage gennemsnit og dermed
reducere usikkerheden fra de tilfældige fejl i målingen. Badevægten
kan justeres med en skrue, og alt efter denne indstilling vil
den aflæste vægt svinge omkring min sande vægt. Hvis badevægten
er justeret forkert, taler vi om en systematisk fejl i målingen.
Uanset hvor mange gentagne målinger jeg laver af min vægt, vil
gennemsnittet ikke nærme sig min sande vægt. Hvis jeg lader den stokastiske variabel repræsentere en vægtmåling,
vil denne svinge omkring sin middelværdi . Hvis badevægten er
justeret forkert vil middelværdien være forskellig fra
den sande værdi af vægten, som vi her kalder . Forskellen mellem
middelværdien og den sande værdi kaldes den systematiske fejl,
som i statistik kaldes bias,
Den tilfældige fejl angiver, hvor meget
varierer omkring sin middelværdi.
Typisk beskriver vi dette med spredningen (std) på
,
Den samlede forskel mellem målingen og den sande værdi kan
skrives som
Kvadrerer vi denne og tager middelværdi, får vi følgende alternative
mål til varians og spredning
hvor MSE står for mean squared error og RMSE for
root mean squared error.
Når der i et eksperiment ikke er muligt at korrigere for
en systematisk fejl, må denne indregnes i den tilfældige fejl,
svarende til at bruge RMSE. Med dette i tankerne, og for
ikke at gøre notationen for tung, vil jeg
konsekvent bruge ordet spredning, selvom der eventuelt refereres
til en RMSE.
Notationen for spredning er i denne bog std, som står for
det engelske standard deviation. Dette er en egenskab (en parameter)
ved fordelingen hørende til den stokastiske variabel, der betragtes.
Når jeg laver et skøn over denne parameter ud fra data, kalder jeg dette
standard error. I fysiklitteraturen betegnes både
spredning og standard error med det græske bogstav
For en stokastisk variabel kan notationen opsummeres som følger.
Fysikere bruger ofte ordet usikkerhed. Dette kan have lidt
forskellige betydninger alt efter sammenhængen, nogle gange vil det
referere til spredning (standard error)
og andre gange til en størst mulig afvigelse
mellem måling og den sande værdi. Når en fysiker skriver
, er et skøn over en parameter og er usikkerheden,
hvor man så ikke altid kan vide, hvilken form for usikkerhed der
refereres til.
Ophobningsloven er en metode til at beregne en approksimation
til spredning eller standard error på en transformeret
størrelse. Man bruger også udtrykket usikkerhedsberegning, og
i forbindelse med ophobningsloven i dette kapitel
skal alle usikkerheder være spredninger eller standard errors.
Metoden indføres i en meget simpel situation i afsnit 5.1,
og gennemgås generelt i afsnit 5.2.
Et konkret eksempel på anvendelse af ophobningsloven beskrives i
afsnit 5.3, og afsnit 5.4 indeholder
et katalog med eksempler.
Ophobningsloven forudsætter, at transformationen der betragtes
er næsten lineær i et passende område af input. Når dette ikke er tilfældet,
kan det være nødvendigt at bruge andre metoder. I afsnit
5.5 viser jeg, hvordan vi kan finde standard error
og konfidensinterval ved en simulering, og jeg illustrerer dette i
afsnit 5.6 med eksemplet fra afsnit 5.3.Jeg lægger i denne webbog meget vægt på at beskrive data ved en
statistisk model, men denne synsvinkel kommer lidt i baggrunden i
dette kapitel.
Vi kan godt regne (approksimativt) på spredningen uden at angive fordelingen
af de underliggende variable. Det approksimative konfidensinterval i
Resultat 5.1.1 kræver, at de indgående variable aproksimativt
følger en normalfordeling, men dette vil jeg ikke skrive eksplicit,
når jeg bruger resultatet (og I skal ikke skrive det, når I regner opgaver
med ophobningsloven). ForegåendeNæste