Afsnit 4.3: Model og estimation

Med et observationssæt mener jeg observationer fra en række stokastiske variable, der alle har den samme fordeling, og i dette afsnit betragter jeg situationen med et normalfordelt observationssæt.
Statistisk Model 4.3.1. (Normalfordelingsmodel for t observationssæt)
Vi betragter uafhængige stokastiske variable med tilhørende målinger Normalfordelingsmodellen er på formen
Lad os se på estimation af middelværdien og variansen I de tidligere kapitler med tælledata blev likelihoodfunktionen brugt til at finde estimater. Likelihoodfunktionen blev der defineret som sandsynligheden for det observerede som funktion af parameteren i modellen, og estimatet er den værdi af parameteren, der giver maksimum af likelihoodfunktionen. For kontinuerte data kan man ikke bruge punktsandsynligheder (disse er nul), men vi har tætheden til rådighed, som repræsenterer sandsynligheden for at ligge i et lille område omkring et punkt. For kontinuerte data defineres likelihoodfunktionen til at være tætheden for det observerede som funktion af de parametre, der indgår i modellen. For uafhængige målinger bliver tætheden et produkt af tæthederne for de enkelte målinger. For vores normalfordelingsmodel bliver likelihoodfunktionen
Heraf fremgår, at hvis denne funktion skal maksimeres med hensyn til så skal vi minimere
Derfor kendes estimationen også under navnet mindste kvadraters metode. Intuitivt kan man sige, at findes ved at minimere den samlede kvadratiske afstand mellem og observationerne. Differentieres det sidste udtryk med hensyn til og sættes den afledede lig med nul, fås estimatet
hvor en streg over et bogstav betyder gennemsnit af de tilhørende værdier.
For at estimere variansparameteren kan vi indsætte i likelihoodfunktionen, og maksimere denne med hensyn til Dette giver Dette skøn er ikke helt tilfredsstillende, idet man kan vise (se nedenfor), at betragtet som stokastisk variabel gælder der, at Man bruger derfor i stedet estimatet
som kaldes den empiriske varians. Kvadratroden, kaldes den empiriske spredning. Når vi betragter (eller ) som en stokastisk variabel, afviger vi fra vores generelle regel og betegner også denne med og ikke med .
For at kunne lave tests og konfidensintervaller for parametrene er det nødvendigt at kende fordelingen af vores skøn betragtet som stokastiske variable. Der gælder følgende resultat.
Resultat 4.3.2. (Fordeling af parameterskøn)
I normalfordelingsmodellen Statistisk Model 4.3.1 gælder der følgende fordelingsresultater:
Desuden er de stokastiske variable og uafhængige.
Fordelingsresultatet for følger umiddelbart fra regnereglerne for normalfordelte stokastiske variable i afsnit 4.1. Specielt bruges, at
Fordelingsresultatet for den empiriske varians er sværere at forstå. Vi ved, hvad en -fordeling er, men hvad er en fordeling? Dette skal faktisk forstås på den måde, at den stokastiske variabel følger en -fordeling. Jeg vil ikke udlede fordelingen af men intuitivt bygger resultatet på, at ifølge regnereglerne i afsnit 4.1. Når så erstattes med viser det sig, at antallet af frihedsgrader går fra til

Middelværdi af variansskøn

Idet defineres som kan man skrive Lad os starte med at se på Denne kan skrives som
Fra regneregler for normalfordelingen findes, at Dette giver
For den empiriske varians gælder der nu

4.3.3 Beregning i python af gennemsnit og spredning

Følgende tabel viser hvordan gennemsnit, empirisk spredning og empirisk varians beregnes i python og i MATLAB. Data liger i en vektor og i python-tilfældet har man udført import numpy as np.
Hvis man i python skriver np.var(x) får man og ikke Den sidste fås ved at lave en "korrektion for antal frihedsgrader" med beskeden ddof=1.

ForegåendeNæste