Henry Cavendish
lavede i 1797 et eksperiment til bestemmelse af Jordens massetæthed.
Eksperimentet går ud på at bestemme den
universelle gravitationskonstant i Newtons lov, som siger, at
tiltrækningskraften mellem to legemer er . Her er og
masserne af de to legemer og er afstanden mellem dem.
Når vi ser på kraften hvormed jorden trækker i et legeme
med masse kan vi skrive denne både som , hvor er
tyngdeaccelerationen og som hvor er
Jordens masse og er Jordens radius. Hvis vi lader være
Jordens massetæthed, har vi og kan derfor udlede, at
, således at bestemmelse af giver en
bestemmelse af Cavendish's eksperiment til bestemmelse af er
illustreret i følgende figur, hvor tiltrækningskraften mellem to
kugler bestemmes ud stivheden i en wire der holder den ene kugle.
Cavendish's eksperiment er lavet med to forskellige wires og I
afsnit 4.5 betragter jeg de
23 målinger hørende til den ene wire.
Jeg vil undersøge om Cavendish er nået frem til den samme massetæthed for
Jorden som i moderne eksperimenter, det vil sige værdien 5.517
relativt til tætheden for vand (enhed brugt af Cavendish).
Jeg er også interesseret i variationen i data som udtryk for
kvaliteten af Cavendish's eksperiment.
Jeg vil gerne bruge normalfordelingen til at beskrive mine data, men
er dette rimeligt ? Jeg har ikke nok data til at lave et
goodness of fit test som beskrevet i afsnit
3.4, og som I prøvede at lave i
Opgave 3.3 i Øvelse 3. I stedet vil jeg her beskrive
en grafisk undersøgelse, der kan give en indikation af, om det er rimeligt
at bruge en normalfordeling. I den grafiske metode laves en figur, hvor
punkterne bør "sno sig" omkring en ret linje, i fald data stammer fra
en normalfordeling. Med kun ganske få datapunkter, som i eksemplet
ovenfor, kan det være svært at afgøre, om data afviger fra at "sno sig"
omkring en ret linje. Den grafiske undersøgelse er således af større
værdi, hvor man har flere datasæt og kan se, om de alle viser den samme
form for afvigelse fra "sno sig" egenskaben.
Det følgende kodevindue laver den grafiske undersøgelse for data i
eksemplet ovenfor.
I R benyttes kommandoen qqnorm
til at lave et qqplot. Det er også muligt at tilføje en linje med kommandoen
qqline (linjen er baseret på 25% og 75% fraktilerne, det vil sige
vaerdierne, hvor der ligger 25% af data på den ene side og 75% på
den anden).
Jeg beskriver nu den grafiske undersøgelse,
lavet i kodevinduet ovenfor, som går under navnet
normal-qqplot. Her står "q" for quantile, som på dansk
er fraktil, og på dansk taler man om en fraktilsammenligning.
For nemhed i notationen vil jeg fremover blot omtale metoden som et
qqplot. For at beskrive metoden lader jeg være
-fraktilen i en standard normalfordeling, -fordelingen,
det vil sige, at
eller
I R beregnes -fraktilen som qnorm(p).Vi betragter datapunkter
og ordner disse efter størrelse,
betegner den mindste, den næstmindste, og så videre op til
som er den største:
Et qqplot består i at tegne punkterne
I R produceres denne figur med kommandoen
qqnorm(x), hvor er en vektor med data.
Ovenstående er korrekt for , men for mindre erstatter
R fraktionen med
I nedenstående kodevinduer vises nogle eksempler på qqplots.
Hvis vektoren indholder dataværdierne, laves
et (normal-) qqplot med kommandoen qqnorm(x).
R-kommandoen qqline(x) tilføjer en linje
til figuren. I det første delplot vises direkte at punkterne i et
qqplot er som beskrevet ovenfor for Her kommer først et kodevindue, hvor data er normalfordelt.
Der laves en figur med fire qqplots, alle med det samme antal
observationer. Prøv at køre koden et par gange. Prøv dernæst at
ændre fra 11 til 40, og dernæst til 100. Kommandoen
rnorm(n) simulerer observationer fra en standard
normalfordeling.
Nu følger et kodevindue, der danner en figur med fire
qqplots, og hvor data ikke er normalfordelte for de sidste to
qqplots.
Prøv at køre koden et par gange. Prøv dernæst at
ændre fra 10 til 40, og dernæst til 100.
I det øvre højre delplot betragtes data fra en normalfordeling.
Hvad er middelværdi og spredning i denne normalfordeling ?
I det nedre venstre delplot betragtes data fra en stokastisk variabel,
der kun kan antage
positive værdier. Hvad er fordelingen af logaritmen til den
stokastiske variabel ?
Der simuleres først data data fra en fordeling, hvorefter
disse ganges med 2 og der lægges 3 til. Dette betyder, at de nye data
stammer fra en -fordeling, middelværdi er 3 og spredning er 2.
Data kommer fra en stokastisk variabel hvor er
-fordelt. Hvis vi tager logaritmen, får vi
som er normalfordelt. Man siger, at er log-normalfordelt.
Hvorfor giver et qqplot en figur,
hvor normalfordelte data snor sig omkring en ret linje ?
Her er kort den tekniske ide bag et qqplot.
Lad os indføre den empiriske fordelingsfunktion givet ved
hvor er 1, hvis og 0 ellers.
Dette er andelen af datapunkterne
der har en værdi mindre end eller lig med og er
vores gæt på sandsynligheden for en værdi mindre end eller lig med .
Hvis data er normalfordelt med middelværdi og spredning
forventer vi, at
hvor "" skal læses som "cirka lig med".
Fordelingsfunktionen for en normalfordeling kan udtrykkes ved
fordelingsfunktionen for en standard normalfordeling
(middelværdi nul og spredning 1),
Hvis vi derfor anvender den inverse funktion til standard
normalfordelingsfunktionen,
på begge sider af den første ligning ovenfor, får vi
Bytter vi rundt, får vi
Et qqplot laver en figur med denne relation, idet afsættes mod
i punkterne svarende til
de observerede værdier.
I punktet , den 'te mindste observation,
springer fra til Vi vælger derfor værdien
for og får punktet
I qqplottet bør punkterne sno sig om en linje med hældning
Et QQplot giver et godt visuelt indblik i data. Hvis antallet af observationer
er lille, kan det dog være svært at vurdere, om data kan siges at
følge en normalfordeling.
Mange statistikpakker indeholder muligheden for at lave et mere formelt test.
En af de populære metoder er
Shapiro-Wilks test.
Jeg vil ikke gå ind på en
nærmere beskrivelse her, men blot nævne at testet kan udføres med kommandoen
shapiro.test(x), hvor er en vector med data. Dette vises i kodevinduet
nedenfor med målingerne af jordens massetæthed foretaget af Cavendish.