Denne uges øvelse vedrører situationen med to normalfordelte observationssæt.
I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot.
For to observationssæt skal I både sammenligne varianser
og sammenligne middelværdier, og specielt lave konfidensinterval for
forskel i middelværdi. Derudover indeholder øvelsen yderligere materiale
om ophobningsloven, samt en opgave omkring Bartletts test for
varianshomogenitet.
I denne opgave skal I se på biofilmens stivhed (Youngs modulus målt i kPa).
Der er lavet 4 eksperimenter i alt med to forskellige bakterier, og hvor
der enten tilsættes EGCG eller ikke tilsættes EGCG. De oprindelige rådata
er ikke tilstede, men fra artiklen kan man fra figur aflæse gennemsnit
og empirisk spredning baseret på 10 observationer
(at der er 10 observationer i hvert eksperiment fremgår af sidste
afsnit i artiklen).
Højre del af ovenstående figur viser empirisk spredning afsat
mod gennemsnit. Figuren peger på proportionalitet mellem
spredning og middelværdi. I sådanne situationer fører en log-transformation
af data typisk til varianshomogenitet mellem grupperne.
I skal I denne opgave betragte pFad bakterien med og uden tilsætning
af EGCG.
Data findes i filen BiofilmPFad.csv, der har to søjler,
hvor den første søjle angiver, om der er tilsat EGCG
(angivet som med og uden), og den anden
søjle indeholder biofilmens stivhed.
Indlæs data og dan vektorerne behandling og stivhed
ud fra søjlerne i de indlæste data.
Dan dernæst to datasæt, med og uden,
med logaritmen til værdierne fra stivhed delt op efter behandling, for
eksempel kan det første datasæt dannes med kommandoen
(se afsnit 6.6 for et eksempel på
udtræk af data fra datatabel). Tjek, at der er 10 observationer
i hvert af de to datasæt (antallet af elementer i en
vektor kan i python findes med funktionen len).
Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at
lave flere qqplots i den samme figur, kan du se i kodevinduet i
starten af kapitel 6.
Synes du, at logaritmen til biofilmens stivhed for hver behandling
kan beskrives med en normalfordeling ?Lav også en figur med boxplot
for hvert af de to datasæt. Flere boxplots i
den samme figur kan laves som vist i kodevinduet i
starten af kapitel 6.
Hvilke ligheder og forskelle mellem de to datasæt
kan du se i denne figur ?
Opstil modellen, hvor logaritmen til stivheden for hver gruppe
(med og uden)
følger sin egen normalfordeling (husk at angive Statistisk Model nummer). Udregn gennemsnit og empirisk spredning for hvert af de to
datasæt. Angiv et 95%-konfidensinterval for
middelværdien for hvert af de to datasæt.
I skal nu antage at der er samme varians i de to datasæt.
Opstil modellen, hvor logaritmen til stivheden er normalfordelt,
og de to datasæt
har hver sin middelværdi, men samme varians. Opstil hypotesen at de to middelværdier er ens, og lav et test af denne
hypotese. Er det rimeligt at antage, at biofilmens stivhed har samme
middelværdi for de to behandlinger ?
Angiv et
95%-konfidensinterval for forskellen i
middelværdi af logaritmen til biofilmens stivhed
mellem gruppen med tilsætning af
EGCG og gruppen uden tilsætning. Synes du, at forskellen mellem
de to middelværdier i denne opgave er stor
(se begrebet effektstørrelse i eksempel 6.2.2) ?
Konfidensintervallet i foregående spørgsmål er for forskellen mellem
middelværdierne for logaritmen til hårdheden.
Oversæt konfidensintervallet til et
95%-konfidensinterval for forholdet mellem middelværdierne af hårdheden.
Ovenfor antog I, at der er samme varians i de to grupper på
logaritmen til hårdheden. Opskriv hypotesen, at de to varianser er ens, og lav
et test for denne hypotese. Resultatet af dette test kan måske gøre jer lidt bekymrede i forhold til
antagelsen om samme varians, men opgave 4.6 nedenfor
skulle gerne fjerne jeres bekymring igen.
Hvis vi i stedet betragter bakterien Pseudomonas aeruginosa, PAO1 WT,
og sammenligner med og uden tilsætning af EGCG viser det sig
at data ikke strider mod samme middelværdi i de to grupper.
Indflydelsen af at tilsætte EGCG er således forskellig for WT-bakterien og
pFap-bakterien.
Ole Rømer, der voksede op i Aarhus i 1600-tallet, var den første til at
påvise at lyset har en udbredelseshastighed ("lysets tøven") baseret
på astronomiske observationer. Omkring 200 år senere lykkedes det
de to franske videnskabsfolk Fizeau og Foucoult at bestemme lysets hastighed
eksperimentelt. Deres eksperiment blev forbedret af amerikanerene Michelson
og Newcomb i perioden 1880-1883. Data i denne opgave er 23 målinger
af Michelson,
oprindeligt fra 1880, men revideret i 1883 efter Michelson hørte om
Newcombs eksperiment, samt 64 målinger af Newcomb fra 1883
(der er oprindeligt 66
målinger, men to af disse falder helt udenfor de resterende målinger og
er fjernet her). Lys sendes til et roterende spejl, hen til et spejl langt fra det
roterende spejl, tilbage til det roterende spejl og derfra tilbage i
nærheden af lyskilden. Ved at måle afvigelsen mellem lyskilden og det
reflekterede lys kan lyshastigheden beregnes ud fra rotationshastigheden
af det roterende spejl og afstanden mellem de to spejle. Newcombs eksperiment
kan ses som en forbedring af Michelson eksperiment ved at afstanden mellem
de to spejle er større (henholdsvis cirka 600 meter i Michelsons eksperiment
og 3700 meter i Newcombs eksperiment)De to måleserier er i filen Lyshastighed.csv, der har to søjler
med overskrifterne Person og Hastighed. De angivne
hastigheder er
lyshastigheden omregnet til hastigheden i det tomme rum og fratrukket
299000 km/s. På denne skala er den anerkendte værdi af lysets hastighed
792.5.
Indlæs data fra filen Lyshastighed.csv. Lav to datasæt
med lyshastigheden svarende til de to eksperimenter,
Lav en fælles figur med qqplots for begge datasæt. Synes du, at lyshastigheden for hvert eksperiment kan beskrives med en
normalfordeling ?Lav en figur, der indeholder boxplot for de to måleserier.
Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Forklar, at det er realistisk at forestille sig, at de to måleserier har
hver sin varians. Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling.
Angiv et 95%-konfidensinterval for
forskellen i middelværdi af lyshastigheden mellem
Michelsons og Newcombs måleserier. Angiv Resultat fra webbogen, der bruges til at lave konfidensintervallet.Kan det antages, at der er samme middelværdi i de to måleserier ?
Lav til sidst et 95%-konfidensinterval for forholdet mellem
varianserne i Michelsons og Newcombs eksperimenter. Kan man forstå forskellen i varians mellem Michelsons og Newcombs
eksperimenter ud fra
forskellen i afstand mellem det roterende og det faste spejl ?
Afstanden hos Newcomb er cirka 6 gange afstanden hos Michelson.
Hvis ellers de to eksperimenter er bygget op på samme måde, vil dette føre til
en forskydning mellem udgående og indgående lysstråle, der er cirka 6 gange
større hos Newcomb. Hvis den største usikkerhed i eksperimentet
ligger i målingen af denne forskydning, og usikkerheden er den samme
uanset forskydningen, giver ophobningsloven en forventning
om en 6 gange større usikkerhed i Michelsons eksperiment.
Passer dette med det konfidensinterval, I lige har beregnet ?
(Tilføjelse: der er andre forskelle mellem de to eksperimenter end
afstanden mellem de to spejle.)
For de -test, der udføres i denne bog, er udgangspunktet, at alle
data er til rådighed. Imidlertid viser formlerne, at de forskellige
test kan udføres, hvis blot gennemsnit og empiriske spredninger, samt
antallet af observationer der ligger bagved, er til rådighed.
Her følger et eksempel.Ændrer en strålingsdetektor egenskaber ved at blive udsat for et chok ?
For data i denne opgave består chokket i, at detektoren
i to minutter udsættes for en dosis, der er dobbelt den
maksimale dosis, detektoren kan registrere. Før og efter chokket er der
foretaget 10 målinger fra en kilde, der giver en lav stabil stråling.
Gennemsnit og empirisk spredning for de to måleserier er gengivet i
nedenstående tabel (data svarer til data i artiklen
Comparing instruments
og er fomodentligt opdigtede).
Da vi ikke ved, hvordan chokket vil påvirke detektoren, vil vi ikke
på forhånd antage, at der er samme varians i de to måleserier.
Udregn ændring i gennemsnit som en procentdel af
gennemsnit for Før-målingerne. Synes du, at forskellen
er stor eller lille ?
Opstil en statistisk model for data. Lav et test for hypotesen, at
der er samme middelværdi i de to måleserier.
Lav et 95%-konfidensinterval for forskel i middelværdi mellem
Før og Efter. I artiklen, der har inspireret denne opgave, anses en ændring på under 15%
af Før-niveauet som uvæsentlig. Med denne regel,
synes du så, at ændringen i disse data er uvæsentlig ?
Det er også af interesse at se, om der er en ændring i variansen.
Undersøg, om det kan antages, at der er samme varians i de to måleserier.
Jeg har simuleret data, således at gennemsnit og empirisk spredning
er som i tabellen ovenfor. Med disse data kan I kontrollere jeres
beregninger ved at bruge kommandoerne fra
Afsnit 6.5.
Data er i filen Chok.csv, der har to søjler. Søjlen
Tidspunkt angiver måleserie og søjlen Straaling angiver den
målte strålingsmængde ().
I denne opgave skal I betragte data omtalt i opgave 4.1
omkring stivhed af biofilm,
hvor vi deler data ind efter bakterietype (pFad eller
wt) og efter behandling (med eller uden tilsætning af
EGCG). Dette giver i alt fire grupper af observationer.
Data findes i filen BiofilmAlle.csv med to søjler.
Første søjle med navnet Gruppe er kombinationen af bakterietype
og behandling med værdierne pFadMed, pFadUden, wtMed og
wtUden, og anden søjle med navnet Stivhed
er biofilmens stivhed.
Indlæs data fra BiofilmAlle.csv som en datatabel.
Konstruer en ny
datatabel, indeholdende søjlen Gruppe og en søjle med logaritmen
til stivhed (eller tilføj en søjle med logaritmen
til stivhed til den indlæste datatabel).
Opstil modellen, hvor logaritmen til stivheden er normalfordelt med
hver sin middelværdi og varians i de fire grupper.
Opstil hypotesen, at de fire varianser er ens.Lav Bartletts test for hypotesen om ens varianser
Ovenfor så I, at data ikke strider mod hypotesen om samme varians
i de fire grupper. Omvendt lavede I til sidst i opgave 4.1
et test, der tydede på, at to af varianserne er forskellige.
Hvordan passer disse to ting sammen ?
Sammenhængen består I, at når man har fire variansskøn,
vil det ofte være sådan, at man kan vælge to ud af de fire,
hvor det ser ud til, at de underliggende varianser er forskellige.
Dette illustreres i simulationen nedenfor.
Konkret simuleres der 1000 sæt med fire variansskøn, og så laves der
et test og tilhørende -værdi,
for at to varianser er ens, baseret på den mindste og den største af
de fire variansskøn. Til sidst tælles der op, hvor stor en andel af de
1000 simulerede tilfælde der giver en -værdi mindre end 0.05.
Kør koden. Hvor ofte bliver -værdien mindre end 0.05 ?
Hvis du ikke allerede har gjort det, så leg med koden
i eksempel 6.7.1.
Find et eksempel på brugen af ophobningsloven i et af jeres andre
kurser på universitetet, eller eventuelt fra jeres gymnasieundervisning. Hvis I ikke mener at have set ophobningsloven, så find et eksempel på nettet.
I forbindelse med besvarelsen af denne opgave skal du downloade
filen svarAflevering3.txt fra kursushjemmesiden og indsætte nogle tal
fra din besvarelse som angivet nedenfor. Filen skal afleveres
sammen med din pdf-fil med besvarelsen.I afsnit 4.5 omtalte jeg Cavendish's eksperiment til bestemmelse
af Jordens massefylde og betragtede 23 målinger alle med den samme wire
til ophæng af to metalkugler. I Cavendish's artikel omtales også 6 andre
målinger foretaget med en anden wire. I skal I denne opgave se på, om de
to eksperimenter stemmer overens. Da de to wirer kan have forskellige
egenskaber, kan vi ikke på forhånd antage, at varianserne i de to
eksperimenter er ens. Data er i filen Cavendish.csv, der har to søjler
med overskrifterne Eksperiment og Taethed.
Under Eksperiment står der enten wire1 eller wire2.
Indlæs data, og dan to datasæt med massetætheden i de to eksperimenter.
Beregn gennemsnit af målingerne for
målingerne hørende til wire2.
Overfør den fundne værdi, med tre decimaler, til svarAflevering3.txt. Lav en figur, hvor tætheden afsættes langs andenaksen og alle målingerne
hørende til wire1 har førstekoordinat 1 og alle hørende til wire2 har
førstekoordinaten 2.
Opstil modellen, hvor hver gruppe har sin egen normalfordeling.
Overfør Statistisk Model nummer til svarAflevering3.txt.
Angiv et 95%-konfidensinterval for forskel i middelværdi mellem
massetætheden for wire1 og wire2. Angiv
hvilken fordeling der bruges til konstruktionen af konfidensintervallet. Overfør til svarAflevering3.txt Resultat nummer fra webbogen
til konstruktion af konfidensintervallet. Overfør den øvre grænse i konfidensintervallet, med 3 decimaler,
til filen svarAflevering3.txt.
Angiv -værdien for et test af hypotesen om samme
middelværdi af massetætheden i de to eksperimenter.
Giver de to wirer anledning til forskellige usikkerheder på
målingerne ?
For at undersøge dette skal I undersøge
om data stemmer overens med en hypotese om
samme varians i de to eksperimenter. Overfør -værdi med
3 decimaler, til svarAflevering3.txt.
I en RT-PCR analyse af 8 prøver er ekspressionsniveauet blandt andet målt
for de fire gener CFL1, ATP5B, CFL1 og ACTB.
Gennemsnit og empirisk varians for logaritmen til ekspressionsniveauet for
hvert gen er vist i den følgende tabel.
(Data er fra hjemmesiden for
Normfinder)
Undersøg, om det kan antages, at variansen af
logaritmen til ekspressionsniveauet
er den samme for de fire gener.