Denne uges øvelse vedrører situationen med to normalfordelte observationssæt.
I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot.
For to observationssæt skal I både sammenligne varianser
og sammenligne middelværdier, og specielt lave konfidensinterval for
forskel i middelværdi. Derudover indeholder øvelsen yderligere materiale
om ophobningsloven, samt en opgave omkring Bartletts test for
varianshomogenitet.
I denne opgave skal I se på biofilmens stivhed (Youngs modulus målt i kPa)
for et eksperiment med bakterien Pseudomonas aeruginosa, PAO1 pFad,
hvor der er delt op efter, om der tilsættes EGCG eller ikke tilsættes
EGCG. Data findes i filen BiofilmPFad.csv, der har to søjler,
hvor den første søjle angiver, om der er tilsat EGCG
(angivet som med og uden), og den anden
søjle indeholder biofilmens stivhed.
Indlæs data og dan
vektorerne behandling og stivhed ud fra søjlerne i de indlæste data.
Dan dernæst to datasæt med og uden
med værdierne fra stivhed delt op efter behandling, for
eksempel kan det første datasæt dannes med kommandoen
(se afsnit 6.6 for et eksempel på
udtræk af data fra datatabel). Angiv, hvor mange observationer
der er i hver af de to datasæt (antallet af elementer i en
vektor kan i python findes med funktionen len).
Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at
lave flere qqplots i den samme figur, kan du se i kodevinduet i
starten af kapitel 6.
Synes du, at biofilmens stivhed for hver behandling
kan beskrives med en normalfordeling ?Lav også en figur med boxplot
for hvert af de to datasæt. Flere boxplots i
den samme figur kan laves som vist i kodevinduet i
starten af kapitel 6.
Hvilke ligheder og forskelle mellem de to datasæt
kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt (med og uden)
følger sin egen normalfordeling (husk at angive Statistisk Model nummer). Udregn gennemsnit og empirisk spredning for hver af de to
datasæt.
Angiv et 95%-konfidensinterval for
middelværdien for hver af de to datasæt.
Opskriv hypotesen, at de to varianser er ens, og lav
et test for denne hypotese. Er det rimeligt at antage, at
variansen af biofilmens stivhed er den samme for de to behandlinger ?
Opstil nu modellen, hvor data er normalfordelt, og de to datasæt
har hver sin middelværdi, men samme varians. Opstil hypotesen at de to middelværdier er ens, og lav et test af denne
hypotese. Er det rimeligt at antage, at biofilmens stivhed har samme
middelværdi for de to behandlinger ?
Angiv et
95%-konfidensinterval for forskellen i
middelværdi af biofilmens stivhed mellem gruppen med tilsætning af
EGCG og gruppen uden tilsætning. Synes du, at forskellen mellem
de to middelværdier i denne opgave er stor
(se begrebet effektstørrelse i eksempel 6.2.2) ?
En tilsvarende undersøgelse for bakterien
Pseudomonas aeruginosa, PAO1 WT, viser, at der er samme
varians på stivheden for de to behandlinger med og uden EGCG,
og at data ikke strider mod en antagelse om
samme middelværdi.
Indflydelsen af at tilsætte EGCG er således forskellig for WT-bakterien og
pFap-bakterien.
I denne opgave skal I arbejde videre med data omtalt i den
foregående opgave. I opgave 4.1 blev biofilmens stivhed
for bakterien pFad sammenlignet
for to behandlinger med og uden tilsætning
af EGCG.
Her betragtes i stedet de to bakterier pFad og wt,
begge to i situationen uden tilsætning af EGCG.
Data ligger i filen Biofilm2Bakt.csv i form af to søjler, hvor første
søjle er bakterietype (pFad og wt), og anden
søjle er biofilmens stivhed (kPa).
Indlæs data fra filen Biofilm2Bakt.csv. Lav to datasæt
med biofilmens stivhed svarende til
de to bakterietyper. Hvad er den største værdi blandt pFad-målingerne ?
Lav en fælles figur med qqplots for begge datasæt. Synes du, at biofilmens stivhed for hver bakterietype kan beskrives med en
normalfordeling ?Lav en figur, der indeholder boxplot for de to bakterietyper.
Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur ?
Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling. Opstil hypotesen, at der er samme varians på stivheden
for de to bakterietyper, og
eftervis, at data strider mod at sige,
at der er samme varians. Angiv Resultat fra webbogen, der bruges til at lave testet.
Angiv et 95%-konfidensinterval for
forskellen i middelværdi af biofilmens stivhed mellem
bakterierne pFad og WT. Angiv Resultat fra webbogen, der bruges til at lave konfidensintervallet.Synes du, at forskellen mellem
de to middelværdier er stor ?
Lav to nye datasæt logPFad og logwt med logaritmen
til de oprindelige målinger af stivheden. Opstil en statiske model for disse data.Undersøg, om det kan antages, at variansen af logaritmen til
stivheden er den samme for de to bakterietyper. Lav et 95%-konfidensinterval
for forskel i middelværdi af logaritmen til stivheden
mellem pFad og wt. Oversæt det fundne konfidensinterval for forskel i middelværdi
af logaritmen til stivheden til et
95%-konfidensinterval for forholdet mellem middelværdierne af
de oprindelige målinger (hvor der ikke er taget logaritmen
til de målte værdier). I artiklen siges der:
"Overexpression of pFap led to a -fold decrease in biofilm
stiffness".
For de -test, der udføres i denne bog, er udgangspunktet, at alle
data er til rådighed. Imidlertid viser formlerne, at de forskellige
test kan udføres, hvis blot gennemsnit og empiriske spredninger, samt
antallet af observationer der ligger bagved, er til rådighed. Et (formodentligt konstrueret) eksempel på dette kan findes i
opgave 4.13 i den syvende udgave af
Quantitative Chemical Analysis. En bioanalytiker under optræning
(trainee)
vil være klar til at arbejde selvstændigt, hvis vedkommende opnår
resultater sammenlignelige med resultater opnået af en erfaren
bioanalytiker. En blodprøve deles op i 11 dele, hvor bioanalytikeren under
optræning måler blood urea nitrogen
på de 6 dele og den erfarne bioanalytiker på de 5
andre dele. Det må i opgavebesvarelsen antages at målingerne er
normalfordelte.
Opsummerede resultater for de to bioanalytikere
er i den følgende tabel.
Opstil en statistisk model for data.
Overvej om det kan antages at de to bioanalytikere udviser samme
spredning i deres målinger.
Overvej, om bioanalytikeren under oplæring er klar til at arbejde
selvstændigt.
Jeg har simuleret data således at gennemsnit og empirisk spredning
er som i tabellen ovenfor. Med disse data kan I kontrollere jeres
beregninger ved at bruge kommandoerne fra
Afsnit 6.5.
Benyt ophobningsloven til at lave et approksimativt
95%-konfidensinterval for forskel i middelværdi mellem Trainee og
Erfarne bioanalytiker af en måling af "blood urea nitrogen".
Sammenlign med et 95%-konfidensinterval baseret på -fordelingen.
I denne opgave skal I betragte data fra opgave 4.1 og 4.2 igen
omkring stivhed af biofilm,
hvor vi deler data ind efter bakterietype (pFad eller
wt) og efter behandling (med eller uden tilsætning af
EGCG). Dette giver i alt fire grupper af observationer.
Data findes i filen BiofilmAlle.csv med to søjler.
Første søjle med navnet Gruppe er kombinationen af bakterietype
og behandling med værdierne pFadMed, pFadUden, wtMed og
wtUden, og anden søjle med navnet Stivhed
er biofilmens stivhed.
Indlæs data fra BiofilmAlle.csv som en datatabel.
Konstruer en ny
datatabel, indeholdende søjlen Gruppe og en søjle med logaritmen
til stivhed (eller tilføj en søjle med logaritmen
til stivhed til den indlæste datatabel).
Opstil modellen, hvor logaritmen til stivheden er normalfordelt med
hver sin middelværdi og varians i de fire grupper.
Opstil hypotesen at de fire varianser er ens.Lav Bartletts test for hypotesen om ens varianser
Hvis du ikke allerede har gjort det, så leg med koden
i eksempel 6.7.1.
Find den empiriske spredning i hver af de fire grupper.
Find et eksempel på brugen af ophobningsloven i et af jeres andre
kurser på universitetet, eller eventuelt fra jeres gymnasieundervisning. Hvis I ikke mener at have set ophobningsloven, så find et eksempel på nettet.
I forbindelse med besvarelsen af denne opgave skal du downloade
filen svarAflevering3.txt fra kursushjemmesiden og indsætte nogle tal
fra din besvarelse som angivet nedenfor. Filen skal afleveres
sammen med din pdf-fil med besvarelsen.Når man skal undersøge effekten af en behandling
kan det være nødvendigt at overveje, om der kan være
en placeboeffekt. Dette betyder, at en deltager i
eksperimentet kan vise et positivt respons, selvom
behandlingen ikke har nogen effekt. For at tage
højde for dette gør man ofte det, at deltagerne i
eksperimentet deles op i to grupper, hvor den ene gruppe
(procyanidin-gruppen) bliver behandlet med det stof, man ønsker
at undersøge, hvorimod den anden gruppe (placebo-gruppen)
bliver behandlet med et virkningsløst stof. I et
dobbeltblindt forsøg ved hverken deltagerne eller behandlerne
hvilken af de to grupper en person tilhører, og dette
afsløres først når behandlingsperioden er afsluttet. I denne opgave skal I se på effekten af
Procyanidin B-2 (et stof i æbler: se figur nedenfor) til fremme af hårvæksten
på mænd med varierende grad af skaldethed. I et
dobbeltlind eksperiment er der 19 deltager i gruppen,
der behandles med Procyanidin B-2, og 10 deltagere,
der behandles med et placebostof. Data kan ses
direkte i artiklen
Investigation of topical application of procyanidin B-2 from apple to identify its potential use as a hair growing agent
I filen Skaldethed.csv er resulaterne vedrørende tilvækst
i antallet af hår i et kvadrat stort område
for alle 29 personer. Filen er organiseret i to søjle hvor den ene søjle
angiver behandlingen, og den anden søjle angiver tilvæksten i antallet af hår.
(En enkelt måling af antal hår er gennemsnit af, at tre
personer har talt antallet af hår på et billede tre gange hver.)
Det må i besvarelsen af opgaven antages, at tilvæksten af antallet af hår er
normalfordelt.
Indlæs data, og dan to datasæt med tilvæksten i antallet af hår
for de to grupper, procyanidin-gruppen og placebo-gruppen.
Beregn gennemsnit af målingerne for
placebo-gruppen.
Overfør den fundne værdi, med to decimaler, til svarAflevering3.txt.
Opstil modellen, hvor hver gruppe har sin egen normalfordeling.
Overfør Statistisk Model nummer til svarAflevering3.txt.
Undersøg, om data stemmer overens med en hypotese om
samme varians i de to grupper. Overfør -værdi med
3 decimaler, til svarAflevering3.txt.
Angiv et 95%-konfidensinterval for forskel i middelværdi mellem
behandlingsgruppen og placebogruppen. Angiv
hvilken fordeling der bruges til konstruktionen af konfidensintervallet. Overfør til svarAflevering3.txt Resultat nummer fra webbogen
til konstruktion af konfidensintervallet. Overfør den øvre grænse i konfidensintervallet, med 3 decimaler,
til filen svarAflevering3.txt.
I en RT-PCR analyse af 8 prøver er ekspressionsniveauet blandt andet målt
for de fire gener CFL1, ATP5B, CFL1 og ACTB.
Gennemsnit og empirisk varians for logaritmen til ekspressionsniveauet for
hvert gen er vist i den følgende tabel.
(Data er fra hjemmesiden for
Normfinder)
Undersøg, om det kan antages at variansen af
logaritmen til ekspressionsniveauet
er den samme for de fire gener.