Afsnit 6.8: Øvelse 4

Denne uges øvelse vedrører situationen med to normalfordelte observationssæt. I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot. For to observationssæt skal I både sammenligne varianser og sammenligne middelværdier, og specielt lave konfidensinterval for forskel i middelværdi. Derudover indeholder øvelsen yderligere materiale om ophobningsloven, samt en opgave omkring Bartletts test for varianshomogenitet.

Opgave 4.1: Two-sample $t$-test, samme varians

Visse microorganismer producerer biofilm på forskellige overflader, hvilket for eksempel kan vanskeliggøre en sygdomsbekæmpelse. I artiklen Epigallocatechin gallate remodels overexpressed functional amyloids in Pseudomonas aeruginosa and increases biofilm susceptibility to antibiotic treatment studeres muligheden for at bekæmpe biofilm ved hjælp af Epigallocatechin 3-gallates (EGCG, stof der forekommer i grøn te). Artiklen har 12 forfattere, hvoraf 4 har tilknytning til iNANO på Aarhus Universitet.
I denne opgave skal I se på biofilmens stivhed (Youngs modulus målt i kPa). Der er lavet 4 eksperimenter i alt med to forskellige bakterier, og hvor der enten tilsættes EGCG eller ikke tilsættes EGCG. De oprindelige rådata er ikke tilstede, men fra artiklen kan man fra figur aflæse gennemsnit og empirisk spredning baseret på 10 observationer (at der er 10 observationer i hvert eksperiment fremgår af sidste afsnit i artiklen). Højre del af ovenstående figur viser empirisk spredning afsat mod gennemsnit. Figuren peger på proportionalitet mellem spredning og middelværdi. I sådanne situationer fører en log-transformation af data typisk til varianshomogenitet mellem grupperne. I skal I denne opgave betragte pFad bakterien med og uden tilsætning af EGCG. Data findes i filen BiofilmPFad.csv, der har to søjler, hvor den første søjle angiver, om der er tilsat EGCG (angivet som med og uden), og den anden søjle indeholder biofilmens stivhed.
  1. Indlæs data og dan vektorerne behandling og stivhed ud fra søjlerne i de indlæste data. Dan dernæst to datasæt, med og uden, med logaritmen til værdierne fra stivhed delt op efter behandling, for eksempel kan det første datasæt dannes med kommandoen
    (se afsnit 6.6 for et eksempel på udtræk af data fra datatabel). Tjek, at der er 10 observationer i hvert af de to datasæt (antallet af elementer i en vektor kan i python findes med funktionen len).
  2. Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at lave flere qqplots i den samme figur, kan du se i kodevinduet i starten af kapitel 6. Synes du, at logaritmen til biofilmens stivhed for hver behandling kan beskrives med en normalfordeling?
    Lav også en figur med boxplot for hvert af de to datasæt. Flere boxplots i den samme figur kan laves som vist i kodevinduet i starten af kapitel 6. Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur?
  3. Opstil modellen, hvor logaritmen til stivheden for hver gruppe (med og uden) følger sin egen normalfordeling (husk at angive Statistisk Model nummer).
    Udregn gennemsnit og empirisk spredning for hvert af de to datasæt.
    Angiv et 95%-konfidensinterval for middelværdien for hvert af de to datasæt.
  4. I skal nu antage at der er samme varians i de to datasæt. Opstil modellen, hvor logaritmen til stivheden er normalfordelt, og de to datasæt har hver sin middelværdi, men samme varians.
    Opstil hypotesen at de to middelværdier er ens, og lav et test af denne hypotese.
    Er det rimeligt at antage, at biofilmens stivhed har samme middelværdi for de to behandlinger?
  5. Angiv et 95%-konfidensinterval for forskellen i middelværdi af logaritmen til biofilmens stivhed mellem gruppen med tilsætning af EGCG og gruppen uden tilsætning.
    Synes du, at forskellen mellem de to middelværdier i denne opgave er stor (se begrebet effektstørrelse i eksempel 6.2.2)?
  6. Konfidensintervallet i foregående spørgsmål er for forskellen mellem middelværdierne for logaritmen til hårdheden. Oversæt konfidensintervallet til et 95%-konfidensinterval for forholdet mellem middelværdierne af hårdheden.
  7. Ovenfor antog I, at der er samme varians i de to grupper på logaritmen til hårdheden.
    Opskriv hypotesen, at de to varianser er ens, og lav et test for denne hypotese.
    Resultatet af dette test kan måske gøre jer lidt bekymrede i forhold til antagelsen om samme varians, men opgave 4.6 nedenfor skulle gerne fjerne jeres bekymring igen.
Hvis vi i stedet betragter bakterien Pseudomonas aeruginosa, PAO1 WT, og sammenligner med og uden tilsætning af EGCG viser det sig at data ikke strider mod samme middelværdi i de to grupper. Indflydelsen af at tilsætte EGCG er således forskellig for WT-bakterien og pFap-bakterien.

Opgave 4.2: Two-sample $t$-test, forskellig varians

Ole Rømer, der voksede op i Aarhus i 1600-tallet, var den første til at påvise at lyset har en udbredelseshastighed ("lysets tøven") baseret på astronomiske observationer. Omkring 200 år senere lykkedes det de to franske videnskabsfolk Fizeau og Foucoult at bestemme lysets hastighed eksperimentelt. Deres eksperiment blev forbedret af amerikanerene Michelson og Newcomb i perioden 1880-1883. Data i denne opgave er 23 målinger af Michelson, oprindeligt fra 1880, men revideret i 1883 efter Michelson hørte om Newcombs eksperiment, samt 64 målinger af Newcomb fra 1883 (der er oprindeligt 66 målinger, men to af disse falder helt udenfor de resterende målinger og er fjernet her).
Lys sendes til et roterende spejl, hen til et spejl langt fra det roterende spejl, tilbage til det roterende spejl og derfra tilbage i nærheden af lyskilden. Ved at måle afvigelsen mellem lyskilden og det reflekterede lys kan lyshastigheden beregnes ud fra rotationshastigheden af det roterende spejl og afstanden mellem de to spejle. Newcombs eksperiment kan ses som en forbedring af Michelson eksperiment ved at afstanden mellem de to spejle er større (henholdsvis cirka 600 meter i Michelsons eksperiment og 3700 meter i Newcombs eksperiment)
De to måleserier er i filen Lyshastighed.csv, der har to søjler med overskrifterne Person og Hastighed. De angivne hastigheder er lyshastigheden omregnet til hastigheden i det tomme rum og fratrukket 299000 km/s. På denne skala er den anerkendte værdi af lysets hastighed 792.5.
  1. Indlæs data fra filen Lyshastighed.csv. Lav to datasæt med lyshastigheden svarende til de to eksperimenter,
  2. Lav en fælles figur med qqplots for begge datasæt.
    Synes du, at lyshastigheden for hvert eksperiment kan beskrives med en normalfordeling?
    Lav en figur, der indeholder boxplot for de to måleserier. Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur?
  3. Forklar, at det er realistisk at forestille sig, at de to måleserier har hver sin varians.
    Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling.
  4. Angiv et 95%-konfidensinterval for forskellen i middelværdi af lyshastigheden mellem Michelsons og Newcombs måleserier.
    Angiv Resultat fra webbogen, der bruges til at lave konfidensintervallet.
    Kan det antages, at der er samme middelværdi i de to måleserier?
  5. Lav til sidst et 95%-konfidensinterval for forholdet mellem varianserne i Michelsons og Newcombs eksperimenter.
    Kan man forstå forskellen i varians mellem Michelsons og Newcombs eksperimenter ud fra forskellen i afstand mellem det roterende og det faste spejl? Afstanden hos Newcomb er cirka 6 gange afstanden hos Michelson. Hvis ellers de to eksperimenter er bygget op på samme måde, vil dette føre til en forskydning mellem udgående og indgående lysstråle, der er cirka 6 gange større hos Newcomb. Hvis den største usikkerhed i eksperimentet ligger i målingen af denne forskydning, og usikkerheden er den samme uanset forskydningen, giver ophobningsloven en forventning om en 6 gange større usikkerhed i Michelsons eksperiment. Passer dette med det konfidensinterval, I lige har beregnet? (Tilføjelse: der er andre forskelle mellem de to eksperimenter end afstanden mellem de to spejle.)

Opgave 4.3: T-fordelingen

  1. Angiv sandsynligheden for at få en værdi over 2.3 i en -fordeling med 27 frihedsgrader.
  2. Find 97.5%-fraktilen i en -fordeling med 10 frihedsgrader
  3. Angiv sandsynligheden for at få en værdi under 2.228 i en -fordeling med 10 frihedsgrader.

Opgave 4.4: T-test baseret på opsummerede data

For de -test, der udføres i denne bog, er udgangspunktet, at alle data er til rådighed. Imidlertid viser formlerne, at de forskellige test kan udføres, hvis blot gennemsnit og empiriske spredninger, samt antallet af observationer der ligger bagved, er til rådighed. Her følger et eksempel.
Ændrer en strålingsdetektor egenskaber ved at blive udsat for et chok? For data i denne opgave består chokket i, at detektoren i to minutter udsættes for en dosis, der er dobbelt den maksimale dosis, detektoren kan registrere. Før og efter chokket er der foretaget 10 målinger fra en kilde, der giver en lav stabil stråling. Gennemsnit og empirisk spredning for de to måleserier er gengivet i nedenstående tabel (data svarer til data i artiklen Comparing instruments og er fomodentligt opdigtede).
Da vi ikke ved, hvordan chokket vil påvirke detektoren, vil vi ikke på forhånd antage, at der er samme varians i de to måleserier.
  1. Udregn ændring i gennemsnit som en procentdel af gennemsnit for Før-målingerne. Synes du, at forskellen er stor eller lille?
  2. Opstil en statistisk model for data. Lav et test for hypotesen, at der er samme middelværdi i de to måleserier.
  3. Lav et 95%-konfidensinterval for forskel i middelværdi mellem Før og Efter.
    I artiklen, der har inspireret denne opgave, anses en ændring på under 15% af Før-niveauet som uvæsentlig. Med denne regel, synes du så, at ændringen i disse data er uvæsentlig?
  4. Det er også af interesse at se, om der er en ændring i variansen. Undersøg, om det kan antages, at der er samme varians i de to måleserier.

Kontrol af jeres beregning

Jeg har simuleret data, således at gennemsnit og empirisk spredning er som i tabellen ovenfor. Med disse data kan I kontrollere jeres beregninger ved at bruge kommandoerne fra Afsnit 6.5. Data er i filen Chok.csv, der har to søjler. Søjlen Tidspunkt angiver måleserie og søjlen Straaling angiver den målte strålingsmængde ().

Opgave 4.5: Ophobningslov for differens

Betragt data i opgave 4.4.
  1. Benyt ophobningsloven til at lave et approksimativt 95%-konfidensinterval for forskel i middelværdi mellem Før og Efter for data i foregående opgave.
  2. Sammenlign med et 95%-konfidensinterval baseret på -fordelingen.

Opgave 4.6: Bartletts test

I denne opgave skal I betragte data omtalt i opgave 4.1 omkring stivhed af biofilm, hvor vi deler data ind efter bakterietype (pFad eller wt) og efter behandling (med eller uden tilsætning af EGCG). Dette giver i alt fire grupper af observationer. Data findes i filen BiofilmAlle.csv med to søjler. Første søjle med navnet Gruppe er kombinationen af bakterietype og behandling med værdierne pFadMed, pFadUden, wtMed og wtUden, og anden søjle med navnet Stivhed er biofilmens stivhed.
  1. Indlæs data fra BiofilmAlle.csv som en datatabel. Konstruer en ny datatabel, indeholdende søjlen Gruppe og en søjle med logaritmen til stivhed (eller tilføj en søjle med logaritmen til stivhed til den indlæste datatabel).
  2. Opstil modellen, hvor logaritmen til stivheden er normalfordelt med hver sin middelværdi og varians i de fire grupper.
  3. Opstil hypotesen, at de fire varianser er ens.
    Lav Bartletts test for hypotesen om ens varianser
  4. Ovenfor så I, at data ikke strider mod hypotesen om samme varians i de fire grupper. Omvendt lavede I til sidst i opgave 4.1 et test, der tydede på, at to af varianserne er forskellige. Hvordan passer disse to ting sammen? Sammenhængen består I, at når man har fire variansskøn, vil det ofte være sådan, at man kan vælge to ud af de fire, hvor det ser ud til, at de underliggende varianser er forskellige. Dette illustreres i simulationen nedenfor. Konkret simuleres der 1000 sæt med fire variansskøn, og så laves der et test og tilhørende -værdi, for at to varianser er ens, baseret på den mindste og den største af de fire variansskøn. Til sidst tælles der op, hvor stor en andel af de 1000 simulerede tilfælde der giver en -værdi mindre end 0.05.
    Kør koden. Hvor ofte bliver -værdien mindre end 0.05?
  5. Hvis du ikke allerede har gjort det, så leg med koden i eksempel 6.7.1.

Opgave 4.7: Jeres egen ophobningslov

Find et eksempel på brugen af ophobningsloven i et af jeres andre kurser på universitetet, eller eventuelt fra jeres gymnasieundervisning.
Hvis I ikke mener at have set ophobningsloven, så find et eksempel på nettet.

Opgave 4.8: Afleveringsopgave 3

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering3.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.
I afsnit 4.5 omtalte jeg Cavendish's eksperiment til bestemmelse af Jordens massefylde og betragtede 23 målinger alle med den samme wire til ophæng af to metalkugler. I Cavendish's artikel omtales også 6 andre målinger foretaget med en anden wire. I skal I denne opgave se på, om de to eksperimenter stemmer overens. Da de to wirer kan have forskellige egenskaber, kan vi ikke på forhånd antage, at varianserne i de to eksperimenter er ens. Data er i filen Cavendish.csv, der har to søjler med overskrifterne Eksperiment og Taethed. Under Eksperiment står der enten wire1 eller wire2.
  1. Indlæs data, og dan to datasæt med massetætheden i de to eksperimenter. Beregn gennemsnit af målingerne for målingerne hørende til wire2. Overfør den fundne værdi, med tre decimaler, til svarAflevering3.txt.
    Lav en figur, hvor tætheden afsættes langs andenaksen og alle målingerne hørende til wire1 har førstekoordinat 1 og alle hørende til wire2 har førstekoordinaten 2.
  2. Opstil modellen, hvor hver gruppe har sin egen normalfordeling. Overfør Statistisk Model nummer til svarAflevering3.txt.
  3. Angiv et 95%-konfidensinterval for forskel i middelværdi mellem massetætheden for wire1 og wire2. Angiv hvilken fordeling der bruges til konstruktionen af konfidensintervallet.
    Overfør til svarAflevering3.txt Resultat nummer fra webbogen til konstruktion af konfidensintervallet.
    Overfør den øvre grænse i konfidensintervallet, med 3 decimaler, til filen svarAflevering3.txt.
  4. Angiv -værdien for et test af hypotesen om samme middelværdi af massetætheden i de to eksperimenter.
  5. Giver de to wirer anledning til forskellige usikkerheder på målingerne? For at undersøge dette skal I undersøge om data stemmer overens med en hypotese om samme varians i de to eksperimenter. Overfør -værdi med 3 decimaler, til svarAflevering3.txt.

Opgave 4.9: RT-PCR analyse

I en RT-PCR analyse af 8 prøver er ekspressionsniveauet blandt andet målt for de fire gener CFL1, ATP5B, CFL1 og ACTB. Gennemsnit og empirisk varians for logaritmen til ekspressionsniveauet for hvert gen er vist i den følgende tabel.
(Data er fra hjemmesiden for Normfinder)
  1. Undersøg, om det kan antages, at variansen af logaritmen til ekspressionsniveauet er den samme for de fire gener.

ForegåendeNæste