Afsnit 6.8: Øvelse 4

Denne uges øvelse vedrører situationen med to normalfordelte observationssæt. I skal lave grafiske undersøgelser i form af histogram, qqplot og boxplot. For to observationssæt skal I både sammenligne varianser og sammenligne middelværdier, og specielt lave konfidensinterval for forskel i middelværdi. Derudover indeholder øvelsen yderligere materiale om ophobningsloven, samt en opgave omkring Bartletts test for varianshomogenitet.

Opgave 4.1: Two-sample $t$-test, samme varians

Visse microorganismer producerer biofilm på forskellige overflader, hvilket for eksempel kan vanskeliggøre en sygdomsbekæmpelse. I artiklen Epigallocatechin gallate remodels overexpressed functional amyloids in Pseudomonas aeruginosa and increases biofilm susceptibility to antibiotic treatment studeres muligheden for at bekæmpe biofilm ved hjælp af Epigallocatechin 3-gallates (EGCG, stof der forekommer i grøn te). Artiklen har 12 forfattere, hvoraf 4 har tilknytning til iNANO på Aarhus Universitet.
I denne opgave skal I se på biofilmens stivhed (Youngs modulus målt i kPa) for et eksperiment med bakterien Pseudomonas aeruginosa, PAO1 pFad, hvor der er delt op efter, om der tilsættes EGCG eller ikke tilsættes EGCG. Data findes i filen BiofilmPFad.csv, der har to søjler, hvor den første søjle angiver, om der er tilsat EGCG (angivet som med og uden), og den anden søjle indeholder biofilmens stivhed.
  1. Indlæs data og dan vektorerne behandling og stivhed ud fra søjlerne i de indlæste data. Dan dernæst to datasæt med og uden med værdierne fra stivhed delt op efter behandling, for eksempel kan det første datasæt dannes med kommandoen
    (se afsnit 6.6 for et eksempel på udtræk af data fra datatabel). Angiv, hvor mange observationer der er i hver af de to datasæt (antallet af elementer i en vektor kan i python findes med funktionen len og i MATLAB med funktionen length).
  2. Lav en figur med et qqplot for hvert af de to datasæt. Koden, til at lave flere qqplots i den samme figur, kan du se i kodevinduet i starten af kapitel 6. Synes du, at biofilmens stivhed for hver behandling kan beskrives med en normalfordeling?
    Lav også en figur med boxplot for hvert af de to datasæt. Flere boxplots i den samme figur kan laves som vist i kodevinduet i starten af kapitel 6. Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur?
  3. Opstil modellen, hvor hvert datasæt (med og uden) følger sin egen normalfordeling (husk at angive Statistisk Model nummer).
    Udregn gennemsnit og empirisk spredning for hver af de to datasæt.
  4. Angiv et 95%-konfidensinterval for middelværdien for hver af de to datasæt.
  5. Opskriv hypotesen, at de to varianser er ens, og lav et test for denne hypotese.
    Er det rimeligt at antage, at variansen af biofilmens stivhed er den samme for de to behandlinger?
  6. Opstil nu modellen, hvor data er normalfordelt, og de to datasæt har hver sin middelværdi, men samme varians.
    Opstil hypotesen at de to middelværdier er ens, og lav et test af denne hypotese.
    Er det rimeligt at antage, at biofilmens stivhed har samme middelværdi for de to behandlinger?
  7. Angiv et 95%-konfidensinterval for forskellen i middelværdi af biofilmens stivhed mellem gruppen med tilsætning af EGCG og gruppen uden tilsætning.
    Synes du, at forskellen mellem de to middelværdier i denne opgave er stor (se begrebet effektstørrelse i eksempel 6.2.2)?
En tilsvarende undersøgelse for bakterien Pseudomonas aeruginosa, PAO1 WT, viser, at der er samme varians på stivheden for de to behandlinger med og uden EGCG, og at data ikke strider mod en antagelse om samme middelværdi. Indflydelsen af at tilsætte EGCG er således forskellig for WT-bakterien og pFap-bakterien.

Opgave 4.2: Two-sample $t$-test, forskellig varians

I denne opgave skal I arbejde videre med data omtalt i den foregående opgave. I opgave 4.1 blev biofilmens stivhed for bakterien pFad sammenlignet for to behandlinger med og uden tilsætning af EGCG. Her betragtes i stedet de to bakterier pFad og wt, begge to i situationen uden tilsætning af EGCG. Data ligger i filen Biofilm2Bakt.csv i form af to søjler, hvor første søjle er bakterietype (pFad og wt), og anden søjle er biofilmens stivhed (kPa).
  1. Indlæs data fra filen Biofilm2Bakt.csv. Lav to datasæt med biofilmens stivhed svarende til de to bakterietyper.
    Hvad er den største værdi blandt pFad-målingerne?
  2. Lav en fælles figur med qqplots for begge datasæt.
    Synes du, at biofilmens stivhed for hver bakterietype kan beskrives med en normalfordeling?
    Lav en figur, der indeholder boxplot for de to bakterietyper. Hvilke ligheder og forskelle mellem de to datasæt kan du se i denne figur?
  3. Opstil modellen, hvor hvert datasæt følger sin egen normalfordeling.
    Opstil hypotesen, at der er samme varians på stivheden for de to bakterietyper, og eftervis, at data strider mod at sige, at der er samme varians.
    Angiv Resultat fra webbogen, der bruges til at lave testet.
  4. Angiv et 95%-konfidensinterval for forskellen i middelværdi af biofilmens stivhed mellem bakterierne pFad og WT.
    Angiv Resultat fra webbogen, der bruges til at lave konfidensintervallet.
    Synes du, at forskellen mellem de to middelværdier er stor?
  5. Lav to nye datasæt logPFad og logwt med logaritmen til de oprindelige målinger af stivheden.
    Opstil en statiske model for disse data.
    Undersøg, om det kan antages, at variansen af logaritmen til stivheden er den samme for de to bakterietyper.
    Lav et 95%-konfidensinterval for forskel i middelværdi af logaritmen til stivheden mellem pFad og wt.
    Oversæt det fundne konfidensinterval for forskel i middelværdi af logaritmen til stivheden til et 95%-konfidensinterval for forholdet mellem middelværdierne af de oprindelige målinger (hvor der ikke er taget logaritmen til de målte værdier).
    I artiklen siges der: "Overexpression of pFap led to a -fold decrease in biofilm stiffness".

Opgave 4.3: T-fordelingen

  1. Angiv sandsynligheden for at få en værdi over 2.3 i en -fordeling med 27 frihedsgrader.
  2. Find 97.5%-fraktilen i en -fordeling med 10 frihedsgrader
  3. Angiv sandsynligheden for at få en værdi under 2.228 i en -fordeling med 10 frihedsgrader.

Opgave 4.4: T-test baseret på opsummerede data

For de -test, der udføres i denne bog, er udgangspunktet, at alle data er til rådighed. Imidlertid viser formlerne, at de forskellige test kan udføres, hvis blot gennemsnit og empiriske spredninger, samt antallet af observationer der ligger bagved, er til rådighed.
Et (formodentligt konstrueret) eksempel på dette kan findes i opgave 4.13 i den syvende udgave af Quantitative Chemical Analysis. En bioanalytiker under optræning (trainee) vil være klar til at arbejde selvstændigt, hvis vedkommende opnår resultater sammenlignelige med resultater opnået af en erfaren bioanalytiker. En blodprøve deles op i 11 dele, hvor bioanalytikeren under optræning måler blood urea nitrogen på de 6 dele og den erfarne bioanalytiker på de 5 andre dele. Det må i opgavebesvarelsen antages at målingerne er normalfordelte. Opsummerede resultater for de to bioanalytikere er i den følgende tabel.
  1. Opstil en statistisk model for data.
  2. Overvej om det kan antages at de to bioanalytikere udviser samme spredning i deres målinger.
  3. Overvej, om bioanalytikeren under oplæring er klar til at arbejde selvstændigt.

Kontrol af jeres beregning

Jeg har simuleret data således at gennemsnit og empirisk spredning er som i tabellen ovenfor. Med disse data kan I kontrollere jeres beregninger ved at bruge kommandoerne fra Afsnit 6.5.

Opgave 4.5: Ophobningsloven

Denne opgave vil nok opleves som lidt abstrakt. Det skyldes, at jeg ønsker at vise jer resultatet af at bruge ophobningsloven (som I kender) i en situation, I først bliver præsenteret for i kapitel 7.
Betragt figuren nedenfor, der viser en sammenhæng mellem kobberindhold og densitet af en række prøver. Ud fra data (plusserne i figuren) er der skønnet en linje, der skærer andenaksen i , og som har hældning . For data i figuren har man fundet at
For en ny prøve med ukendt indhold af kobber er tætheden målt til værdien Fra den lineære sammenhæng får vi Som skøn over kobberindholdet bruger vi derfor
Opgaven her går ud på at bruge ophobningsloven til at finde standard error for Man kan vise, at
hvor er et skøn over, hvor meget punkterne afviger fra linjen.
  1. Benyt ophobningsloven til at finde standard error for skønnet over kobberindholdet.
  2. For at lave et approksimativt 95%-konfidensinterval skal I bruge en modificeret version af Resultat 5.1.1 som mere svarer til konfidensintervallerne i regressionsmodellen fra Resultat 7.3.1. I skal bruge formlen
    hvor er antallet af observationer i regressionen vist i ovenstående figur, og er 97.5%-fraktilen i en -fordeling med frihedsgrader.
    Lav nu et approksimativt 95%-konfidensinterval for kobberindholdet.
Den standard error I har fundet ovenfor kan skrives generelt som følgende formel
hvor punkterne i ovenstående figur er og med den ekstra generalitet at den nye måling af densitet er et gennemsnit af målinger.
I afsnit 7.5 bliver I præsenteret for et eksakt konfidensinterval for , som jeg anbefaler, at I generelt bruger. Formlen, som angivet her, er imidlertid meget udbredt, og I kan for eksempel se den på wikipedias side om kalibrering såvel som i bogen Quantitative Chemical Analysis, som nogen af jer kender fra et kursus i analytisk kemi. I opgave 5.3 kommer I til at beregne det eksakte konfidensinterval for de samme data som i denne opgave.

Opgave 4.6: Bartletts test

I denne opgave skal I betragte data fra opgave 4.1 og 4.2 igen omkring stivhed af biofilm, hvor vi deler data ind efter bakterietype (pFad eller wt) og efter behandling (med eller uden tilsætning af EGCG). Dette giver i alt fire grupper af observationer. Data findes i filen BiofilmAlle.csv med to søjler. Første søjle med navnet Gruppe er kombinationen af bakterietype og behandling med værdierne pFadMed, pFadUden, wtMed og wtUden, og anden søjle med navnet Stivhed er biofilmens stivhed.
  1. Indlæs data fra BiofilmAlle.csv som en datatabel. Konstruer en ny datatabel, indeholdende søjlen Gruppe og en søjle med logaritmen til stivhed.
  2. Opstil modellen, hvor logaritmen til stivheden er normalfordelt med hver sin middelværdi og varians i de fire grupper.
  3. Opstil hypotesen at de fire varianser er ens.
    Lav Bartletts test for hypotesen om ens varianser
  4. Hvis du ikke allerede har gjort det, så leg med koden i eksempel 6.7.1.
  5. Find den empiriske spredning i hver af de fire grupper.

Opgave 4.7: Jeres egen ophobningslov

Find et eksempel på brugen af ophobningsloven i et af jeres andre kurser på universitetet, eller eventuelt fra jeres gymnasieundervisning.
Hvis I ikke mener at have set ophobningsloven, så find et eksempel på nettet.

Opgave 4.8: Afleveringsopgave 3

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering3.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.
Når man skal undersøge effekten af en behandling kan det være nødvendigt at overveje, om der kan være en placeboeffekt. Dette betyder, at en deltager i eksperimentet kan vise et positivt respons, selvom behandlingen ikke har nogen effekt. For at tage højde for dette gør man ofte det, at deltagerne i eksperimentet deles op i to grupper, hvor den ene gruppe (procyanidin-gruppen) bliver behandlet med det stof, man ønsker at undersøge, hvorimod den anden gruppe (placebo-gruppen) bliver behandlet med et virkningsløst stof. I et dobbeltblindt forsøg ved hverken deltagerne eller behandlerne hvilken af de to grupper en person tilhører, og dette afsløres først når behandlingsperioden er afsluttet.
I denne opgave skal I se på effekten af Procyanidin B-2 (et stof i æbler: se figur nedenfor) til fremme af hårvæksten på mænd med varierende grad af skaldethed. I et dobbeltlind eksperiment er der 19 deltager i gruppen, der behandles med Procyanidin B-2, og 10 deltagere, der behandles med et placebostof. Data kan ses direkte i artiklen Investigation of topical application of procyanidin B-2 from apple to identify its potential use as a hair growing agent
I filen Skaldethed.csv er resulaterne vedrørende tilvækst i antallet af hår i et kvadrat stort område for alle 29 personer. Filen er organiseret i to søjle hvor den ene søjle angiver behandlingen, og den anden søjle angiver tilvæksten i antallet af hår. (En enkelt måling af antal hår er gennemsnit af, at tre personer har talt antallet af hår på et billede tre gange hver.) Det må i besvarelsen af opgaven antages, at tilvæksten af antallet af hår er normalfordelt.
  1. Indlæs data, og dan to datasæt med tilvæksten i antallet af hår for de to grupper, procyanidin-gruppen og placebo-gruppen. Beregn gennemsnit af målingerne for placebo-gruppen. Overfør den fundne værdi, med to decimaler, til svarAflevering3.txt.
  2. Opstil modellen, hvor hver gruppe har sin egen normalfordeling. Overfør Statistisk Model nummer til svarAflevering3.txt.
  3. Undersøg, om data stemmer overens med en hypotese om samme varians i de to grupper. Overfør -værdi med 3 decimaler, til svarAflevering3.txt.
  4. Angiv et 95%-konfidensinterval for forskel i middelværdi mellem behandlingsgruppen og placebogruppen. Angiv hvilken fordeling der bruges til konstruktionen af konfidensintervallet.
    Overfør til svarAflevering3.txt Resultat nummer fra webbogen til konstruktion af konfidensintervallet.
    Overfør den øvre grænse i konfidensintervallet, med 3 decimaler, til filen svarAflevering3.txt.

ForegåendeNæste