Afsnit 8.11: Øvelse 6

Denne uges øvelse har til formål at gøre jer fortrolige med den generelle lineære normale model gennem nogle grundlæggende eksempler. Efter øvelsen skal I vide, hvad en faktor er, og I skal have en forståelse af det generelle -test for reduktion af middelværdimodellen.

Opgave 6.1: Ensidet variansanalyse

Forskere med tilknytning til iNANO på Arhus Universitet beskriver i artiklen Nanopattern gradients for cell studies fabricated using hole-mask colloidal lithography et eksperiment, hvor der produceres overflader med forskellige strukturer på nanoskala. Strukturerne har en retning, hvori de ændrer sig (gradient), for eksempel "stænger" på overfladen der bliver længere og længere. Det undersøges også, hvordan de forskellige overflader påvirker celler, der vokser på overfladen. Data i denne opgave vedrører cellestørrelse (areal, ) målt ved fire forskellige afstande langs gradienten (500, 1550, 2600 og 3650 ). For hver afstand er der målt på tre prøver. Data ligger i filen GradientCellSize.csv i form af tre søjler. Første søjle er afstand langs gradient, anden søjle angiver afstandsgruppe kodet som D1, D2, D3 og D4, og tredje søjle er cellestørrelse. Data er simulerede i overensstemmelse med informationen i figur 4 i artiklen. Gennemsnit og empiriske spredninger for de fire afstandsgrupper er gengivet i nedenstående tabel.
  1. Indlæs data, og dan de tre variable afstand, gruppe og areal med indholdet i de tre søjler. Lav en figur, hvor areal afsættes mod afstand. Overvej, hvad denne figur viser om forholdet mellem spredningerne på cellestørrelse (areal) for de fire afstandsgrupper og forholdet mellem middelværdierne.
    Hvis du laver en linje fra det øverste punkt i afstandsgruppen 500 til det nederste punkt i afstandsgruppe 3650, hvor mange af datapunkterne ligger så helt over denne linje?
  2. Opskriv den statistiske model, hvor data for hver afstandsgruppe følger sin egen normalfordeling.
    Opskriv hypotesen, at de fire varianser er ens, og lav Bartletts test for denne hypotese. Hvad bliver konklusionen af testet?
  3. Opskriv den statistiske model, hvor hver gruppe har sin egen middelværdi, og alle grupperne har den samme varians.
    Find estimater i denne model (både for middelværdierne og for spredningen).
  4. Benyt parametertabellen til at lave et -test for hypotesen, at
    Angiv et 95%-konfidensinterval for
    Angiv det resultat i webbogen, der ligger bag ovenstående -test.
  5. Opskriv hypotesen at de fire middelværdier er ens, og lav et test for denne hypotese.
    Hvad bliver konklusionen i denne opgave: er det rimeligt at sige, at der er samme middelværdi af celleareal i de fire afstandsgrupper?

Opgave 6.2: Tosidet variansanalyse

Data i denne opgave vedrører bakteriers evne til at hæfte sig på overflader og producere biofilm. Eksperimentet går ud på at vise, at fjerner man det extracellulare DNA (eDNA: fjernes ved DNase behandling), så reduceres bakteriernes evne til at hæfte sig på en overflade markant. På denne vis kan man i forskellige industrielle sammenhænge bekæmpe biofilm uden at bruge giftstoffer.
Data er fra artiklen Surface physicochemistry and ionic strength affects eDNA's role in bacterial adhesion to abiotic surfaces, som er skrevet af en gruppe forskere med tilknytning til iNANO og Biologisk Institut på Aarhus Universitet. Data i opgaven her er simulerede i overensstemmelse med informationen i figur 1 i artiklen. Data er i filen DNaseCeller.csv, der har tre søjler. Den første søjle angiver en opdeling efter behandling med de tre muligheder: uden tilførsel af DNase (uden), løbende tilførsel af DNase under hele eksperimentet (loeb), og en situation hvor der tilsættes DNase, før bakterierne kommer i kontakt med overfladen, men tilførsel afbrydes til tid nul, hvor bakterierne kommer i kontakt med overfladen (nulafbryd). Den anden søjle deler op i tre tidsgrupper, T30, T60 og T90, hvor 30, 60 og 90 angiver antal minutter fra tidspunkt, hvor bakterierne kommer i kontakt med overfladen. Den tredje søjle indeholder respons i form af antal vedhæftede bakterieceller per kvadratcentimeter. For hver kombination af behandling og tidsgruppe er der lavet tre gentagelser af eksperimentet.
  1. Indlæs data, og dan variablene beh med behandling, tid med tidsgruppen, og logCelle med logaritmen til celleantallet.
    Lav et interaktionsplot for logaritmen til celleantallet, hvor der deles ind efter de to faktorer beh og tid.
    For interaktionsplottet, hvor beh er afsat ud af førsteaksen, er to ud af de tre kurver meget tæt på at være parallelle. Hvilke 2 (kod svaret som 1 hvis det er T30 og T60, som 2 hvis det er T30 og T90, og som 3 hvis det er T60 og T90)?
  2. Opskriv modellen, hvor logaritmen til celleantallet hørende til hver gruppe bestemt af behandling og tidsgruppe følger sin egen normalfordeling.
    Opskriv hypotesen, at varianserne i de 9 grupper er ens, og lav Bartletts test for denne hypotese. Er det rimeligt at sige, at de 9 varianser er ens?
  3. Opskriv modellen, hvor logaritmen til celleantallet er normalfordelt, og hver gruppe bestemt af behandling og tidsgruppe har sin egen middelværdi, og alle har den samme varians.
    Opskriv inden for denne model additivitetshypotesen, hvor middelværdien består af et bidrag fra behandling og et bidrag fra tidsgruppen.
    Lav et test, for at data kan beskrives med den additive model (angiv Resultat fra webbogen der bruges til at lave testet). Hvad bliver konklusionen af testet?
    Stemmer konklusionen, med hvad du kan se i interaktionsplottet?
  4. Lav et test for henholdsvis ingen effekt af behandling og ingen effekt af tidsgruppe inden for den additive model.
  5. Angiv inden for den addititve model et 95%-konfidensinterval for forskellen i middelværdi af logaritmen til celleantallet mellem de to behandlinger uden (uden tilsætning af DNase) og loeb (løbende tilførsel af DNase).
    Oversæt det fundne interval for forskel i middelværdi for log-celleantal til et interval for forholdet mellem middelværdierne af celleantal for de to behandlinger, jævnfør underafsnit 6.5.3.

Opgave 6.3: Flere regressionslinjer

Denne opgave vedrører "homogenous catalysis using metal complexes" og "studies of the stereoelectronic parameters associated with ligands surrounding the metal center". Mere specifikt betragter vi sammenhængen mellem den såkaldte Tolman's keglevinkel og procent begravet rumfang for en række ligand-molekyler. Data fra artiklen Percent buried volume for phosphine and N-heterocyclic carbene ligands: steric properties in organometallic chemistry er delt ind i to grupper, hvor den første gruppe vedrører Phosphine og den anden gruppe vedrører -komplekser. Nedenfor betegnes disse gruppe med Phos og AuCl. Data findes i filen ConeAngle.csv med tre søjler: første søjle angiver gruppe, anden søjle angiver vinkel, og tredje søjle angiver procent begravet volumen.
  1. Indlæs data, og dan variablene gruppe, vinkel og volumen.
    Lav en figur, hvor procent begravet volumen afsættes mod keglevinkel, og hvor de to grupper af data , Phos og AuCl, har sin egen farve (kald plotfunktionen to gange for at indsætte punkterne hørende til de to grupper af data).
  2. Opstil den statistiske model, hvor hver gruppe har sin egen lineære sammenhæng mellem middelværdien af volumen og vinkel, og hver gruppe har sin egen varians omkring den lineære sammenhæng (husk at angive Statistisk Model nummer).
    Estimer nu for hver gruppe regressionsmodellen, og indtegn de to estimerede linjer i figuren fra foregående spørgsmål. Du kan lade dig inspirere af koden i det første kodevindue i afsnit 8.10.
  3. Opstil hypotesen, at der er samme varians for de to grupper. Lav -testet for ens varianser.
  4. Opstil nu den reducerede model, hvor der er samme varians i de to regressionsmodeller.
    Undersøg, om det kan antages, at de to hældninger er ens.
  5. Undersøg dernæst, om det kan antages, at de to skæringer er ens.
    Hvilken konklusion drager du af analysen omkring sammenhængen mellem vinkel og volumen?
  6. For modellen, hvor der er den samme lineære sammenhæng for de to grupper, skal du angive skøn og konfidensinterval for de parametre, der indgår i modellen.

Opgave 6.4: Lambrusco

Fødevarer kan have beskyttede titler. For eksempel må danske landmænd ikke lave fetaost. Ofte kan en beskyttet titel være knyttet til et bestemt geografisk område som for eksempel Lambrusco vine. I artiklen An analytical approach to Sr isotope ratio determination in Lambrusco wines for geographical traceability purposes betragtes netop Lambrusco som et eksempel, og det undersøges, om forholdet mellem to strontiumisotoper karakteriserer det geografiske område. Som en indledning til undersøgelsen laves der først et eksperiment til sammenligning af to målemetoder (kaldet microwave og lowTemp) til bestemmelse af forholdet mellem de to strontiumisotoper. For 18 prøver bestemmes forholdet mellem de to strontiumisotoper med bege metoder. File Strontium.csv indeholder 18 rækker og tre søjler med søjletitler microwave, lowTemp og differens.
  1. Indlæs data. Lav et qqplot af de 18 differenser, og kommenter på figuren. Angiv antallet af punkter i figuren med en førstekoordinat under -1.5.
  2. Opstil en statistisk model for differenserne. Angiv skøn og 95%-konfidensinterval for spredningen på differenserne.
  3. Lav et test for hypotesen, at der ikke er systematisk forskel mellem de to målemetode.
(Af ukendt grund stemmer beregningerne lavet i denne opgave ikke overens med resultaterne i tabel 3 i artiklen.)

Opgave 6.5: Afleveringsopgave 5

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering5.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.
I artiklen Influences of temperature and salinity on physicochemical properties and toxicity of zinc oxide nanoparticles to the marine diatom Thalassiosir pseudonana studeres, hvordan mikroorganismen Thalassiosira pseudonana påvirkes af nanopartikler som funktion af vandtemperatur og saltindhold. Med kommende stigninger i havtemperaturen er det vigtigt at kende til disse forhold. Der er lavet eksperimenter ved fem forskellige vandtemperaturer (10, 15, 20, 25 og 30 grader celsius) og fem forskellige saltindhold (12, 17, 22, 27, 32 PSU), og respons er koncentrationen af ZnO-NP, ved hvilken vækstraten er det halve af vækstraten uden tilsætning af nanaopartikler. Data er simulerede i overensstemmelse med informationen i artiklen og ligger i filen Thalas.csv, der har de tre søjler Temperatur, Saltindhold og IC50. I datafilen er temperatur kodet som , og saltindhold er kodet som
  1. Opskriv den statistiske model, hvor hver gruppe bestemt af temperatur og saltindhold har sin egen middelværdi og sin egen varians af IC50, og data er normalfordelt. Overfør Statistisk Model nummer til svarAflevering5.txt.
  2. Opstil hypotesen om samme varians i de 25 grupper, og lav et test for hypotesen. Overfør -værdien fra testet, med 3 decimaler, til svarAflevering5.txt.
  3. Opskriv modellen, hvor hver gruppe bestemt af temperatur og saltindhold har sin egen middelværdi af IC50, og alle grupperne har den samme varians.
    Lav den version af interaktionsplot, hvor gruppegennemsnit afsættes mod faktoren saltindhold. Er der en af kurverne, der altid ligger lavere end de fire andre kurver? Overfør svaret som 1 (ja) eller 2 (nej) til svarAflevering5.txt.
  4. Opskriv hypotesen om en additiv struktur af middelværdien med et bidrag fra temperatur og et bidrag fra saltindhold.
    Lav -testet for hypotesen om additivitet. Overfør -værdien fra testet, med 3 decimaler, til svarAflevering5.txt.
  5. Undersøg, om det kan antages, at saltindhold ikke har nogen effekt på IC50. Husk at angive under hvilken model undersøgelsen foretages. Angiv -teststørrelsen og konklusionen af undersøgelsen.
    Overfør -teststørrelsen, med 1 decimal, til svarAflevering5.txt.
  6. Lav, inden for den additive model, et 95%-konfidensinterval for forskel i middelværdi mellem en temperatur på 25 grader og en temperatur på 10 grader.
    Overfør det øvre endepunkt i intervallet, med 3 decimaler, til svarAflevering5.txt.

Opgave 6.6: Beregne F-test ud fra SSD(M)

I denne opgave skal I reflektere over, at i et -test, for reduktion fra model til model , sammenligner man "variation mellem grupper" med "variation indenfor grupper". Betragt data omkring fire måder at vaske hænder på i afsnit 8.4. Lad model være modellen, hvor hver af de fire måder har sin egen middelværdi af bakterietallet. Kør koden i den skjulte kode Parametertabel i ensidet variansanalyse.
  1. Benyt "Error degrees of freedom" og "Root Mean Squared Error" til at finde og
  2. Betragt nu modellen , hvor alle fire måder at vaske hænder på har samme middelværdi af bakteritallet. Analyser denne model med koden i Parametertabel i ensidet variansanalyse ved at ændre modelformlen fra 'bakt~metode' til 'bakt~1'. Find og
  3. Beregn nu -teststørrelsen for reduktion fra model til model . Find -værdien hørende til testet. Hvad bliver din konklusion fra testet?

Opgave 6.7: T-test

Betragt situation og data fra opgave 6.1.
  1. Lav et test for hypotesen, at (angiv -værdien i testet).
  2. Lav et test for hypotesen at
  3. (Teoretisk spørgsmål) Kan du, inden for den ensidede variansanalysemodel, angive en formel for standard error af ?

Opgave 6.8: Slå grupper sammen

Betragt situation og data fra opgave 6.1. Specifikt betragtes en faktor gruppe med de fire niveauer "D1", "D2", "D3" og "D4" og den tilhørende ensidede variansanalysemodel.
  1. Lav en ny variabel, der inddeler i to grupper, henholdsvis gruppen "D1" og resten. Du kan gøre dette ved først at lave en kopi af gruppe og i denne kopi erstatte "D3" og "D4" med "D2".
  2. Lav et test for reduktion fra den ensidede variansanalysemodel med fire grupper til modellen, hvor der kun deles ind i to grupper, som beskrevet i foregående spørgsmål.
  3. Kan du beskrive i ord, hvilken hypotese du tester i foregående spørgsmål?

ForegåendeNæste