Afsnit 8.11: Øvelse 6

Denne uges øvelse har til formål at gøre jer fortrolige med den generelle lineære normale model gennem nogle grundlæggende eksempler. Efter øvelsen skal I vide, hvad en faktor er, og I skal have en forståelse af det generelle -test for reduktion af middelværdimodellen.

Opgave 6.1: Ensidet variansanalyse

Galileo formulerede faldloven, der siger, at afstanden en kugle falder i et frit fald er proportional med tiden i anden, Undervejs lavede Galileo eksperimenter, der viser, at to kugler med forskellig masse falder lige hurtigt til jorden. Man siger ofte, at Galileo lavede et eksperiment i det skæve tårn i Pisa, men det er uklart, om dette er historisk korrekt, se Galileo's Leaning Tower of Pisa experiment.
I denne opgave vil jeg lege, at vi laver et Galileo eksperiment med 3 stålkugler med diameter 4 mm, 10 mm og 40 mm. De skal alle tre falde 10 meter, og vi er i stand til at måle faldtiden med en nøjagtighed (spredning) omkring 0.02 sekunder. For hver af de tre kugler er der lavet henholdsvis 10, 12 og 12 gentagelser. Data ligger i filen FreeFall.csv i form af tre søjler. Første søjle er diameter, anden søjle angiver diametergruppe kodet som D4, D10 og D40, og tredje søjle er den målte tid. Gennemsnit og empiriske spredninger for de tre stålkugler er gengivet i nedenstående tabel.
  1. Indlæs data, og lav en figur med boxplot af den målte tid for hver af de tre kugler. Overvej, hvad denne figur viser om forholdet mellem spredningerne på faldtiden for de tre kugler og forholdet mellem middelværdierne.
    Hvilken af de tre kugler har den størst målte faldtid?
  2. Opskriv den statistiske model, hvor faldtiden for hver stålkugle følger sin egen normalfordeling.
    Opskriv hypotesen, at de tre varianser er ens, og lav Bartletts test for denne hypotese. Hvad bliver konklusionen af testet?
  3. Opskriv den statistiske model, hvor hver gruppe har sin egen middelværdi, og alle grupperne har den samme varians.
    Find estimater i denne model (både for middelværdierne og for spredningen).
  4. Benyt parametertabellen til at lave et -test for hypotesen, at
    Angiv et 95%-konfidensinterval for
    Angiv det resultat i webbogen, der ligger bag ovenstående -test.
  5. Opskriv hypotesen, at de tre middelværdier er ens, og lav et test for denne hypotese.
    Hvad bliver konklusionen i denne opgave: er det rimeligt at sige, at der er samme middelværdi af faldtiden for de tre stålkugler?
På grund af luftmodstand er der en lille afvigelse fra Galileos faldlov. Hvis man benytter beregningsmetoden i Measuring the Drag Force on a Falling Ball, vil man få, at den teoretiske faldtid for de tre kugler er 1.463 (D4), 1.442 (D10) og 1.432 (D40). I kan eventuelt prøve at simulere normalfordelte data med disse tre middelværdier og en spredning på 0.02 og se, hvor ofte jeres test for ens middelværdier vil give en -værdi under 0.05.

Opgave 6.2: Tosidet variansanalyse

I denne opgave skal I se på et eksperiment lavet for at finde optimale indstillinger af en Luftsolfanger (link er til beskrivelse af emnet). Et panel opvarmes af solen og opvarmer dermed luft, der sendes gennem panelet. Data er fra artiklen Solar collector performance analysis using anova method. For hver af 9 indstillinger af panel er der foretaget 8 målinger, og de 9 indstillinger er kombination af 3 højder over underlag (3, 5 og 7 cm) og 3 rater af luftgennemstrømning (0.011, 0.035 og 0.043 kg/s). Respons der måles er thermal performance, som er dimensionsløs. Data er i filen SolarHeater.csv, der har tre søjler, Flow (med værdierne flow11, flow35 og flow43), Height (med værdierne h3, h5 og h7) og Performance.
  1. Indlæs data, og dan variablene hoej med kode for højde over underlag, flow med kode for luftgennemstrømningen, og perform med performance.
    Lav et interaktionsplot for performance, hvor der deles ind efter de to faktorer hoej og flow.
    Ud fra interaktionsplottet hvilken af de 9 indstillinger ville du så vælge for at få en høj performance (kod svaret som (h,flow), hvor enten er 3,5 eller 7 og enten er 11, 35 eller 43)?
  2. Opskriv modellen, hvor performance hørende til hver gruppe bestemt af højde og luftgennemstrømning følger sin egen normalfordeling.
    Opskriv hypotesen, at varianserne i de 9 grupper er ens, og lav Bartletts test for denne hypotese. Er det rimeligt at sige, at de 9 varianser er ens?
  3. Opskriv modellen, hvor performance er normalfordelt, og hver gruppe bestemt af højde og luftgennemstrømning har sin egen middelværdi, og alle har den samme varians.
    Opskriv inden for denne model additivitetshypotesen, hvor middelværdien består af et bidrag fra højde og et bidrag fra luftgennemstrømning.
    Lav et test, for at data kan beskrives med den additive model (angiv Resultat fra webbogen der bruges til at lave testet). Hvad bliver konklusionen af testet?
    Stemmer konklusionen, med hvad du kan se i interaktionsplottet?
  4. Lav et test for henholdsvis ingen effekt af højde og ingen effekt af luftgennemstrømning inden for den additive model.
  5. Angiv inden for den additive model skøn over middelværdien af performance for den indstilling af højde og luftgennemstrømning der giver størst performanceværdi.
  6. Angiv inden for den addititve model et 95%-konfidensinterval for forskellen i middelværdi af performance mellem de to luftgennemstrømninger 0.043 og 0.011.

Opgave 6.3: Flere regressionslinjer

Denne opgave vedrører "homogenous catalysis using metal complexes" og "studies of the stereoelectronic parameters associated with ligands surrounding the metal center". Mere specifikt betragter vi sammenhængen mellem den såkaldte Tolman's keglevinkel og procent begravet rumfang for en række ligand-molekyler. Data fra artiklen Percent buried volume for phosphine and N-heterocyclic carbene ligands: steric properties in organometallic chemistry er delt ind i to grupper, hvor den første gruppe vedrører Phosphine og den anden gruppe vedrører -komplekser. Nedenfor betegnes disse gruppe med Phos og AuCl. Data findes i filen ConeAngle.csv med tre søjler: første søjle angiver gruppe, anden søjle angiver vinkel, og tredje søjle angiver procent begravet volumen.
  1. Indlæs data, og dan variablene gruppe, vinkel og volumen.
    Lav en figur, hvor procent begravet volumen afsættes mod keglevinkel, og hvor de to grupper af data, Phos og AuCl, har sin egen farve (kald plotfunktionen to gange for at indsætte punkterne hørende til de to grupper af data).
  2. Opstil den statistiske model, hvor hver gruppe har sin egen lineære sammenhæng mellem middelværdien af volumen og vinkel, og hver gruppe har sin egen varians omkring den lineære sammenhæng (husk at angive Statistisk Model nummer).
    Estimer nu for hver gruppe regressionsmodellen, og indtegn de to estimerede linjer i figuren fra foregående spørgsmål. Du kan lade dig inspirere af koden i det første kodevindue i afsnit 8.10.
  3. Opstil hypotesen, at der er samme varians for de to grupper. Lav -testet for ens varianser.
  4. Opstil nu den reducerede model, hvor der er samme varians i de to regressionsmodeller.
    Undersøg, om det kan antages, at de to hældninger er ens.
  5. Undersøg dernæst, om det kan antages, at de to skæringer er ens.
    Hvilken konklusion drager du af analysen omkring sammenhængen mellem vinkel og volumen?
  6. For modellen, hvor der er den samme lineære sammenhæng for de to grupper, skal du angive skøn og konfidensinterval for de parametre, der indgår i modellen.

Opgave 6.4: Lambrusco

Fødevarer kan have beskyttede titler. For eksempel må danske landmænd ikke lave fetaost. Ofte kan en beskyttet titel være knyttet til et bestemt geografisk område som for eksempel Lambrusco vine. I artiklen An analytical approach to Sr isotope ratio determination in Lambrusco wines for geographical traceability purposes betragtes netop Lambrusco som et eksempel, og det undersøges, om forholdet mellem to strontiumisotoper karakteriserer det geografiske område. Som en indledning til undersøgelsen laves der først et eksperiment til sammenligning af to målemetoder (kaldet microwave og lowTemp) til bestemmelse af forholdet mellem de to strontiumisotoper. For 18 prøver bestemmes forholdet mellem de to strontiumisotoper med begge metoder. Filen Strontium.csv indeholder 18 rækker og tre søjler med søjletitler microwave, lowTemp og differens.
  1. Indlæs data. Lav et qqplot af de 18 differenser, og kommenter på figuren. Angiv antallet af punkter i figuren med en førstekoordinat under -1.5.
  2. Opstil en statistisk model for differenserne. Angiv skøn og 95%-konfidensinterval for spredningen på differenserne.
  3. Lav et test for hypotesen, at der ikke er systematisk forskel mellem de to målemetode.
(Af ukendt grund stemmer beregningerne lavet i denne opgave ikke overens med resultaterne i tabel 3 i artiklen.)

Opgave 6.5: Afleveringsopgave 5

I forbindelse med besvarelsen af denne opgave skal du downloade filen svarAflevering5.txt fra kursushjemmesiden og indsætte nogle tal fra din besvarelse som angivet nedenfor. Filen skal afleveres sammen med din pdf-fil med besvarelsen.
I artiklen Influences of temperature and salinity on physicochemical properties and toxicity of zinc oxide nanoparticles to the marine diatom Thalassiosir pseudonana studeres, hvordan mikroorganismen Thalassiosira pseudonana påvirkes af nanopartikler som funktion af vandtemperatur og saltindhold. Med kommende stigninger i havtemperaturen er det vigtigt at kende til disse forhold. Der er lavet eksperimenter ved fem forskellige vandtemperaturer (10, 15, 20, 25 og 30 grader celsius) og fem forskellige saltindhold (12, 17, 22, 27, 32 PSU), og respons er koncentrationen af ZnO-NP, ved hvilken vækstraten er det halve af vækstraten uden tilsætning af nanopartikler. Data er simulerede i overensstemmelse med informationen i artiklen og ligger i filen Thalas.csv, der har de tre søjler Temperatur, Saltindhold og IC50. I datafilen er temperatur kodet som , og saltindhold er kodet som
  1. Opskriv den statistiske model, hvor hver gruppe bestemt af temperatur og saltindhold har sin egen middelværdi og sin egen varians af IC50, og data er normalfordelt. Overfør Statistisk Model nummer til svarAflevering5.txt.
  2. Opstil hypotesen om samme varians i de 25 grupper, og lav et test for hypotesen. Overfør -værdien fra testet, med 3 decimaler, til svarAflevering5.txt.
  3. Opskriv modellen, hvor hver gruppe bestemt af temperatur og saltindhold har sin egen middelværdi af IC50, og alle grupperne har den samme varians.
    Lav den version af interaktionsplot, hvor gruppegennemsnit afsættes mod faktoren saltindhold. Er der en af kurverne, der altid ligger lavere end de fire andre kurver? Overfør svaret som 1 (ja) eller 2 (nej) til svarAflevering5.txt.
  4. Opskriv hypotesen om en additiv struktur af middelværdien med et bidrag fra temperatur og et bidrag fra saltindhold.
    Lav -testet for hypotesen om additivitet. Overfør -værdien fra testet, med 3 decimaler, til svarAflevering5.txt.
  5. Undersøg, om det kan antages, at saltindhold ikke har nogen effekt på IC50. Husk at angive under hvilken model undersøgelsen foretages. Angiv -teststørrelsen og konklusionen af undersøgelsen.
    Overfør -teststørrelsen, med 1 decimal, til svarAflevering5.txt.
  6. Lav, inden for den additive model, et 95%-konfidensinterval for forskel i middelværdi mellem en temperatur på 25 grader og en temperatur på 10 grader.
    Overfør det øvre endepunkt i intervallet, med 3 decimaler, til svarAflevering5.txt.

Opgave 6.6: Beregne F-test ud fra SSD(M)

I denne opgave skal I reflektere over, at i et -test, for reduktion fra model til model , sammenligner man "variation mellem grupper" med "variation indenfor grupper". Betragt data omkring fire måder at vaske hænder på i afsnit 8.4. Lad model være modellen, hvor hver af de fire måder har sin egen middelværdi af bakterietallet. Kør koden i den skjulte kode Parametertabel i ensidet variansanalyse.
  1. Benyt "Error degrees of freedom" og "Root Mean Squared Error" til at finde og
  2. Betragt nu modellen , hvor alle fire måder at vaske hænder på har samme middelværdi af bakteritallet. Analyser denne model med koden i Parametertabel i ensidet variansanalyse ved at ændre modelformlen fra 'bakt~metode' til 'bakt~1'. Find og
  3. Beregn nu -teststørrelsen for reduktion fra model til model . Find -værdien hørende til testet. Hvad bliver din konklusion fra testet?

Opgave 6.7: T-test

Betragt situation og data fra opgave 6.1.
  1. Lav et test for hypotesen, at (angiv -værdien i testet).
  2. Lav et test for hypotesen at
  3. (Teoretisk spørgsmål) Kan du, inden for den ensidede variansanalysemodel, angive en formel for standard error af ?

Opgave 6.8: Slå grupper sammen

Formålet med denne opgave er mest at træne jer I at lave forskellige omstruktureringer af data. Betragt situation og data fra opgave 6.1. Specifikt betragtes en faktor Gruppe med de tre niveauer "D4", "D10" og "D40" og den tilhørende ensidede variansanalysemodel.
  1. Lav en ny variabel, der inddeler i to grupper, henholdsvis gruppen "D4" og resten. Du kan gøre dette ved først at lave en kopi af Gruppe og i denne kopi erstatte "D10" med "Dstor", og "D40" med "Dstor".
  2. Lav et test for reduktion fra den ensidede variansanalysemodel med tre grupper til modellen, hvor der kun deles ind i to grupper, som beskrevet i foregående spørgsmål.
  3. Kan du beskrive i ord, hvilken hypotese du tester i foregående spørgsmål?
  4. Lav også et test for hypotesen, at der er samme middelværdi af faldtiden i de to grupper "D4" og "Dstor".

ForegåendeNæste