Afsnit 2.7: Øvelse 2: IT

Denne uges øvelse vedrører inferens i binomialmodellen og i poissonmodellen. I skal lave test i binomialmodellen og konfidensinterval i både binomialmodellen og poissonmodellen. I den første opgave skal I træne i at afgøre, om binomialmodellen eller poissonmodellen skal bruges til at beskrive data. Husk altid i opgaverne at opskrive den statistiske model til beskrivelse af data.
Opgaverne 2.1-2.5 skal være forberedt hjemmefra og gennemgås ved tavlen til øvelserne. Efter øvelsen skal der afleveres en rapport over opgave 2.6.

Opgave 2.1: Identificere fordeling

Betragt følgende fem datasæt. Forklar i hvert enkelt tilfælde, hvorfor du vil beskrive data med enten en binomialfordeling eller en poissonfordeling. Opskriv den statistiske model for hver observation.
  1. I en transmission af bits er der opstået fejl i 6 bits. Hvilken fordeling vil du bruge til at beskrive observationen ?
  2. En mobilmast formidler i løbet af 1 minut 77 opkald. Hvilken fordeling vil du bruge til at beskrive observationen ?
  3. På et IT-hold på Aarhus Universitet er der startet 23 studerende, men efter et år har 4 valgt at skifte studie til medievidenskab. Hvilken fordeling vil du bruge til at beskrive observationen ?
  4. I et område på 1 kvadratkilometer afsendes der i løbet af et døgn 42 tweets. Hvilken fordeling vil du bruge til at beskrive observationen ?
  5. I et to minutters interview via satelit opstår der 152 bitfejl i transmissionen. Hvilken fordeling vil du bruge til at beskrive observationen ?

Opgave 2.2: Test i binomialmodellen

I opgave 1.5 er omtalt to eksperimenter, hvor en forsøgsperson 41 gange flytter en pointer fra et område til et område på computerskærmen. I det første eksperient ender pointer 21 gange i venstre halvdel af målområdet
  1. Opstil binomialmodellen til beskrivelse af det første eksperiment. Forklar, at med observationen 21 gange i venstre halvdel er -værdien lig med 1 for test af hypotesen, at sandsynlighedsparameteren i binomialmodellen har værdien
  2. Betragt det andet eksperiment fra opgave 1.5, hvor pointer ender i venstre halvdel 8 gange. Find -værdien for test af hypotesen (benyt eventuelt R-koden nederst i afsnit 1.3). Hvordan passer resultatet med dine simulationer fra opgave 1.5?
I Afsnit 1.1 omtalte jeg et af Mendels eksperimenter. Mendel undersøgte mange egenskaber ved ærteplanten. I tabellen nedenfor er et udsnit af Mendels eksperimenter. For alle de viste data er Mendels hypotese, at sandsynligheden for en recessiv er
  1. Betragt binomialmodellen for hver række i tabellen, og find de manglende -værdier for test af hypotesen, at sandsynligheden for recessiv er Hvor mange af de syv -værdier er under 0.5?
Hvis alle hypoteser er sande, forventer vi, at -værdien cirka halvdelen af gangene vil være under 0.5 og halvdelen af gangene være over 0.5. Mendels eksperimenter har været kritiseret for, at -værdierne generelt er for høje. I kan finde en diskussion af dette i artiklen Are Mendel's Data Reliable?.

Opgave 2.3: Konfidensinterval i binomialmodellen

Betragt data fra spørgsmål (b) i Opgave 2.2.
  1. Opstil en statistisk model for data, og lav et 95%-konfidensinterval for sandsynligheden for, at pointer ender i venstre halvdel af målområdet (benyt eventuelt R-koden i Eksempel 2.2.3).

Opgave 2.4: Konfidensinterval i poissonmodellen

Når en opgave skal kodes, vil der næsten altid opstå fejl. Det tager tid at finde og rette fejlene, og fejlene er derfor en omkostning for virksomheden. Data i den følgende tabel viser antallet af fejl lavet hos tre grupper af programmører, der har kodet forskellige opgaver med et varierende antal kodelinjer.
Poissonfordelingen bruges ofte til at beskrive data af typen i denne tabel. Dette skal I også gøre i denne opgave og lade rateparameteren være det forventede antal fejl per 100 linjer med kode.
  1. Betragt gruppe i tabellen. Opskriv poissonmodellen for data, og lav et 95%-konfidensinterval for raten (benyt eventuelt R-koden i Eksempel 2.5.4).
  2. Opskriv den statistiske model for gruppe og gruppe i tabellen, og lav for hver af disse et 95%-konfidensinterval for raten (forventede antal fejl per 100 linjer med kode).
    Hvad er din umiddelbare vurdering: er der samme rate af fejl i de tre grupper?
  3. Hvis vi tror, at raten af fejl per 100 linjer med kode er den samme i de tre grupper, kan vi kombinere data for alle tre grupper i tabellen ovenfor for at lave et fælles konfidensinterval for raten Det samlede antal fejl er og middelværdien i poissonmodellen for summen er Opskriv poissonmodellen for det samlede antal fejl, og lav et 95%-konfidensinterval for

Opgave 2.5: Fortolkning af konfidensinterval

Denne opgave går ud på at eftervise fortolkningen af et konfidensinterval for poissonfordelte data ved hjælp af simulationer. For at løse opgaven skal I bruge koden i kodevinduet nedenfor. I R kan man simulere observationer fra en poissonfordeling med kommandoen rpois, Således vil kommandoen rpois(10,3) give 10 observationer fra en poissonfordeling med rate (middelværdi) lig med 3.
Til hjælp i opgaven er der i kodevinduet nedenfor angivet en kode, der simulerer observationer fra en -fordeling, og for hver simuleret værdi beregner det tilhørende 95%-konfidensinterval. I beregningen bruges funktionen mean, som beregner gennemsnit af data i en vektor.
Først følger en række spørgsmål til forståelse af koden.
  1. Hvilken poissonfordeling simuleres der fra i kodevinduet?
  2. Hvor mange observationer bliver der simuleret?
  3. Hvad beregnes i lower?
  4. Hvad repræsenterer den sidste værdi der udskrives?
  5. Prøv at køre koden et par gange og se variationen i resultatet.
Nu følger en række spørgsmål til belysning af et konfidensinterval.
  1. Simuler for lig med henholdsvis og en enkelt værdi (nSim sættes til 1) fra en poissonfordeling med middelværdi med raten
    Lav en tabel med fem søjler med henholdsvis værdien af den simulerede værdi fra poissonfordelingen, nedre og øvre grænse i konfidensintervallet og længden af konfidensintervallet. Tabellen har fire rækker svarende til de fire værdier af
    Kan du formulere en grov regel for, hvad der sker med længden af konfidensintervallet, når tælletiden firedobles?
  2. Betragt igen de fire tilfælde med og Benyt for hver værdi af koden ovenfor med nSim=100000.
    Lav en tabel med tre søjler med henholdsvis værdien af andel af de simulerede konfidensintervaller der indeholder den sande værdi af og middellængden af de nSim konfidensintervaller. Tabellen har fire rækker svarende til de fire værdier af
    Kan du genfinde din grove regel fra foregående spørgsmål, når du kigger på middellængden af konfidensintervallerne?
  3. I din tabel vil du se, at andelen af intervaller indeholdende den sande værdi af parameteren næsten ikke afhænger af Kan du forklare, hvorfor dette er tilfældet?

Opgave 2.6: Afleveringsopgave

I artiklen Machine learning methods for spam e-mail classification testes en række machine learning metoder med hensyn til deres evne til at klassificere emails korrekt som enten spam eller ægte. Der bruges et datasæt bestående af 6000 emails, hvoraf de 2222 er spam. Datasættet deles op i to dele. Den ene del bruges til at træne algoritmen, og den anden del bruges til at teste algoritmen. I testdelen er der 2224 emails, hvoraf de 824 er spam. I denne opgave vil vi se på, hvor mange af de 824 spammails i testdelen der bliver klassificeret korrekt ved tre metoder: support-vector-machine (SVM), k-nearest neighbour (KNN) og rough sets (RS). Data er vist i den følgende tabel.
Vi er interesseret i at lave skøn og konfidensinterval for sandsynligheden for en korrekt klassifikation af spammails og se på, hvordan denne afhænger af metoden.
  1. Betragt SVM-metoden. Angiv en statistisk model til beskrivelse af data, og beregn et 95%-konfidensinterval for sandsynligheden for korrekt klassifikation.
  2. Lav en tabel, hvor skøn og konfidensinterval for sandsynligheden for korrekt klassifikation angives for alle tre metoder i ovenstående tabel.
  3. Til sidst skal du lave en grafisk illustration af dine resultater. Lav en figur, hvor skøn over sandsynligheden for korrekt klassifikation afsættes mod metoden, kodet som (SVM, KNN, RS), med kommandoen
    plot(metode,skoen,ylim=c(0.8,1.0))
    hvor metode er vektoren c(1,2,3), og skoen er en vektor med de tre skøn over sandsynligheden for korrekt klassifikation. Undersøg, hvad tilføjelsen ylim=c(0.8,1.0) betyder ved at prøve at ændre tallene 0.8 og 1.0.
    Du skal slutte af med at indtegne de fundne konfidensintervaller i figuren i form af lodrette linjestykker. Der er ikke nogen oplagt funktion i R til at gøre dette, og jeg har derfor selv kodet en funktion errorbar. Se punktet Egne funktioner i R i afsnit 1.2 med hensyn til adgang til denne funktion. Når funktionen er hentet ind i R, kan du indtegne konfidensintervallerne i figuren med kommandoen
    errorbar(metode,skoen,nedre,oevre)
    hvor nedre er en vektor med nedre endepunkter for de tre konfidensintervaller og oevre en vektor med de øvre endepunkter.
Bemærkning:Konfidensintervallet i en binomialmodel kan udregens i R med kommandoen prop.test(x,n,correct="FALSE")conf.int. Prøv denne funktion med en af dine udregninger ovenfor.

ForegåendeNæste