Afsnit 1.6: Introduktion til python

Python-logo fra https://www.python.org/community/logos/

I Statistisk Dataanalyse med Python skal I bruge programpakken python til at lave de numeriske beregninger. Med hensyn til download af python og relevante pakker henviser jeg til indledningen til kapitel Py. Python er modulopbygget, og de forskellige beregninger kræver derfor, at de relevante dele af python importeres før beregningen. Se eventuelt det skjulte punkt Import i start af pythonprogram i indledningen til kapitel Py.

Python som simpel lommeregner

Kør nedenstående kommando, og prøv egne små regnestykker ved at ændre på koden.

Tal kan placeres i variable som efterfølgende kan indgå i beregninger.

Prøv at tilføje x=x+3 efter første linje i ovenstående kodevindue. Hvad tror du, der sker ?

Det følgende kodevindue viser to måder at formatere et tal, der skrives ud. Prøv i den sidste situation at ændre tallet, således at der kun er 3 nuller efter punktum.

Vektorer i python

I kodevinduet nedenfor dannes en vektor ved brug af kommandoen $np.array([]),$ hvor elementerne i vektoren skrives inden for de kantede parenteser og adskilles af komma. Operationer på vektorer foregår typisk elementvis, såsom addition af to vektorer eller produkt af to vektorer. Funktionen sum anvendt på en vektor giver summen af alle elementerne i vektoren. Prøv, at gætte på resultatet af nedenstående beregning inden du trykker på compute. Prøv selv andre beregninger med vektorer som for eksempel 3*x og x/y.

Indicering af elementerne i en vektor starter i python i 0. En vektor med $k$ elementer er derfor indekseret med tallene $0,1\ldots,k-1.$ Et element, for eksempel det andet element, i en vektor $x$ kan findes ved at skrive x[1]. Alle elementerne i en vektor $x$ med index fra for eksempel 2 til 5 opnås ved at skrive x[2:6] Vektoren, der består af tallene $3,4,\ldots,9,$ kan dannes med kommandoen np.arange(3,10). Vektoren, der består af tallene $0,1,2,3,4$ kan dannes med kommandoen np.arange(5). Vektoren, der består af tre 1-taller efterfulgt af fire 2-taller, kan dannes med kommandoen np.repeat([1,2],[3,4]), og en vektor hvor $(1,2)$ gentages 3 gange kan dannes med np.tile([1,2],3). Endelig vil kommandoen np.linspace(0,1,5) danne en vektor med 5 tal, hvor det første er 0 og det sidste er 1, og de 4 dannede intervaller er lige lange (det vil sige, at vektoren består af tallene 0.0, 0.25, 0.5, 0.75 og 1.0). Prøv igen, at gætte på resultatet af nedenstående beregning inden du trykker på compute.

Logiske udtryk i python

Gæt på, hvad du tror resultatet af nedenstående beregning bliver.

Prøv i stedet 3>2. Lad x=np.arange(1,5), og udregn x>2, x==2 og x!=2. Prøv også at udregne henholdsvis sum(x>2) og sum(x[x>2]).

Forklaring

I python resulterer et logisk udtryk i enten "True" eller "False". I nogle situationer vil python opfatte "True" som 1 og "False" som 0, hvorfor vi kan addere disse. Når en True/False variabel indgår som indeks i en vektor, vil python lave en reduceret vektor, der kun indeholder indgangene, hvor den tilhørende indeksværdi er "True".

Illustration af sandsynlighed i python

Som det fremgår af definitionen af $p$ -værdi i afsnit 1.1, er dette begreb baseret på sandsynligheder. Her vil jeg lige minde jer om en måde at forstå sandsynligheder på. Når jeg kaster en (ærlig) mønt mange gange, forventer jeg, at frekvensen af krone vil være tæt på $\frac{1}{2}.$ Når man siger, at sandsynligheden for krone er $\frac{1}{2},$ betyder dette, at hvis vi kaster mønten flere og flere gange, så vil frekvensen af krone komme tættere og tættere på $\frac{1}{2}.$ Dette kan vi illustrere i python.

Prøv at køre koden. Hvad ser du ? Prøv at ændre på p i kaldet af random.choice.

Funktionen random.choice kan bruges til på simpel vis at simulere et kast med en terning. Kaldet np.random.choice(4,100) simulerer 100 kast med en firesidet terning. Resultatet er 100 tilfældige tal blandt 0,1,2,3. Generelt bruger jeg ordet simulation, når jeg beder python om at generere tilfældige udfald fra en fordeling.

Figurer i python

En af styrkerne ved python er, at vi nemt kan lave figurer af en god kvalitet. Nedenfor kan I prøve en plotkommando for at se nogle af mulighederne (brugen af plot er beskrevet i afsnit Py.2).

Når I har kørt ovenstående kommando, prøv da, ved at kigge på figuren, at svare på følgende spørgsmål.

Kommandoen np.arange(1,8) laver en vektor med tal: hvilken ?
Kommandoen np.tile(2,7) laver en vektor med tal: hvilken ?
Angiv farven der fremkommer ved tilføjelsen 'r'.
Angiv punktsymbolet der fremkommer ved tilføjelsen 's'.

Svar: Figurindstillinger

Kommandoen np.arange(1,8) laver vektoren 1,2,3,4,5,6,7.
Kommandoen np.tile(2,7) laver vektoren 1,1,1,1,1,1,1.
Angivelse af farve og punktsymbol: se afsnit Py.2.

Indlæse data i python

På kursushjemmesiden ligger en zip-fil med en række datasæt. I skal hente denne fil og placere filerne med datasæt i en mappe på jeres egen computer. Når et datasæt ønskes indlæst, skal man enten angive stien til den mappe på computeren, hvor datasættet ligger, eller også skal working directory i python pege på den mappe, hvor datasættet ligger.

I python kan man se det nuværende working directory ved at bruge kommandoen import os og dernæst print(os.getcwd()). Man kan skifte til en anden mappe med kommandoen os.chdir(sti), hvor sti er stien hen til den ønskede mappe. Dette er også omtalt i indledningen til kapitel Py.

For at indlæse et datasæt skal I i dette kursus bruge to forskellige kommandoer. For en fil med en række tal uden struktur bruges kommandoen loadtxt fra numpy: np.loadtxt("filnavn"). I tilfældene hvor I skal bruge denne kommando, vil "filnavn" altid have endelsen ".txt", og hver linje vil indeholde lige mange tal adskilt af mellemrum. For strukturerede data skal I bruge en indlæsningskommando fra modulet pandas (efter modulet er importeret som pd). Indlæsningskommandoen er pd.read $\text{\textunderscore}$ csv("filnavn"). Det forudsættes her, at filen indeholder data organiseret i søjler. Første række i filen indeholder søjleoverskrifter. Hver række svarer til et observationsnummer, og indgangene i rækken giver værdierne svarende til de forskellige søjler for dette observationsnummer. Dataværdierne er adskilt af komma. Disse datafiler vil altid have endelsen ".csv". Hvis data er indlæst i strukturen mydata og en af søjlerne har navnet soejlenavn kan man udtrække denne søjle som mydata.soejlenavn. Afsnit Py.3 indeholder yderligere omtale af read $\text{\textunderscore}$ csv.

I kodevinduerne i denne web-bog er der ikke adgang til filer på en bestemt computer. Jeg viser derfor strukturen i et datasæt gennem et datasæt, der kan hentes gennem python. Data, der hentes, vedrører smagsvurderig af æbler. Der er fire æblesorter og 20 smagsbedømmere, der hver smager på tre sorter. I nedenstående kodevindue udskrives først hele datasættet, og dernæst angives datatypen for de tre søjler i datasættet.

Prøv at ændre print(apple) til print(apple.aftertaste). Prøv dernæst at ændre til print(apple["aftertaste"]). Prøv endelig at ændre til print(apple.aftertaste.values). Kan du forklare forskellen ?
Prøv dernæst at ændre print(apple) til print(apple[apple.panelist=='a']) og dernæst til print(apple[apple.panelist=='a']["product"]). (Det er uheldigt, at en søjle i datatabellen her hedder "product", eftersom pandas har en funktion product som kan anvendes på en datatabel. Hvis man skrive apple.product får man derfor ikke som forventet søjlen med navnet "product".) Kan du forklare, hvad der skrives ud ?

Svar: Udtrække data

Data er indlæst i apple, som er organiseret i søjler. Den første søjle kan enten udtrækkes som apple.aftertaste eller som apple["aftertaste"], idet aftertaste er søjleoverskriften. Resultatet af dette er stadig en søjle. Når der tilføjes .values, bliver resultatet en vektor med dataværdier.
Kommandoen apple[apple.panelist=='a'] giver deltabellen med alle de rækker, hvor panelist har værdien "a". Når der tilføjes ["product"], får man søjlen "product" i denne deltabel.

Egne funktioner i python

Nogle af beregningerne hørende til dette kursus kan ikke laves nemt med standardfunktioner i python. Jeg har derfor lavet nogle nye funktioner, der alle er defineret i filen pytFunktioner.py, som findes på kursushjemmesiden (i zip-filen sammen med datasæt). Denne fil skal placeres i jeres working directory, og funktionerne er til rådighed, når I har givet kommandoen "from pytFunktioner import *". Filen pytFunktioner.py indeholder følgende funktioner:

$\begin{array}{l}\hline \text{additivitetsPlot} \\ \text{bartlettGroup} \\ \text{bartlettList} \\ \text{cvForward} \\ \text{cvRidge} \\ \text{forward} \\ \text{inversReg} \\ \text{refline} \\ \text{ridge} \\ \text{summaryLM} \\ \text{ttest} \\ \text{ttest2} \\ \text{vartest2} \\ \hline \end{array}$ Funktionerne bliver omtalt i de afsnit, hvor de først optræder. Har man glemt, hvordan input til en funktion skal være, kan man give kommandoen help(funktionsnavn).

Foregående Næste