Afsnit 4.6: Samle data i datatabel

En datatabel, hvor søjlerne kan være af forskellig type, kaldes i Python en dataframe. Et eksempel er følgende

$\begin{array}{lc} \text{Koen} & \text{Alder}\\ \text{Pige} & 7\\ \text{Pige} & 2\\ \text{Dreng} & 5\\ \text{Dreng} & 7\\ \text{Dreng} & 3\\ \end{array}$ hvor vi har 2 søjler med navnene Koen og Alder, og der er 5 rækker med dataværdier. Konceptuelt er dette blot en tabel, hvor hver søjle repræsenterer en variabel, og hver række repræsenterer et observationsnummer. Søjlerne kan have forskellig type såsom numerisk eller tekst. I har allerede i opgave 3.2 prøvet at udtrække søjler fra en datatabel, og i opgaverne hørende til dette kapitel vil data blive indlæst som dataframes.

Nedenfor konstruerer jeg tabellen gengivet ovenfor ved at bruge funktionen DataFrame i Python. Desuden viser jeg, hvordan man kan tilføje søjler til en allerede eksisterende dataframe. I næste kapitel skal I bruge disse metoder til selv at konstruere datatabeller. Når først en datatabel er konstrueret, er situationen den samme, som hvis data er indlæst med read $\text{\textunderscore}$ csv i Python. Nedenfor viser jeg også, hvordan man kan konstruere del-tabeller ud fra en større tabel.

Funktionen DataFrame fra pandasmodulet i Python tager formelt som input en dictionary. I en dictionary angiver man inden for krøllede parenteser en serie af par (adskildt af komma), hvor et par består af et søjlenavn og en vektor med værdierne hørende til søjlen: 'navn':vektor. I den følgende kode konstrueres datatabellen vist ovenfor.

En ny søjle kan tilføjes en allerede eksisterende datatabel med konstruktionen

$\text{datatabel["navn"]=vektor}$ En ny dataframe med en delmængde af rækkerne af den fulde dataframe kan konstrueres med et betinget udsagn

$\text{deltabel=datatabel[betingelse]}$ De to nævnte konstruktioner er vist i det følgende kodevindue.

Foregående Næste