Afsnit 6.6: Samle data i datatabel

En datatabel, hvor søjlerne kan være af forskellig type, kaldes i python en dataframe. Et eksempel er følgende
KoenAlderPige7Pige2Dreng5Dreng7Dreng3 \begin{array}{lc} \text{Koen} & \text{Alder}\\ \text{Pige} & 7\\ \text{Pige} & 2\\ \text{Dreng} & 5\\ \text{Dreng} & 7\\ \text{Dreng} & 3\\ \end{array}
hvor vi har 2 søjler med navnene Koen og Alder, og der er 5 rækker med dataværdier. Konceptuelt er dette blot en tabel, hvor hver søjle repræsenterer en variabel, og hver række repræsenterer et observationsnummer. Søjlerne kan have forskellig type såsom numerisk eller tekst. I har allerede i opgave 3.2 prøvet at udtrække søjler fra en datatabel, og i opgaverne hørende til dette kapitel vil data blive indlæst som dataframes.
Nedenfor konstruerer jeg tabellen gengivet ovenfor ved at bruge funktionen DataFrame i python. Desuden viser jeg, hvordan man kan tilføje søjler til en allerede eksisterende dataframe. I næste kapitel skal I bruge disse metoder til selv at konstruere datatabeller. Når først en datatabel er konstrueret, er situationen den samme, som hvis data er indlæst med read_\text{\textunderscore}csv i python. Nedenfor viser jeg også, hvordan man kan konstruere del-tabeller ud fra en større tabel.
Funktionen DataFrame fra pandasmodulet i python tager formelt som input en dictionary. I en dictionary angiver man inden for krøllede parenteser en serie af par (adskildt af komma), hvor et par består af et søjlenavn og en vektor med værdierne hørende til søjlen: 'navn':vektor. I den følgende kode konstrueres datatabellen vist ovenfor.
En ny søjle kan tilføjes en allerede eksisterende datatabel med konstruktionen
datatabel["navn"]=vektor \text{datatabel["navn"]=vektor}
En ny dataframe med en delmængde af rækkerne af den fulde dataframe kan konstrueres med et betinget udsagn
deltabel=datatabel[betingelse] \text{deltabel=datatabel[betingelse]}
De to nævnte konstruktioner er vist i det følgende kodevindue.
ForegåendeNæste