Afsnit 6.6: Samle data i datatabel
En datatabel, hvor søjlerne kan være af forskellig type, kaldes i
python en
dataframe. Et eksempel er følgende
hvor vi har 2 søjler med navnene
Koen og
Alder, og
der er 5 rækker med dataværdier.
Konceptuelt er dette blot en tabel, hvor hver søjle repræsenterer
en variabel, og hver række repræsenterer et observationsnummer.
Søjlerne kan have forskellig type såsom numerisk eller tekst. I har
allerede i opgave 3.2 prøvet at udtrække søjler fra en datatabel, og
i opgaverne hørende til dette kapitel vil data blive indlæst som
dataframes.
Nedenfor konstruerer jeg tabellen gengivet ovenfor ved at bruge
funktionen
DataFrame i python. Desuden viser jeg, hvordan
man kan tilføje søjler til en allerede eksisterende dataframe.
I næste kapitel skal I bruge disse metoder
til selv at konstruere datatabeller.
Når først en datatabel er konstrueret, er situationen den samme,
som hvis data er indlæst med
readcsv i python.
Nedenfor viser jeg også, hvordan man kan konstruere del-tabeller
ud fra en større tabel.
Funktionen
DataFrame fra pandasmodulet i python tager formelt
som input en
dictionary. I en dictionary angiver man
inden for krøllede parenteser en serie af par (adskildt af komma),
hvor et par består af et søjlenavn og en vektor med værdierne
hørende til søjlen: 'navn':vektor. I den følgende kode konstrueres
datatabellen vist ovenfor.
En ny søjle kan tilføjes en allerede eksisterende datatabel med
konstruktionen
En ny dataframe med en delmængde af
rækkerne af den fulde dataframe kan konstrueres
med et betinget udsagn
De to nævnte konstruktioner er vist i det følgende kodevindue.
ForegåendeNæste