Afsnit 6.6: Samle data i datatabel
En datatabel, hvor søjlerne kan være af forskellig type, kaldes i
python en
dataframe. Et eksempel er følgende
KoenPigePigeDrengDrengDrengAlder72573
hvor vi har 2 søjler med navnene
Koen og
Alder, og
der er 5 rækker med dataværdier.
Konceptuelt er dette blot en tabel, hvor hver søjle repræsenterer
en variabel, og hver række repræsenterer et observationsnummer.
Søjlerne kan have forskellig type såsom numerisk eller tekst. I har
allerede i opgave 3.2 prøvet at udtrække søjler fra en datatabel, og
i opgaverne hørende til dette kapitel vil data blive indlæst som
dataframes.
Nedenfor konstruerer jeg tabellen gengivet ovenfor ved at bruge
funktionen
DataFrame i python. Desuden viser jeg, hvordan
man kan tilføje søjler til en allerede eksisterende dataframe.
I næste kapitel skal I bruge disse metoder
til selv at konstruere datatabeller.
Når først en datatabel er konstrueret, er situationen den samme,
som hvis data er indlæst med
read_csv i python.
Nedenfor viser jeg også, hvordan man kan konstruere del-tabeller
ud fra en større tabel.
Funktionen
DataFrame fra pandasmodulet i python tager formelt
som input en
dictionary. I en dictionary angiver man
inden for krøllede parenteser en serie af par (adskildt af komma),
hvor et par består af et søjlenavn og en vektor med værdierne
hørende til søjlen: 'navn':vektor. I den følgende kode konstrueres
datatabellen vist ovenfor.
En ny søjle kan tilføjes en allerede eksisterende datatabel med
konstruktionen
datatabel["navn"]=vektor
En ny dataframe med en delmængde af
rækkerne af den fulde dataframe kan konstrueres
med et betinget udsagn
deltabel=datatabel[betingelse]
De to nævnte konstruktioner er vist i det følgende kodevindue.
ForegåendeNæste