Avaa data dataframeen

Tämän artikkelin ohjelmakoodin ja tulosteet löydät GitHubista

https://github.com/taanila/tilastoapu/blob/master/avaa.ipynb

Jos kopioit koodia itsellesi, niin kannattaa käyttää GitHubia. Tästä artikkelista kopioidut koodit eivät välttämättä toimi oikein.

Oletan, että lukijalla on asennettuna Anaconda ja sen mukana tuleva Jupyter notebook.

Aineisto, joka on jo analysointiin sopivassa muodossa, on helppo avata. Lue lisää analysointiin sopivasta muodosta artikkelista Tilastoaineiston tallentaminen.

Pandas-kirjasto sisältää read_excel ja read_csv funktiot Excel- ja csv-aineistojen avaamiseen. Ohjelmakoodissa otan Pandas-kirjaston käyttöön komennolla

import pandas as pd

Vakiintuneen tavan mukaisesti käytän pandas sijasta lyhennettä pd.

Aineiston luen dataframeen. Dataframe-tietorakenne on tarkoitettu taulukkomuotoisen tiedon käsittelyyn.

Seuraavassa luen Excel-tiedoston sisältämän aineiston. Tiedoston nimi on data1.xlsx ja aineisto löytyy Data-taulukkovälilehdeltä. Aineiston tallennan dataframeen, jonka nimeksi annan df1.

df1 = pd.read_excel('http://taanila.fi/data1.xlsx', 
   sheet_name = 'Data')

Voin tarkastella dataframeen luettua aineistoa komennolla df1.

Seuraavassa avaan paikalliselta levyltä csv-muotoisen aineiston. Esimerkin tapauksessa aineistossa käytetään pilkkuerottelun sijasta puolipistettä. Tämä on usein tilanne suomalaisilla asetuksilla tallennetuissa csv-tiedostoissa. Lopuksi tulostan aineiston 3 ensimmäistä riviä head()-funktiolla.

df2 = pd.read_csv('C:/Users/taaak/data1.csv', delimiter = ';')
df2.head(3)

Jos haluat testata, niin löydät csv-aineiston osoitteesta:

http://taanila.fi/data1.csv

Aineston avaamisen yhteydessä voin tehdä monia lisäasetuksia. Edellä käytin vain lisäasetuksia sheet_name ja delimiter. Lue lisää

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

Seuraavassa artikkelissani Temppuja dataframe-tietorakenteella teen erilaisia suodatuksia ja laskentaa datalle.

Mainokset