[TIL] pandas로 데이터 가지고 놀기

Pandas로 excel, csv 불러오기

excel을 불러오기 위해서는 xlrd 라이브러리가 설치되어 있어야 한다.

pip install pandas
pip install xlrd

이제 excel 파일을 불러올 수 있다. 더불어 csv도 아래처럼 가져올 수 있다.

import pandas as pd
df = pd.read_excel('data1.xlsx')
df2 = pd.read_csv('data2.csv')

pandas에서 column을 숨김없이 보기

df.head() 를 했는데 모든 칼럼이 보이지 않고 몇몇개가 숨김 처리된다면?

다음처럼 해보자.

pd.set_option('display.max_columns', None)

pandas로 누락된 데이터를 제거하기

만약 title이라는 칼럼이 누락된 row를 제거하고 싶다면 다음처럼 하면 된다.

df = df.dropna(axis=0, subset=['title'])

pandas에서 서로 다른 두 테이블을 join

만약 user_id가 공통으로 column으로 존재하는 서로 다른 두 테이블을 조인하려면 다음처럼 하면 된다.

joined = pd.merge(df1, df2, how='inner', left_on='user_id', right_on='user_id')

# user_id는 공통이다. 따라서 아래처럼 해도 된다.
joined = pd.merge(df1, df2, how='inner', on='user_id')

필요 없는 column들 제거하기

예를들어 age, address를 제거하고 싶다면,

df.drop(['age', address], axis=1)
# axis=0은 row를, axis=1은 column을 의미한다.

처리한 데이터를 csv로 저장하기

데이터를 csv로 저장해보자.

df.to_csv('data.csv')

column의 데이터타입 보기

df.info()

rows, colums 개수 보기

df.shape