Pandas로 excel, csv 불러오기
excel을 불러오기 위해서는 xlrd
라이브러리가 설치되어 있어야 한다.
pip install pandas
pip install xlrd
이제 excel 파일을 불러올 수 있다. 더불어 csv도 아래처럼 가져올 수 있다.
import pandas as pd
df = pd.read_excel('data1.xlsx')
df2 = pd.read_csv('data2.csv')
pandas에서 column을 숨김없이 보기
df.head()
를 했는데 모든 칼럼이 보이지 않고 몇몇개가 숨김 처리된다면?
다음처럼 해보자.
pd.set_option('display.max_columns', None)
pandas로 누락된 데이터를 제거하기
만약 title
이라는 칼럼이 누락된 row를 제거하고 싶다면 다음처럼 하면 된다.
df = df.dropna(axis=0, subset=['title'])
pandas에서 서로 다른 두 테이블을 join
만약 user_id
가 공통으로 column으로 존재하는 서로 다른 두 테이블을 조인하려면 다음처럼 하면 된다.
joined = pd.merge(df1, df2, how='inner', left_on='user_id', right_on='user_id')
# user_id는 공통이다. 따라서 아래처럼 해도 된다.
joined = pd.merge(df1, df2, how='inner', on='user_id')
필요 없는 column들 제거하기
예를들어 age, address를 제거하고 싶다면,
df.drop(['age', address], axis=1)
# axis=0은 row를, axis=1은 column을 의미한다.
처리한 데이터를 csv로 저장하기
데이터를 csv로 저장해보자.
df.to_csv('data.csv')
column의 데이터타입 보기
df.info()
rows, colums 개수 보기
df.shape