인공지능 AI/머신러닝 Machine Learning

Q. 판다스pandas 데이터프레임 내에서 특정 칼럼 기준 중복 데이터를 제거하는 방법은?

Tap to restart 2021. 2. 17. 14:00

A. drop_duplicates(subset=['컬럼명']) 을 쓰면 된다.

먼저 나온 것을 남기고 나중에 나오는 것을 제거한다.

(참고: pandas.DataFrame.drop_duplicates)

import pandas as pd

data_list = []
data = {}
data['name'] = '이서연'
data['age'] = 31
data_list.append(data)
data = {}
data['name'] = '김민준'
data['age'] = 38
data_list.append(data)
data = {}
data['name'] = '박지우'
data['age'] = 45
data_list.append(data)
data = {}
data['name'] = '윤지민'
data['age'] = 23
data_list.append(data)
data = {}
data['name'] = '윤지민'
data['age'] = 25
data_list.append(data)
data = {}
data['name'] = '송유진'
data['age'] = 23
data_list.append(data)
data = {}
data['name'] = '이서연'
data['age'] = 32
data_list.append(data)

df = pd.DataFrame(data_list)
print(df)
df = df.drop_duplicates(subset=['name'])
print(df)

 

결과

name  age
0  이서연   31
1  김민준   38
2  박지우   45
3  윤지민   23
4  윤지민   25
5  송유진   23
6  이서연   32
  name  age
0  이서연   31
1  김민준   38
2  박지우   45
3  윤지민   23
5  송유진   23