pandas 4

Q. 판다스Pandas에서 MySQL 접속해서 테이블 데이터 읽어오는 법은?

A. read_sql_table 메소드로 읽어올 수 있다. MySQL 데이터베이스를 sql 파일로 출력해서 읽어오는 방법을 시도했는데, 판다스에서는 제공해주지 않는 거 같다. MySQL 데이터베이스에서 특정 테이블을 csv로 출력해서 read_csv 메소드를 활용해서 읽어도 된다. 문제는 테이블 특정 칼럼 안에 ','나 '\t'이 있을 경우 csv 또는 tsv로 출력한 뒤 판다스에서 해당 파일을 읽어올 경우 오류가 발생한다. 그런 경우에는 데이터베이스에 접속해서 바로 판다스에서 읽어오는 것이 편하다. 판다스에서 바로 접속해서 읽어올 경우 데이터베이스 연결이 반드시 필요하다. 데이터베이스에 연결하는 라이브러리는 많은데, 판다스에서는 sqlalchemy만 지원한다. 따라서 sqlalchemy를 사용해서 연결..

Q. SQL문을 판다스Pandas로는 어떻게 할까 궁금하다면?

A. 관련 한국어 자료가 없는 거 같아서 위키독스를 활용해서 직접 작성했다. Ctrl+C & Ctrl+V 시리즈: 이 SQL문을 Pandas에서는 어떻게 할까? 대부분 개발자들은 SQL을 알고 있다. 관계형데이터베이스에서 데이터를 다루기 위해서는 필수로 알아야 하니까. SQL에서 할 수 있는 것들을 판다스에서 대부분할 수 있다. 아니 익숙해지면 더 쉽게 할 수 있다. 하지만 어떤 것이 어떻게 대응하는지는 찾기 어렵다. 그래서 정리해본 것이다. 계속 수정 작업 중이다. 아주 간단하고 쉬운 예제로 구성되어 있기 때문에 복사 붙여넣기로 직접 실행해보면 판다스에서 어떻게 응용하면 될지 쉽게 파악할 수 있다.

Q. 판다스pandas 데이터프레임 내에서 특정 칼럼 기준 중복 데이터를 제거하는 방법은?

A. drop_duplicates(subset=['컬럼명']) 을 쓰면 된다. 먼저 나온 것을 남기고 나중에 나오는 것을 제거한다. (참고: pandas.DataFrame.drop_duplicates) import pandas as pd data_list = [] data = {} data['name'] = '이서연' data['age'] = 31 data_list.append(data) data = {} data['name'] = '김민준' data['age'] = 38 data_list.append(data) data = {} data['name'] = '박지우' data['age'] = 45 data_list.append(data) data = {} data['name'] = '윤지민' data['..

판다스pandas 정렬과 질의query 예제

입력값 import pandas as pd data_list = [] data = {} data['name'] = '이서연' data['gender'] = 'F' data['age'] = 31 data_list.append(data) data = {} data['name'] = '김민준' data['gender'] = 'M' data['age'] = 38 data_list.append(data) data = {} data['name'] = '박지우' data['gender'] = 'M' data['age'] = 45 data_list.append(data) data = {} data['name'] = '윤지민' data['gender'] = 'F' data['age'] = 23 data_list.appe..