-
시계열 분석에서 자주 쓰는 판다스 기초 함수데이터 분석 공부/파이썬 데이터 분석 2024. 4. 26. 12:42728x90
Date 컬럼 관련 함수
date 컬럼 날짜형식 변환
기본적으로 날짜도 문자열로 인식하기 때문에 to_datetime 을 통해 시간 객체로 변환을 먼저 해 주어야 한다.
많이 쓰므로 중요함 !!!!
df['Date2']= pd.to_datetime(df['Order Date'], format="%d/%m/%Y", infer_datetime_format=True)
지정된 기간 내의 일련의 날짜를 생성하는 함수
세번째 옵션 freq= 를 통해 매 월요일, 매월 말일 등만 선택해서 생성할 수도 있다.
pd.date_range('2020-01-01', '2023-12-31')
현재 위치의 요일 기준 확인하기 (일~월 / 월~일)
# 수요일 = 2 이므로 한국 현재는 월~일 형식 사용 중임을 알 수 있음 import datetime datetime.datetime.now().weekday()
요일 확인하기
df['Date2'].apply(lambda x : x.weekday())
30일 이동평균 생성
# 30개의 데이터를 압축해서 1개의 점을 생성 -> 이렇게 만들어진 선이 이동평균선
df_line['Month'] = df_line['Sales'].rolling(window=30).mean()
결측치
결측치 갯수 세기
df_line.isnull().sum()
# 결측치 어떻게 채울지는 현업 관계자들과 논의 후 실행하는 것이 일반적
df_line['Month'].fillna(method='bfill')
시계열 데이터 결측치 보강법
# 데이터를 선형으로 채울건지, 어떤 방향에서 가져와서 채울건지 등을 선택 가능
# 앞뒤 데이터를 보간으로 하여 평균이나 분산 데이터 가져와서 결측치 채우는 함수?df_line.Sales.interpolate
'데이터 분석 공부 > 파이썬 데이터 분석' 카테고리의 다른 글
로깅 logging 시스템 생성 , 로그 메시지 기록하기 (0) 2024.05.10 이상치 아웃라이어 Outlier 전처리 (ft. load_wine 와인 데이터셋 불러오기) (1) 2024.04.26 Python matplotlib 파이썬 시각화 한글 폰트 깨질 때 (하라는 대로 다 했는데도 안 될 때! cache 파일을 삭제하세요) (0) 2024.04.19 플레이데이터 데이터 엔지니어링 31기 3주차 회고 (1) 2024.04.19 git 으로 팀 프로젝트하기 - add, commit, push, checkout, status (0) 2024.04.18