데이터 분석 공부/파이썬 데이터 분석
-
로깅 logging 시스템 생성 , 로그 메시지 기록하기데이터 분석 공부/파이썬 데이터 분석 2024. 5. 10. 17:49
import logging 을 통해 로거를 사용하여 로그 메시지를 기록할 수 있습니다.아래와 같이 기본적인 로깅 시스템을 만들어 봅니다. # 로깅 시스템 만들기logging.Formatter를 통해 로그 메시지가 기록되는 형식을 지정해줄 수 있습니다.Handler 옵션을 통해 로그 메시지를 효과적으로 관리할 수 있도록, 콘솔과 파일 영역을 구분합니다. # 로그 생성logger = logging.getLogger()logger.setLevel(logging.INFO)formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')# consoles_handler = logging.StreamHandler()s_hand..
-
이상치 아웃라이어 Outlier 전처리 (ft. load_wine 와인 데이터셋 불러오기)데이터 분석 공부/파이썬 데이터 분석 2024. 4. 26. 14:01
사이킷 런 패키지 안에 포함되어 있을 정도로 유명한 와인 데이터 셋을 가지고 실습을 했다.다만 데이터가 데이터프레임 형식으로 불러와지는 것이 아니기 때문에,wine_load.data , wind_load.feature_names 를 선택해서 데이터프레임화 해 주어야 한다!from sklearn.datasets import load_winewine_load = load_wine()wine = pd.DataFrame(wine_load.data, columns=wine_load.feature_names) 그리고 아웃라이어 실습만 할 거라면 굳이 필요 없지만,y값(정답값, 타겟값)에 해당하는 wine.target 을 가져와서 컬럼에 붙여주는 방법도 배웠다. # 1단계# 타겟값 확인 -> 0, 1, 2 다중 분류..
-
시계열 분석에서 자주 쓰는 판다스 기초 함수데이터 분석 공부/파이썬 데이터 분석 2024. 4. 26. 12:42
Date 컬럼 관련 함수 date 컬럼 날짜형식 변환기본적으로 날짜도 문자열로 인식하기 때문에 to_datetime 을 통해 시간 객체로 변환을 먼저 해 주어야 한다. 많이 쓰므로 중요함 !!!! df['Date2']= pd.to_datetime(df['Order Date'], format="%d/%m/%Y", infer_datetime_format=True) 지정된 기간 내의 일련의 날짜를 생성하는 함수세번째 옵션 freq= 를 통해 매 월요일, 매월 말일 등만 선택해서 생성할 수도 있다. pd.date_range('2020-01-01', '2023-12-31') 현재 위치의 요일 기준 확인하기 (일~월 / 월~일)# 수요일 = 2 이므로 한국 현재는 월~일 형식 사용 중임을 알 수 있음import d..
-
Python matplotlib 파이썬 시각화 한글 폰트 깨질 때 (하라는 대로 다 했는데도 안 될 때! cache 파일을 삭제하세요)데이터 분석 공부/파이썬 데이터 분석 2024. 4. 19. 20:46
파이썬에서 plt, 즉 matplotlib 과 같은 시각화 라이브러리를 활용하다가 한글이 깨질 때 문제 해결 방법입니다. 기본적으로 한글 폰트를 가져오는 코드를 여럿 실행해 보았지만 아무리 해도 한글이 정상 출력되지 않았어요. 아래처럼 진짜 코드한테 눈앞에 폰트 경로를 떠다 먹여줘도 안 먹는 겁니다... from matplotlib import font_manager, rc font_path = "/usr/share/fonts/truetype/nanum/NanumGothic.ttf" font_name = font_manager.FontProperties(fname = font_path).get_name() rc('font', family=font_name) 그래서 font_manager 내장함수를 통해 ..
-
플레이데이터 데이터 엔지니어링 31기 3주차 회고데이터 분석 공부/파이썬 데이터 분석 2024. 4. 19. 20:25
1) 전반적인 느낀 점 (일주일 동안 한 일) 월~화에는 SQL을 학습하고, 이를 python 환경과 병용하며 데이터를 다루는 연습을 했다. SQL은 SQL, 파이썬은 파이썬, 태블로는 태블로! 이렇게 언어나 툴 간의 연계를 해 본 적이 없어서 구분해서 생각했었는데, 이번 주 수업과 실습, 그리고 프로젝트를 통해 내 세계관이 확장되는 듯한 느낌마저 들었다. 수~금은 3일동안 데이터 전처리~시각화에 집중한 분석 프로젝트를 진행했다. 팀 선택부터 주제 선정까지 많은 고민이 있었는데, 결과적으로는 새로운 것들을 실험해보면서도 수업시간에 배운 내용을 효과적으로 연습해 볼 수 있는 좋은 기회였다. 처음으로 미니 프로젝트를 진행한 주차인데, 생각보다 더 재미있었다. 다른 팀들의 주제와 분석 방법, 결과물을 보는 것..
-
git 으로 팀 프로젝트하기 - add, commit, push, checkout, status데이터 분석 공부/파이썬 데이터 분석 2024. 4. 18. 20:36
개발 언어로 팀 프로젝트를 처음 하면서 git도 처음으로 사용해 보게 되었다. 아직 git이 돌아가는 원리를 잘 모르겠어서 알려주시는대로만 명령어를 따라 치는 수준인데, 이것도 하다 보니 조금씩 익숙해지고 있어서 신기하다. 내일은 깃 특강을 들을 예정이라, 좀 더 정리해서 올려봐야지! 터미널에서 본인의 팀 폴더로 이동하여 시작한다. 주의할 점은 main branch에서 작업하지 말고, 꼭 개개인의 브랜치 안에서 작업하기! git status 확인을 생활화하게 됐다. ((이래놓고 프로젝트 마지막 날 main에서 커밋해서 꼬여버림 ^^...ㅠ)) 메인 브랜치로 이동하기 : git checkout main 메인에서 취합 파일 가져오기 : pull 브랜치로 이동하기 : git checkout [브랜치명] 내가 ..
-
피보나치 수열을 만드는 n가지 방법 ㅡ 재귀함수, 제너레이터, yield, next, stack 자료구조데이터 분석 공부/파이썬 데이터 분석 2024. 4. 15. 17:41
피보나치 수열을 만드는 여러 가지 코드를 짜 보고, 그 과정에서 재귀함수, 제너레이터에 대해 배웠다. 우선 아래는 풀이 시간 전에 직접 코드를 짜 본 내용으로, length를 넣으면 해당 수만큼 while문이 돌도록 작성했다. 리스트에 미리 1, 1 까지는 넣어두었던 점, 다른 코드보다 성능(연산 처리 속도)이 좋지 않다는 점이 아쉬웠다. # 피보나치 수열 # 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, ... fibo_list = [1, 1] def fibo(length): while len(fibo_list) < length : a = fibo_list[-2] + fibo_list[-1] fibo_list.append(a) print(a) # a = 1 # b = a # pri..
-
판다스 데이터 전처리 : 주소, 시도명 통일 및 변환하기데이터 분석 공부/파이썬 데이터 분석 2024. 4. 11. 17:46
주소 데이터를 받아온 뒤, 각 주소의 시도명을 담은 컬럼을 만들고자 합니다. 아래의 경우, 같은 시도명인데도 서울, 서울특별시, 서울시, 서울동대문구, 서울특별실 등 다양한 값으로 나와 있는데요. 이러한 데이터를 하나의 이름으로 통일시켜 변환해 주는 방법을 연습합니다. 우선 아래와 같이, 띄어쓰기 기준 첫번째 값들을 'sido'라는 컬럼명 안에 저장해 주었습니다. unique_seven['sido'] = unique_seven.address.apply(lambda x : x.split()[0]) 먼저, '서울'이 들어가는 값은 모두 '서울특별시'로 변환해 담아주었습니다. loc 를 통해 위치를 지정해 주어야 조건을 만족하는 row & 'sido' column 에서만 변환이 이루어지겠죠. # 서울, 서울시..