-
플레이데이터 데이터 엔지니어링 31기 2주차 회고데이터 분석 공부/회고 2024. 4. 14. 20:30728x90
1) 전반적인 느낀 점 (일주일 동안 한 일)
지난 주에 배운 파이썬 크롤링을 계속 연습하면서, 크롤링해온 데이터를 SQL 데이터베이스에 저장하고 가공하는 법을 배우기 시작했다.
데이터 전처리와 시각화 단계도 시작했는데, 데이터에 따라 전처리 과정이 매우 까다롭고 귀찮아질 수 있다는 걸 체감했다.
스타벅스나 편의점 3사의 매장 정보를 크롤링해 온 뒤 가공을 했는데, 주소 형식이 뒤죽박죽이기도 했다.
데이터 분석 취업 스터디 멘토님이 본인도 6개월~1년동안은 데이터 전처리 때문에 이 일이 안 맞는걸까 심각히 고민했다고 하셨는데 그 이유를 알 것 같았다...^^
그래도 어떤 데이터를 어떤 형식에 맞추어 정리해나갈지 차근차근 단계를 밟아나가다보면 어느 새 깔끔한 데이터셋을 만들 수 있어 뿌듯하기도 하다!
▼ 지난 주 공부한 내용
우분투 SQL 설치 및 환경설정, Sqlalchemy
# mysql 설치 sudo apt install mysql-server # mysql 동작 상태 확인 sudo service mysql status # 시작/중지/상태/재시작 sudo service mysql start[stop/status/restart] # MySQL 서비스가 시스템 부팅 시에 자동으로 시작되도록 설
geuljeok.tistory.com
pandas 데이터 전처리 : 중복값 제거(duplicated), 행열 재구조화(melt)
오늘은 파이썬 판다스로 데이터 분석 전, 전처리 과정에서 자주 쓰이는 용법을 연습합니다. 세븐일레븐 편의점 매장 데이터를 크롤링해 온 데이터프레임을 가지고 연습했습니다. 1. duplicated dupli
geuljeok.tistory.com
판다스 데이터 전처리 : 주소, 시도명 통일 및 변환하기
주소 데이터를 받아온 뒤, 각 주소의 시도명을 담은 컬럼을 만들고자 합니다. 아래의 경우, 같은 시도명인데도 서울, 서울특별시, 서울시, 서울동대문구, 서울특별실 등 다양한 값으로 나와 있는
geuljeok.tistory.com
2) 좋았던 점 (좋았거나 내가 잘했던 점)
시간이 되는 대로 그날 배운 내용은 최대한 정리하면서 한번 더 복습하려고 했다.
깔끔하진 않지만 나름대로 정리하면서 머릿속에 조금이라도 잘 남아있기를... 😂
부트캠프 외에도 데이터 분석가 멘토링 특강 4회차를 모두 출석했고 수료했다!회차당 3시간이라 짧긴 했지만 배웠던 SQL, 태블로 기술을 부트캠프 프로젝트에서도 적용해볼 기회를 만들어보면 좋겠다.
3) 아쉬웠던 점
미리 잡혀있던 일정이 있어 하루 휴가를 쓰고 다녀오느라 SQL 들어가는 첫 수업을 놓쳤다.
뒷자리 앉으신 분께 여쭤봐서 감사히도 환경설정은 도움을 받았는데, 8시간 수업이다보니 하루하루 진도가 커서 최대한 빠지지 말아야겠다.
4) 개선할 점
매일 오후 2시간 정도는 배운 내용을 토대로 강사님이 문제를 내시고, 그 문제를 해결하는 실습 시간을 갖는다.
어찌저찌 수업 내용을 따라가기는 하겠는데 이를 응용하고 문제를 깔끔하게 풀어내기가 너무너무 어렵다.
수업시간이 끝나면 탁 놔 버리고 문제 해결을 못한 채로 다음 날 수업을 맞이하기 일쑤라 그 부분이 너무 아쉽다. 수업 외 시간을 좀 더 마련해서 쓸 필요가 있겠고, 다른 잘하는 분들의 코드를 참고해서라도 풀이 방법을 꼭 짚고 넘어가도록 하자.
5) 다음 주 계획
- 실습을 하게 되면 꼭 풀이 방법을 알고 넘어가기
- 첫 단원프로젝트,, 열심히 하기!
- SQL 강의 완강하기
'데이터 분석 공부 > 회고' 카테고리의 다른 글
플레이데이터 데이터 엔지니어링 31기 10주차 회고 (0) 2024.06.11 플레이데이터 데이터 엔지니어링 31기 7주차 회고 (0) 2024.05.20 플레이데이터 데이터 엔지니어링 31기 6주차 회고 (0) 2024.05.12 플레이데이터 데이터 엔지니어링 31기 5주차 회고 (0) 2024.05.06 플레이데이터 데이터 엔지니어링 31기 4주차 회고 (0) 2024.04.28