-
플레이데이터 데이터 엔지니어링 31기 7주차 회고데이터 분석 공부/회고 2024. 5. 20. 00:26728x90
1) 전반적인 느낀 점 (일주일 동안 한 일)
본격적으로 딥러닝에 대해 배웠다.
코랩 혹은 WSL & 주피터 노트북을 활용하여 GPU를 사용하는 방법부터 시작해,
RNN(순환 신경망)에 대해 학습했다.
RNN으로는 주로 시계열 텍스트 데이터를 분석하는데,
전 회사에 다닐 때 했던 리뷰 크롤링 & 감성 분석 프로젝트가 바로 Recurrent Neural Network에 속한다.
물론 그 당시엔 텍스트 분석을 위해 데이터를 임베딩 벡터로 넣어야 한다든지,
신경망이 순환 형식으로 사용된다든지, 활성화 함수로 tanh를 많이 사용한다는 내용 같은 건 전혀 알지 못했다.
지금도 희미한 개념 정도를 이제 겨우 알게 된 수준이겠지만,
어쨌든 konlpy 같은 형태소 분석기도 다시 보니 정말 반가웠다!
-------------
웹 부분에서는 장고에 부트스트랩을 사용해서 CSS를 입혔다.
부트스트랩이란 트위터 개발팀에서 만든 CSS 프레임워크인데,
템플릿 사용법만 알아도 아주 쉽고 빠르게 웹 디자인을 입힐 수 있어서
작업 속도를 엄청나게 향상시켜주는 장점이 있다.
2) 좋았던 점 (좋았거나 내가 잘했던 점)
머신러닝 예제를 풀어보면서 이전에 했던 전처리, 이상치 처리, 결측치 처리, 변수 인코딩, Confusion matrix 까지 다시 복습을 했다.
단순히 복습만 하는 게 아니라 같은 전처리 과정을 하는데 새롭고 유용한 방법들을 많이 알려주셔서 정말 도움이 많이 됐다!
머신러닝 문제는 이미 많은 사람들이 풀어두었고 처음 배울 때도 '생각보다 별 거 없네..?' 라는 생각이 들었지만,
파고 들어갈 수록 소수점 단위의 성능 향상을 위해 꼼꼼하게 인내심을 발휘해야 하는 영역인 것 같다.
- pandas_profiling 라이브러리 : 단 한줄의 코드로 HTML 형식의 보고서 형식으로 데이터셋에 대한 요약을 생성
- missingno 패키지 : 결측값을 시각화하여 쉽게 결측치를 파악하게 해 줌
- SimpleImputer 클래스 : 결측치를 처리하기 위한 scikit-learn의 클래스로, 결측치를 간단, 단순하게 처리 가능
- ColumTransformer : 동일한 인코딩(변환)을 여러 열에 적용하는 편리한 방법
- 타깃 인코딩 : 일반적으로 문자열 레이블로 표현되는 범주형 변수를 모델에 입력으로 제공하기 위해 수치형 값으로 변환해 주는 한 방법
-------------
지난 주 회고 때 목표로 세웠던 SQL / 태블로 / 테크로그 글 작성 목표 중 2개는 성공했다!
SQL 7문제를 풀고 오답노트는 블로그에 정리했고, 수업 내용도 정리했다.
[SQL][해커랭크] weather observation station 9, 10 / 정규표현식, 와일드카드
https://www.hackerrank.com/challenges/weather-observation-station-9/problem?isFullScreen=true Weather Observation Station 9 | HackerRankQuery an alphabetically ordered list of CITY names not starting with vowels.www.hackerrank.com 모음으로 시작
geuljeok.tistory.com
[SQL][해커랭크] The PADS / 문자열 출력
https://www.hackerrank.com/challenges/the-pads/problem?isFullScreen=true The PADS | HackerRankQuery the name and abbreviated occupation for each person in OCCUPATIONS.www.hackerrank.com 이 문제는 크게 두 쿼리로 나누어서 풀게 되어 있습
geuljeok.tistory.com
[SQL][해커랭크] Draw The Triangle 1 / SET @, REPEAT
https://www.hackerrank.com/challenges/draw-the-triangle-1/problem?isFullScreen=true Draw The Triangle 1 | HackerRankDraw the triangle pattern using asterisks.www.hackerrank.com 문제P(R) represents a pattern drawn by Julia in R rows. The following patte
geuljeok.tistory.com
3) 아쉬웠던 점
여전히 수업 외 개인 공부 시간을 잘 확보하지 못하고 있다.
보통 운동하는 데에 시간이 많이 들고 있는데,,, ^_ㅠ
대학생 때 썼던 열품타라도 다시 깔아서 공부 시간을 트래킹해 봐야겠다...
4) 개선할 점
- SQL 문제 풀이 조금 더 끈질기게 생각하고, 시도해보기
- 절대적인 공부량 늘리기. 고정적인 공부 시간 만들기
5) 다음 주 계획
- SQL 해커랭크 Medium 난이도 하루 한 문제 풀기
- 태블로 대시보드 완성하기
- 포트폴리오 내용 구성하기
'데이터 분석 공부 > 회고' 카테고리의 다른 글
[프로젝트] 전력수급현황 데이터 ETL 파이프라인 구축 및 분석 (Hadoop, Spark, Airflow) (0) 2024.07.05 플레이데이터 데이터 엔지니어링 31기 10주차 회고 (0) 2024.06.11 플레이데이터 데이터 엔지니어링 31기 6주차 회고 (0) 2024.05.12 플레이데이터 데이터 엔지니어링 31기 5주차 회고 (0) 2024.05.06 플레이데이터 데이터 엔지니어링 31기 4주차 회고 (0) 2024.04.28