데이터 분석 공부/회고
-
플레이데이터 데이터 엔지니어링 31기 7주차 회고데이터 분석 공부/회고 2024. 5. 20. 00:26
1) 전반적인 느낀 점 (일주일 동안 한 일)본격적으로 딥러닝에 대해 배웠다. 코랩 혹은 WSL & 주피터 노트북을 활용하여 GPU를 사용하는 방법부터 시작해, RNN(순환 신경망)에 대해 학습했다. RNN으로는 주로 시계열 텍스트 데이터를 분석하는데, 전 회사에 다닐 때 했던 리뷰 크롤링 & 감성 분석 프로젝트가 바로 Recurrent Neural Network에 속한다. 물론 그 당시엔 텍스트 분석을 위해 데이터를 임베딩 벡터로 넣어야 한다든지, 신경망이 순환 형식으로 사용된다든지, 활성화 함수로 tanh를 많이 사용한다는 내용 같은 건 전혀 알지 못했다. 지금도 희미한 개념 정도를 이제 겨우 알게 된 수준이겠지만, 어쨌든 konlpy 같은 형태소 분석기도 다시 보니 정말 반가웠다! -------..
-
플레이데이터 데이터 엔지니어링 31기 6주차 회고데이터 분석 공부/회고 2024. 5. 12. 23:32
1) 전반적인 느낀 점 (일주일 동안 한 일)이번 주에는 이론으로는 딥러닝을,실습으로는 에어플로우 위주로 많이 배웠다. 딥러닝의 개요 텐서플로우, 퍼셉트론, 심층신경망(입력층, 은닉층, 출력층), 활성화 함수,손실 함수, 옵티마이저(경사하강법 알고리즘), 검증손실, 드롭아웃, 콜백함수, Early Stopping 비지도학습 K-means 군집 알고리즘(엘보우, 이너셔(inertia)), 실루엣 분석 군집 평가,주성분 분석(PCA: Principla Component Analysis) 차원 축소 알고리즘 (공분산 행렬, 고유값 분해, 고유벡터, 고유값) CNN (Convolutional Neural Networks, 합성곱 신경망)커널(필터 : 입력 데이터와 합성곱 연산을 수행하게 되는 행렬), 특성 맵..
-
플레이데이터 데이터 엔지니어링 31기 5주차 회고데이터 분석 공부/회고 2024. 5. 6. 22:58
1) 전반적인 느낀 점 (일주일 동안 한 일)- 자료구조ㄴ선형 자료구조 : Linked List 를 중점적으로 배웠다. 직접 코드를 짜면서 어떻게 실행되는지 알게 되었다. 그 외 스택, 큐가 선형 자료구조에 속한다.ㄴ비선형 자료구조 : 트리, 그래프가 이에 속한다. Decision Tree 알고리즘과 연결되는 이진 트리 구조에 대해 배웠다. - 예측 클래스예측 클래스는 TN / FP / FN / TP 네 영역으로 구성된다. 정확도 = 정밀도 / 재현도 라는 두 관점으로 나누어 볼 수 있음을 배웠다. 둘 중 어떤 관점에서 볼 것인지를 염두에 두어야 하고, 이에 따라 Precision Recall Curve, F1 스코어, ROC AUC 값 등 여러 지표를 확인할 수 있다. - 머신러닝 모델 전처리 ~ 학습..
-
플레이데이터 데이터 엔지니어링 31기 4주차 회고데이터 분석 공부/회고 2024. 4. 28. 23:51
1) 전반적인 느낀 점 (일주일 동안 한 일)정말.. 정말 많은 것을 배웠다. - 상관분석- 회귀분석 : 단순선형회귀, 다중선형회귀, 로지스틱회귀, 계수축소법 - 통계의 기초 : 정규분포, 표준정규분포, 카이제곱분포, t분포 - 장고 (django) : 간단한 웹 서비스 & 머신러닝 모델 서빙하기 - 머신러닝 전처리 ~ 학습 통계라고는 여론조사 관련 전공 수업에서 들은 95% 신뢰도 어쩌고.. 밖에 기억이 안 나는데 (그조차 들은 기억만 남)통계 수업의 속도감이 꽤나 빨라서 따라가는 데 애를 먹었다. 2) 좋았던 점 (좋았거나 내가 잘했던 점)데이콘에서 하는 이커머스 비즈니스 KPI 선정 대회에 나갈 팀원들을 모집했고 킥오프 미팅 후에, 데이터 탐색 및 EDA를 시작했다. KPI 도출 비..
-
플레이데이터 데이터 엔지니어링 31기 2주차 회고데이터 분석 공부/회고 2024. 4. 14. 20:30
1) 전반적인 느낀 점 (일주일 동안 한 일) 지난 주에 배운 파이썬 크롤링을 계속 연습하면서, 크롤링해온 데이터를 SQL 데이터베이스에 저장하고 가공하는 법을 배우기 시작했다. 데이터 전처리와 시각화 단계도 시작했는데, 데이터에 따라 전처리 과정이 매우 까다롭고 귀찮아질 수 있다는 걸 체감했다. 스타벅스나 편의점 3사의 매장 정보를 크롤링해 온 뒤 가공을 했는데, 주소 형식이 뒤죽박죽이기도 했다. 데이터 분석 취업 스터디 멘토님이 본인도 6개월~1년동안은 데이터 전처리 때문에 이 일이 안 맞는걸까 심각히 고민했다고 하셨는데 그 이유를 알 것 같았다...^^ 그래도 어떤 데이터를 어떤 형식에 맞추어 정리해나갈지 차근차근 단계를 밟아나가다보면 어느 새 깔끔한 데이터셋을 만들 수 있어 뿌듯하기도 하다! ▼ ..