분류 전체보기
-
[SQL] 첫구매일 다음날 다시 방문한 고객 수 구하기 (Game Play Analysis IV)데이터 분석 공부/SQL 2024. 7. 10. 17:06
문제문제 링크 : https://leetcode.com/problems/game-play-analysis-iv/description/ Table: Activity+--------------+---------+| Column Name | Type |+--------------+---------+| player_id | int || device_id | int || event_date | date || games_played | int |+--------------+---------+(player_id, event_date) is the primary key (combination of columns with unique values) of this table..
-
플레이데이터 데이터 엔지니어링 31기 14주차 회고데이터 분석 공부/회고 2024. 7. 5. 17:15
1) 전반적인 느낀 점 (일주일 동안 한 일)오랜만에 작성하는 회고...! 그동안 채용공고 올라온 것 몇 군데 지원하려고 포트폴리오, 자기소개서 작업도 했고 하둡, 스파크, 카프카 구축 위주로 진도 나가느라 딱히 블로그에 정리해서 올리지는 않았네요. 이번 주에는 그 동안 배운 분산 처리 클러스터링 실습해볼 수 있는 미니 프로젝트 주간이어서 전력수급현황 데이터 ETL 파이프라인 구축 및 분석을 주제로 3일간 프로젝트를 진행했습니다. 이번에는 미루지 않고 바로바로 정리까지 완료해서 링크도 첨부합니다 :) [프로젝트] 전력수급현황 데이터 ETL 파이프라인 구축 및 분석 (Hadoop, Spark, Airflow)Github 주소 : https://github.com/pladata-encore/DE31-3rd..
-
[프로젝트] 서울시 지역별 한식당 창업 성공 예측 모델 (ML 예측 모델 구현)데이터 분석 공부/회고 2024. 7. 5. 12:33
🍙 한식당, 어디에 창업해야 성공할 수 있을까? 학교 다닐 때부터, 회사를 다닐 때에도, 심지어 학원을 다니는 지금도"왜 든든한 밥 한 끼 먹을 곳이 마땅치 않을까?" 라는 말을 친구들과 많이 하곤 했는데요. 이번 프로젝트원들과 주제를 고민하며 저녁을 먹을 때에도한식당이 왜 이렇게 없냐는 얘기를 하다가 한식당 창업 성공 예측 모델을 주제로 선정했습니다. 서울시 행정동별로 어떤 지역에 한식당을 창업하면 성공 확률이 높을지를 예측해 보겠습니다. Github 주소 : https://github.com/pladata-encore/DE31-2st_team4/tree/main 1. Prologue1) 데이터셋 소개서울 열린데이터 광장의 서울시 상권분석 데이터행정동별 추정매출, 소득소비, 직장 인구, 상주 인구..
-
[프로젝트] 전력수급현황 데이터 ETL 파이프라인 구축 및 분석 (Hadoop, Spark, Airflow)데이터 분석 공부/회고 2024. 7. 5. 10:25
Github 주소 : https://github.com/pladata-encore/DE31-3rd_team6 GitHub - pladata-encore/DE31-3rd_team6Contribute to pladata-encore/DE31-3rd_team6 development by creating an account on GitHub.github.com 1. 주제전력수급현황 데이터 ETL 파이프라인 구축 및 분석 1) 목표- 수업 시간에 배운 도구를 활용하여, 데이터 수집부터 시각화까지 전체적인 데이터 플로우를 확인하고, 파이프라인 구축을 목표로 함.- 전력수급 데이터를 효율적으로 수집, 저장, 분석하여 전력기획팀의 중장기적인 전략 수립과 의사결정을 지원- 전력수급 트렌드를 시간별, 월별, 연도별 분석 ..
-
[SQL] 셀프 조인 (SELF JOIN) 쓰는 상황과 원리데이터 분석 공부/SQL 2024. 6. 27. 12:37
문제문제 링크 : https://leetcode.com/problems/managers-with-at-least-5-direct-reports/description/?envType=study-plan-v2&envId=top-sql-50 Table: Employee+-------------+---------+| Column Name | Type |+-------------+---------+| id | int || name | varchar || department | varchar || managerId | int |+-------------+---------+id is the primary key (column with unique values) f..
-
[SQL] IF (조건문, 1, 0) 활용해서 AVG나 COUNT 쉽고 짧게 대체하기데이터 분석 공부/SQL 2024. 6. 26. 21:39
문제문제 링크 : https://leetcode.com/problems/confirmation-rate/description/?envType=study-plan-v2&envId=top-sql-50 Table: Signups+----------------+----------+| Column Name | Type |+----------------+----------+| user_id | int || time_stamp | datetime |+----------------+----------+user_id is the column of unique values for this table.Each row contains information about the signup..
-
[SQL] 코호트 / 리텐션 분석 기초 (DATE_FORMAT, DATE_ADD)데이터 분석 공부/SQL 2024. 6. 26. 16:22
문제 : 첫번째 구매월에 구매한 유저 수를 month0으로, 첫구매 다음 월에도 구매한 유저 수를 month1 로 하여 구하라. 답안 예시 : 오답 (trial)WITH TMP AS( SELECT r.order_id ,c.customer_id ,strftime('%Y-%m-01', r.order_date) AS order_month ,strftime('%Y-%m-01', c.first_order_date) AS first_order_month ,COUNT(DISTINCT r.customer_id) as month0 FROM records r INNER JOIN customer_stats c ON r.customer_id = ..
-
[SQL] solvesql 카테고리 별 매출 비율 | SUM () OVER (PARTITION BY ~)데이터 분석 공부/SQL 2024. 6. 18. 14:06
문제 https://solvesql.com/problems/revenue-pct-per-category/#google_vignette 서브 카테고리 별 매출액을 계산하고 그 매출액이 각 서브 카테고리가 속해있는 카테고리 안에서 비중을 얼마나 차지하는지, 그리고 전체 매출액에서는 비중을 얼마나 차지하는지 계산하는 쿼리를 작성해주세요. 쿼리 결과는 아래 컬럼을 포함해야 하고, 모든 수치 데이터는 소수점 아래 셋째 자리에서 반올림 해 둘째 자리까지 표현해주세요.category - 카테고리 이름sub_category - 서브 카테고리 이름sales_sub_category - 서브 카테고리 별 매출액의 합계sales_category - 카테고리 별 매출액의 합계sales_total - 전체 매출액pct_in_ca..