데이터로

이종훈
이종훈
Lee, JongHun

데이터 속에서 의미를 찾고, 분석 결과를 비즈니스 언어로 바꾸는 것을 즐깁니다.
Python · SQL · R을 활용해 데이터 수집부터 ML 모델링, ETL 파이프라인, 시각화까지 end-to-end 분석을 여러 프로젝트에 걸쳐 수행했습니다.

Python 3.10 SQL · MySQL scikit-learn PyTorch · TensorFlow MLflow FastAPI · React

전체 프로젝트

filter 표시: 25
광고 클릭 예측
이진 분류 · 1,000건
사용자 행동 데이터 기반 광고 클릭 여부 예측 모델 개발
▸ 7개 모델 비교 → Random Forest 최종 선정
▸ 9개 파생변수, GridSearchCV 540개 조합 탐색
▸ 40세+ & 저체류시간 고객 CTR 98.4% 세그먼트 발굴
Accuracy 96.5%AUC 0.993
Python · scikit-learn · pandas
이커머스 고객 이탈 예측
이진 분류 · SQL 리스크 플래그
SQL 집계로 리스크 플래그 파생변수 생성 후 ML 이탈 예측 모델 개발
▸ SQL로 is_inactive, has_complaint, is_new 등 파생변수 생성
▸ LR vs Random Forest → RF 최종 선정
▸ Low / Medium / High Risk 3단계 세분화
AUC 0.958
Python · scikit-learn · SQL
물류 배송 지연 예측
이진 분류 · 스마트 물류 데이터
스마트 물류 데이터 기반 배송 지연 여부 예측 이진 분류 모델 개발
▸ LR / RF / XGBoost 비교 → XGBoost 최종 선정
▸ Traffic_Status 핵심 변수 (중요도 57.2%)
AUC 0.810
Python · scikit-learn · XGBoost
전국 음식점 소비 트렌드
RFM + K-Means · 326,826건
공공데이터 기반 전국 음식점 소비 트렌드 분석 및 지역 유형화
▸ 포화형 소도시 vs 성장형 대도시 2개 클러스터 도출
▸ LTV 추정 및 투자 우선순위 (경기도 화성시 1위)
Silhouette 0.595
Python · scikit-learn · pandas
이커머스 SKU 수익성 최적화
K-Means · 148,012건 · 인도 Amazon
Amazon·국제 판매 데이터 분석으로 SKU 수준 수익성 전략 도출
▸ 상위 3% SKU(211개)가 29% 매출 창출
▸ K-Means SKU 세분화 (Silhouette 0.7624)
Silhouette 0.7624
Python · scikit-learn · pandas
크로스 플랫폼 음악 성과 분석
Spotify × YouTube · 20,000+ 트랙 · MLflow
Spotify와 YouTube 통합 분석으로 히트곡 예측 모델 및 전략 수립
▸ 스트림 수 예측 R² 0.847, 히트곡 분류 Accuracy 92.3%
▸ 공식 MV ROI: 평균 스트림 +43.7%
▸ MLflow 기반 실험 관리 시스템 구축
R² 0.847Accuracy 92.3%
Python · scikit-learn · MLflow · Streamlit
패션 커머스 개인화 추천 A/B 테스트
ALS + Hybrid · H&M · FastAPI + React 배포
H&M 데이터셋 기반 개인화 추천 모델 A/B 실험
▸ Hybrid α=0.1 채택: Hit Rate 동등 + Catalog Coverage 109배
▸ FastAPI 백엔드 + React 프론트 실서비스 배포
Hit Rate 35.9%Coverage ×109
Python · implicit(ALS) · FastAPI · React
보드게임 추천 시스템 + 모델 경량화
NCF · 1,894만 평점 레코드
딥러닝 추천 시스템 구축 및 2-bit 양자화 모델 경량화 연구
▸ PyTorch NCF RMSE 7.43% 개선 (1.1960 → 1.1071)
▸ 2-bit 양자화 모델 크기 93.4% 감소 (25.97MB → 1.72MB)
RMSE ↓7.43%모델 ↓93.4%
Python · PyTorch · scikit-learn
패션 이미지 추천 시스템
ResNet50 · TF vs PyTorch · 861장
ResNet50 기반 패션 이미지 임베딩 추천 시스템 및 프레임워크 비교
▸ 2,048차원 임베딩, TF가 PyTorch 대비 48% 빠름
▸ 동일 아키텍처라도 프레임워크별 완전히 다른 특성 공간 확인
TF 48% 빠름
Python · TensorFlow · PyTorch · Streamlit
NLP GitHub
Netflix 콘텐츠 분석 & 추천
TF-IDF + NetworkX · 8,807개
Netflix 콘텐츠 트렌드 분석 및 TF-IDF 기반 추천 시스템 + 협업 네트워크
▸ 배우-감독 협업 네트워크 Degree/Betweenness Centrality 분석
▸ TF-IDF + 코사인 유사도, 동일 장르 매칭 80%+
장르 매칭 80%+
Python · scikit-learn · NetworkX
NLP GitHub
한국 영화 리뷰 감성 분류
TF-IDF + Logistic Regression
한국 영화 리뷰 텍스트 기반 긍정/부정 감성 분류 Baseline 모델
▸ TF-IDF + LR → Validation Accuracy 0.84
▸ Tableau 연계 CSV 출력
Accuracy 0.84
Python · scikit-learn · NLP
NLP GitHub
Reddit 게시글 참여도 분석 & 추천
LDA 토픽 모델링 · A/B 테스트
Reddit 게시글 참여도 분석 및 세그먼트 기반 토픽 추천 시스템
▸ LDA + Welch t-test + FDR 보정으로 유의한 positive topic 도출
▸ KMeans 4개 세그먼트 (평균 score 1.76 ~ 9.63)
log_score +0.35
Python · scikit-learn · LDA · scipy
코로나19 5개국 확산 분석 & 예측
SEIR + LSTM · Johns Hopkins 2020–2023
Johns Hopkins 데이터 기반 5개국 감염 확산 분석 및 예측
▸ SEIR 모델 R₀ 추정, Auto-ARIMA 14일, LSTM 30일 예측
▸ 봉쇄 정책 효과 정량화 (미국: -19.2%p)
Python · pmdarima · TensorFlow
뉴욕 Citi Bike 수요 예측
LightGBM · 2,820만 건
뉴욕 Citi Bike 이용 데이터 분석 및 시간별 수요 예측
▸ LightGBM MAE 75%↓, RMSE 74%↓ (1,627 → 404)
▸ 스테이션별 순유입/유출 분석으로 재배치 우선순위 도출
MAE ↓75%RMSE ↓74%
Python · LightGBM · Prophet
미국 기술주 포트폴리오 최적화
Monte Carlo · AAPL MSFT TSLA NVDA 외
Monte Carlo 시뮬레이션으로 효율적 프론티어 탐색 및 포트폴리오 최적화
▸ 20,000회 시뮬레이션, Lag-5 선형회귀 수익률 예측
▸ NVDA 최고 Sharpe Ratio 1.93, Streamlit 대시보드
Sharpe 1.93
Python · yfinance · Streamlit
NYC 택시 운행 시간 예측
회귀 분석 · R · EDA
NYC 택시 운행 데이터 EDA 및 운행 시간 예측 회귀 모델 개발
▸ Haversine 거리, 시간대, 주말 피처 엔지니어링
▸ LR / DT / RF 교차검증 비교
R · ggplot2 · randomForest · caret
PRODUCT GitHub
모바일 앱 리텐션 & 퍼널 분석
코호트 분석 · 60,471명
모바일 앱 이탈 지점 발굴 및 리텐션 개선 전략 도출
▸ D1 리텐션 3.0% — 심각한 온보딩 문제 발견
▸ 퍼널 분석: 첫 클릭 단계 85% 이탈 확인
▸ 주별 코호트 + Light/Medium/Heavy User 세그먼테이션
D1 Retention 3%첫클릭 이탈 85%
Python · pandas · scipy · plotly
SQL GitHub
국내 7개 도시 생활 패턴 분석
DB 설계 + SQL · MySQL
MySQL 기반 관계형 DB 설계 및 7개 도시 이동·소비·날씨 통합 분석
▸ 6개 테이블·외래키 DB 스키마 직접 설계
▸ 윈도우 함수(RANK, DENSE_RANK, SUM OVER)로 도시별 순위 산출
MySQL 8.0 · SQL
SQL GitHub
classicmodels SQL 비즈니스 분석
MySQL · RFM · 코호트 · Funnel
MySQL classicmodels DB로 고객·매출·수익성 비즈니스 지표 분석
▸ RFM 세그먼테이션 (VIP / Loyal / At Risk / Regular)
▸ 코호트 분석, 파레토 검증, 윈도우 함수 국가별 랭킹
MySQL · SQL
SQL GitHub
통신사 고객 이탈 분석 & ML 예측
SQL EDA + ML · Telco Churn
SQL 탐색 분석으로 이탈 패턴 발굴 후 ML 다모델 비교 예측
▸ 계약 유형·요금제별 이탈률 SQL 분석
▸ SMOTE 불균형 처리 + Ensemble VotingClassifier
▸ VIP/이탈위험/업셀링 고객 세그먼테이션
AUC 0.8432F1 0.5997
Python · scikit-learn · XGBoost · SQL
SQL GitHub
Spotify 트랙 인기도 SQL 분석
SQL · 장르·연도별 트렌드
Spotify 데이터 기반 아티스트·장르·연도별 트렌드 분석
▸ Top 트랙·아티스트 도출, 장르별 평균 인기·템포 분석
▸ CTE·윈도우 함수 활용 복합 SQL 분석
MySQL · SQL
SQL GitHub
Olist 브라질 이커머스 SQL 분석
MySQL · 100K+ 주문
브라질 이커머스 Olist 데이터로 고객·매출·배송 품질 지표 도출
▸ RFM 지표, 6개월 매출 추적, 고객별 주문 간격 분석
▸ 배송 지연 vs 리뷰 점수 관계 분석, 이상 결제 탐지
MySQL · SQL
SQL GitHub
온라인 리테일 고객 행동 분석
ETL · UCI Online Retail · MySQL
UCI Online Retail 데이터 전처리 후 MySQL 적재, 구매 행동 분석
▸ IsCancelled, TotalPrice 파생변수 생성 후 MySQL 적재
▸ 국가별·시간대별 매출 및 반복 구매 세그먼트 분석
Python · pandas · MySQL · SQLAlchemy
SQL GitHub
Google Play 앱 ETL 파이프라인
데이터 엔지니어링 · SQLite
Google Play 앱·리뷰 데이터 수집·정제·SQLite 적재 ETL 구축
▸ Size 단위 통일, Installs 변환, 감성 결측 처리
▸ apps, reviews 테이블 적재 및 데이터 품질 검증
Python · pandas · SQLite
SQL GitHub
서울시 따릉이 이용 패턴 분석
ETL · MySQL · 2023–2025
따릉이 이용 데이터 전처리·MySQL 적재 및 이용 패턴 분석
▸ 월별 KPI, 성별·연령대별 이용 패턴, 탄소 절감 효과 분석
▸ 파생변수 distance_km, speed_kmh, day_type + BI용 View 구축
Python · MySQL · SQL · SQLAlchemy
SQL GitHub
생활가전 리뷰 트렌드 모니터링
자동화 파이프라인 · GitHub Actions · Slack
네이버쇼핑 생활가전 리뷰 자동 수집·분석 데이터 파이프라인
▸ 크롤러 → 감성 분석 → SQLite 적재 → Slack 웹훅 알림
▸ GitHub Actions로 매주 월요일 오전 9시 자동 실행
Python · SQLite · GitHub Actions · Slack

기술 스택

분야도구
언어Python 3.10, R, SQL
ML / DLscikit-learn, XGBoost, LightGBM, PyTorch, TensorFlow, implicit(ALS)
데이터 처리pandas, numpy, scipy, data.table, lubridate
시각화matplotlib, seaborn, plotly, ggplot2, Streamlit, Recharts
NLPTF-IDF, LDA, Logistic Regression
데이터베이스MySQL 8.0, SQLite
ETLSQLAlchemy, pymysql, pyarrow
시계열Prophet, Auto-ARIMA (pmdarima), LSTM
실험 관리MLflow
자동화GitHub Actions, Slack Webhook
백엔드 / 배포FastAPI, Uvicorn, Vercel, Render
프론트엔드React, Vite, TailwindCSS

Contact

data.jonghun.lee@gmail.com LinkedIn GitHub Tableau Public