이종훈 | 데이터 포트폴리오

대표 프로젝트 Top 6

01 · 딥러닝 · 추천

보드게임 추천 시스템 + 모델 경량화

PyTorch NCF로 추천 정확도를 높이고 2-bit 양자화로 모델 크기를 93% 줄인 경량화 연구 프로젝트

RMSE ↓7.43% 모델 크기 ↓93.4%

GitHub 바로가기

02 · 머신러닝 · A/B 테스트

패션 커머스 개인화 추천 A/B 테스트

ALS 협업 필터링과 인기 추천을 결합한 Hybrid 모델로 Catalog Coverage를 109배 확장하고 실서비스로 배포

Hit Rate 35.9% Coverage ×109

GitHub 바로가기

03 · SQL + ML

통신사 고객 이탈 분석 & ML 예측

SQL 탐색 분석으로 이탈 패턴을 발굴하고 SMOTE + Ensemble로 이탈 예측 모델을 구축한 end-to-end 프로젝트

AUC 0.8432 F1 0.5997

GitHub 바로가기

04 · 데이터 분석 · 유통

Project_Buldak: 글로벌 시장 수요 예측 및 소셜 분석

불닭볶음면의 글로벌 소셜 트렌드와 유통 데이터를 결합하여 재고 최적화 모델을 제안한 프로젝트입니다

12-Step FE Workflow Accuracy 92%

GitHub 바로가기

05 · 머신러닝 · 시계열

Mercedes-Benz: 럭셔리 세그먼트 EV 전략 분석

메르세데스-벤츠 고객 데이터를 시계열로 분석하여 럭셔리 전기차 시장의 이탈 방지 및 구매 패턴을 예측했습니다

Time Series Recall 88%

GitHub 바로가기

06 · 데이터 분석 · 물류

Instacart: MFC 슬로팅 및 피킹 동선 최적화

대용량 주문 데이터를 분석하여 물류 센터(MFC) 내 상품 배치 효율을 진단하고, 연관 규칙 기반의 최적 슬로팅 전략을 제안했습니다

Association Rules Distance ↓60%

GitHub 바로가기

전체 프로젝트

표시: 25개

ML GitHub

광고 클릭 예측

이진 분류 · 1,000건

사용자 행동 데이터 기반 광고 클릭 여부 예측 모델 개발

▸ 7개 모델 비교 → Random Forest 최종 선정

▸ 9개 파생변수, GridSearchCV 540개 조합 탐색

▸ 40세+ & 저체류시간 고객 CTR 98.4% 세그먼트 발굴

Accuracy 96.5%AUC 0.993

Python · scikit-learn · pandas

ML GitHub

이커머스 고객 이탈 예측

이진 분류 · SQL 리스크 플래그

SQL 집계로 리스크 플래그 파생변수 생성 후 ML 이탈 예측 모델 개발

▸ SQL로 is_inactive, has_complaint, is_new 등 파생변수 생성

▸ LR vs Random Forest → RF 최종 선정

▸ Low / Medium / High Risk 3단계 세분화

AUC 0.958

Python · scikit-learn · SQL

ML GitHub

물류 배송 지연 예측

이진 분류 · 스마트 물류 데이터

스마트 물류 데이터 기반 배송 지연 여부 예측 이진 분류 모델 개발

▸ LR / RF / XGBoost 비교 → XGBoost 최종 선정

▸ Traffic_Status 핵심 변수 (중요도 57.2%)

AUC 0.810

Python · scikit-learn · XGBoost

ML GitHub

전국 음식점 소비 트렌드

RFM + K-Means · 326,826건

공공데이터 기반 전국 음식점 소비 트렌드 분석 및 지역 유형화

▸ 포화형 소도시 vs 성장형 대도시 2개 클러스터 도출

▸ LTV 추정 및 투자 우선순위 (경기도 화성시 1위)

Silhouette 0.595

Python · scikit-learn · pandas

ML GitHub

이커머스 SKU 수익성 최적화

K-Means · 148,012건 · 인도 Amazon

Amazon·국제 판매 데이터 분석으로 SKU 수준 수익성 전략 도출

▸ 상위 3% SKU(211개)가 29% 매출 창출

▸ K-Means SKU 세분화 (Silhouette 0.7624)

Silhouette 0.7624

Python · scikit-learn · pandas

ML GitHub

크로스 플랫폼 음악 성과 분석

Spotify × YouTube · 20,000+ 트랙 · MLflow

Spotify와 YouTube 통합 분석으로 히트곡 예측 모델 및 전략 수립

▸ 스트림 수 예측 R² 0.847, 히트곡 분류 Accuracy 92.3%

▸ 공식 MV ROI: 평균 스트림 +43.7%

▸ MLflow 기반 실험 관리 시스템 구축

R² 0.847Accuracy 92.3%

Python · scikit-learn · MLflow · Streamlit

ML GitHub

패션 커머스 개인화 추천 A/B 테스트

ALS + Hybrid · H&M · FastAPI + React 배포

H&M 데이터셋 기반 개인화 추천 모델 A/B 실험

▸ Hybrid α=0.1 채택: Hit Rate 동등 + Catalog Coverage 109배

▸ FastAPI 백엔드 + React 프론트 실서비스 배포

Hit Rate 35.9%Coverage ×109

Python · implicit(ALS) · FastAPI · React

DL GitHub

보드게임 추천 시스템 + 모델 경량화

NCF · 1,894만 평점 레코드

딥러닝 추천 시스템 구축 및 2-bit 양자화 모델 경량화 연구

▸ PyTorch NCF RMSE 7.43% 개선 (1.1960 → 1.1071)

▸ 2-bit 양자화 모델 크기 93.4% 감소 (25.97MB → 1.72MB)

RMSE ↓7.43%모델 ↓93.4%

Python · PyTorch · scikit-learn

DL GitHub

패션 이미지 추천 시스템

ResNet50 · TF vs PyTorch · 861장

ResNet50 기반 패션 이미지 임베딩 추천 시스템 및 프레임워크 비교

▸ 2,048차원 임베딩, TF가 PyTorch 대비 48% 빠름

▸ 동일 아키텍처라도 프레임워크별 완전히 다른 특성 공간 확인

TF 48% 빠름

Python · TensorFlow · PyTorch · Streamlit

NLP GitHub

Netflix 콘텐츠 분석 & 추천

TF-IDF + NetworkX · 8,807개

Netflix 콘텐츠 트렌드 분석 및 TF-IDF 기반 추천 시스템 + 협업 네트워크

▸ 배우-감독 협업 네트워크 Degree/Betweenness Centrality 분석

▸ TF-IDF + 코사인 유사도, 동일 장르 매칭 80%+

장르 매칭 80%+

Python · scikit-learn · NetworkX

NLP GitHub

한국 영화 리뷰 감성 분류

TF-IDF + Logistic Regression

한국 영화 리뷰 텍스트 기반 긍정/부정 감성 분류 Baseline 모델

▸ TF-IDF + LR → Validation Accuracy 0.84

▸ Tableau 연계 CSV 출력

Accuracy 0.84

Python · scikit-learn · NLP

NLP GitHub

Reddit 게시글 참여도 분석 & 추천

LDA 토픽 모델링 · A/B 테스트

Reddit 게시글 참여도 분석 및 세그먼트 기반 토픽 추천 시스템

▸ LDA + Welch t-test + FDR 보정으로 유의한 positive topic 도출

▸ KMeans 4개 세그먼트 (평균 score 1.76 ~ 9.63)

log_score +0.35

Python · scikit-learn · LDA · scipy

TS GitHub

코로나19 5개국 확산 분석 & 예측

SEIR + LSTM · Johns Hopkins 2020–2023

Johns Hopkins 데이터 기반 5개국 감염 확산 분석 및 예측

▸ SEIR 모델 R₀ 추정, Auto-ARIMA 14일, LSTM 30일 예측

▸ 봉쇄 정책 효과 정량화 (미국: -19.2%p)

Python · pmdarima · TensorFlow

TS GitHub

뉴욕 Citi Bike 수요 예측

LightGBM · 2,820만 건

뉴욕 Citi Bike 이용 데이터 분석 및 시간별 수요 예측

▸ LightGBM MAE 75%↓, RMSE 74%↓ (1,627 → 404)

▸ 스테이션별 순유입/유출 분석으로 재배치 우선순위 도출

MAE ↓75%RMSE ↓74%

Python · LightGBM · Prophet

TS GitHub

미국 기술주 포트폴리오 최적화

Monte Carlo · AAPL MSFT TSLA NVDA 외

Monte Carlo 시뮬레이션으로 효율적 프론티어 탐색 및 포트폴리오 최적화

▸ 20,000회 시뮬레이션, Lag-5 선형회귀 수익률 예측

▸ NVDA 최고 Sharpe Ratio 1.93, Streamlit 대시보드

Sharpe 1.93

Python · yfinance · Streamlit

TS GitHub

NYC 택시 운행 시간 예측

회귀 분석 · R · EDA

NYC 택시 운행 데이터 EDA 및 운행 시간 예측 회귀 모델 개발

▸ Haversine 거리, 시간대, 주말 피처 엔지니어링

▸ LR / DT / RF 교차검증 비교

R · ggplot2 · randomForest · caret

PRODUCT GitHub

모바일 앱 리텐션 & 퍼널 분석

코호트 분석 · 60,471명

모바일 앱 이탈 지점 발굴 및 리텐션 개선 전략 도출

▸ D1 리텐션 3.0% — 심각한 온보딩 문제 발견

▸ 퍼널 분석: 첫 클릭 단계 85% 이탈 확인

▸ 주별 코호트 + Light/Medium/Heavy User 세그먼테이션

D1 Retention 3%첫클릭 이탈 85%

Python · pandas · scipy · plotly

SQL GitHub

국내 7개 도시 생활 패턴 분석

DB 설계 + SQL · MySQL

MySQL 기반 관계형 DB 설계 및 7개 도시 이동·소비·날씨 통합 분석

▸ 6개 테이블·외래키 DB 스키마 직접 설계

▸ 윈도우 함수(RANK, DENSE_RANK, SUM OVER)로 도시별 순위 산출

MySQL 8.0 · SQL

SQL GitHub

classicmodels SQL 비즈니스 분석

MySQL · RFM · 코호트 · Funnel

MySQL classicmodels DB로 고객·매출·수익성 비즈니스 지표 분석

▸ RFM 세그먼테이션 (VIP / Loyal / At Risk / Regular)

▸ 코호트 분석, 파레토 검증, 윈도우 함수 국가별 랭킹

MySQL · SQL

SQL GitHub

통신사 고객 이탈 분석 & ML 예측

SQL EDA + ML · Telco Churn

SQL 탐색 분석으로 이탈 패턴 발굴 후 ML 다모델 비교 예측

▸ 계약 유형·요금제별 이탈률 SQL 분석

▸ SMOTE 불균형 처리 + Ensemble VotingClassifier

▸ VIP/이탈위험/업셀링 고객 세그먼테이션

AUC 0.8432F1 0.5997

Python · scikit-learn · XGBoost · SQL

SQL GitHub

Spotify 트랙 인기도 SQL 분석

SQL · 장르·연도별 트렌드

Spotify 데이터 기반 아티스트·장르·연도별 트렌드 분석

▸ Top 트랙·아티스트 도출, 장르별 평균 인기·템포 분석

▸ CTE·윈도우 함수 활용 복합 SQL 분석

MySQL · SQL

SQL GitHub

Olist 브라질 이커머스 SQL 분석

MySQL · 100K+ 주문

브라질 이커머스 Olist 데이터로 고객·매출·배송 품질 지표 도출

▸ RFM 지표, 6개월 매출 추적, 고객별 주문 간격 분석

▸ 배송 지연 vs 리뷰 점수 관계 분석, 이상 결제 탐지

MySQL · SQL

SQL GitHub

온라인 리테일 고객 행동 분석

ETL · UCI Online Retail · MySQL

UCI Online Retail 데이터 전처리 후 MySQL 적재, 구매 행동 분석

▸ IsCancelled, TotalPrice 파생변수 생성 후 MySQL 적재

▸ 국가별·시간대별 매출 및 반복 구매 세그먼트 분석

Python · pandas · MySQL · SQLAlchemy

SQL GitHub

Google Play 앱 ETL 파이프라인

데이터 엔지니어링 · SQLite

Google Play 앱·리뷰 데이터 수집·정제·SQLite 적재 ETL 구축

▸ Size 단위 통일, Installs 변환, 감성 결측 처리

▸ apps, reviews 테이블 적재 및 데이터 품질 검증

Python · pandas · SQLite

SQL GitHub

서울시 따릉이 이용 패턴 분석

ETL · MySQL · 2023–2025

따릉이 이용 데이터 전처리·MySQL 적재 및 이용 패턴 분석

▸ 월별 KPI, 성별·연령대별 이용 패턴, 탄소 절감 효과 분석

▸ 파생변수 distance_km, speed_kmh, day_type + BI용 View 구축

Python · MySQL · SQL · SQLAlchemy

SQL GitHub

생활가전 리뷰 트렌드 모니터링

자동화 파이프라인 · GitHub Actions · Slack

네이버쇼핑 생활가전 리뷰 자동 수집·분석 데이터 파이프라인

▸ 크롤러 → 감성 분석 → SQLite 적재 → Slack 웹훅 알림

▸ GitHub Actions로 매주 월요일 오전 9시 자동 실행

Python · SQLite · GitHub Actions · Slack

분야	도구
언어	Python 3.10, R, SQL
ML / DL	scikit-learn, XGBoost, LightGBM, PyTorch, TensorFlow, implicit(ALS)
데이터 처리	pandas, numpy, scipy, data.table, lubridate
시각화	matplotlib, seaborn, plotly, ggplot2, Streamlit, Recharts
NLP	TF-IDF, LDA, Logistic Regression
데이터베이스	MySQL 8.0, SQLite
ETL	SQLAlchemy, pymysql, pyarrow
시계열	Prophet, Auto-ARIMA (pmdarima), LSTM
실험 관리	MLflow
자동화	GitHub Actions, Slack Webhook
백엔드 / 배포	FastAPI, Uvicorn, Vercel, Render
프론트엔드	React, Vite, TailwindCSS

데이터로

대표 프로젝트 Top 6

전체 프로젝트

기술 스택

Contact