250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- DATE_SUB
- 한줄for문
- Leetcode
- 프로그래머스
- 반복문
- 데이터시각화
- SQL
- 리스트
- 다중공선성
- 통계학
- 아티클스터디
- 선형회귀
- 내일배움캠프
- python
- 가설검정
- ★
- Til
- 시각화
- AB테스트
- 이중for문
- 내배캠_학습기록
- map
- f-string
- Set
- 데이터전처리
- Max
- 내일배움일지
- 태블로
- Join
- SQLD
Archives
- Today
- Total
노력에는 지름길이 없으니까요
① 프로젝트 주제 - 고객 패턴확인 본문
728x90
우리가 놓치고 있는 중요한 고객의 패턴 확인
혹은 새로운 기준에 따라 유저 그룹화
특정 기준에 따라 군집화. 군집별 인사이트 도출 -> 서비스 반영에 대한 방향성 제시
주제
- 데이터셋 현황 파악
- 다양한 조건(군집갯수, 컬럼갯수)을 통해 결과를 비교
- 군집(클러스터)별로 유의미한 특징을 살펴보고 이를 시각화
- 군집별 인사이트를 제시
설명
- 각 테이블을 결합하여, 클러스터링을 위한 하나의 데이터셋으로
- 이상치 처리 기법을 활용하거나, 특정 기준을 세워 이상치를 정의 하고 그 이유를 설명
- 클러스터링시, 초기 군집의 갯수와 사용할 컬럼의 갯수는 python 머신러닝 라이브러리를 활용
- 컬럼별 raw data 분포 시각화
- 컬럼 간 상관계수를 히트맵 차트로 구현해주세요.
(유의미한 기준은 +0.6(양의 상관관계) 또는 -0.6(음의 상관관계)으로 판단)
선택사항
- 필요하다면 파생변수를 생성
- 표준화 방법을 여러가지 사용
- 범주형 데이터를 사용할 경우, 인코딩 -> 원-핫 인코딩/라벨인코딩 모두 가능
다만, 범주의 갯수가 많은 경우, 별도 세그멘테이션이 필요할 수 있음. 의미있는 기준을 세워주시고 그 값을 인코딩하기
(예시: 국가가 100개인 경우 육대륙으로 나누어 인코딩). 참고자료: https://nicola-ml.tistory.com/62#google_vignette
- 분석 결과를 한 눈에 파악할 수 있도록 datapane 으로 리포트를 구현
728x90
반응형
'내일배움캠프 일지 > 팀 프로젝트2' 카테고리의 다른 글
② 데이터 파악 (미완) (2) | 2024.09.17 |
---|