일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 이중for문
- SQLD
- 데이터시각화
- 선형회귀
- 데이터전처리
- 통계학
- ★
- 시각화
- 프로그래머스
- Set
- 아티클스터디
- AB테스트
- Leetcode
- map
- Join
- Max
- SQL
- 내배캠_학습기록
- Til
- 다중공선성
- python
- 태블로
- 한줄for문
- 내일배움일지
- DATE_SUB
- 내일배움캠프
- 가설검정
- f-string
- 반복문
- 리스트
- Today
- Total
노력에는 지름길이 없으니까요
2) 데이터 확인 (1) 본문
아주아주 느리게 진행할 예정이긴 한데, 조금 많이 느린 것 같긴 하다.
데이터 확인을 해보자!
우선 확인한 것은 이하와 같다.
1) 데이터양 / 컬럼명 확인
2) raw data 기초통계량 확인
3) null값 확인
1) 데이터양 / 컬럼명 확인
데이터 shape : (520, 20)
데이터 컬럼 : ['Age', 'Gender', 'spotify_usage_period', 'spotify_listening_device', 'spotify_subscription_plan', 'premium_sub_willingness', 'preffered_premium_plan', 'preferred_listening_content', 'fav_music_genre', 'music_time_slot', 'music_Influencial_mood', 'music_lis_frequency', 'music_expl_method', 'music_recc_rating', 'pod_lis_frequency', 'fav_pod_genre', 'preffered_pod_format', 'pod_host_preference', 'preffered_pod_duration', 'pod_variety_satisfaction']
2) raw data 기초통계량 확인
허겁지겁 head() 돌려봤는데 일단은 정말로 대부분 범주형 변수가 맞았다. ...
오늘 배운 통계학에서 범주형 변수에 대해 숫자로 인코딩하는 것보다는 원핫을 쓰는 게 낫다곤 했지만,
그럼 대체 컬럼의 몇개를 인코딩 해야하는 거지?
shape에서 20개가 나왔고 하나만 연속형 변수이니...
3) null값 확인
.....일단 침착하게 null값을 살펴봤다.
# 결측값 확인된 변수만 출력
df.isnull().sum()[df.isnull().sum() > 0]
이왕 시작한 거 끝을 보고 싶었는데 조금 더 쉬운 길을 택하러 1)로 돌아갈 수도 있겠다...
'개인 프로젝트' 카테고리의 다른 글
1) 캐글 데이터 살펴보기 (0) | 2024.07.31 |
---|