노력에는 지름길이 없으니까요

2) 데이터 확인 (1) 본문

개인 프로젝트

2) 데이터 확인 (1)

데건 2024. 8. 5. 21:41
728x90

아주아주 느리게 진행할 예정이긴 한데, 조금 많이 느린 것 같긴 하다.

 

 

데이터 확인을 해보자!

우선 확인한 것은 이하와 같다.

 

1) 데이터양 / 컬럼명 확인

2) raw data 기초통계량 확인

3) null값 확인

 

 

1) 데이터양 / 컬럼명 확인

500개면 많은 양은 아니다.

데이터 shape : (520, 20)
데이터 컬럼 : ['Age', 'Gender', 'spotify_usage_period', 'spotify_listening_device', 'spotify_subscription_plan', 'premium_sub_willingness', 'preffered_premium_plan', 'preferred_listening_content', 'fav_music_genre', 'music_time_slot', 'music_Influencial_mood', 'music_lis_frequency', 'music_expl_method', 'music_recc_rating', 'pod_lis_frequency', 'fav_pod_genre', 'preffered_pod_format', 'pod_host_preference', 'preffered_pod_duration', 'pod_variety_satisfaction']

 

2) raw data 기초통계량 확인

결과를 보고 내가 뭔가 잘못한 줄 알았다

 

 

허겁지겁 head() 돌려봤는데 일단은 정말로 대부분 범주형 변수가 맞았다. ...

오늘 배운 통계학에서 범주형 변수에 대해 숫자로 인코딩하는 것보다는 원핫을 쓰는 게 낫다곤 했지만,

그럼 대체 컬럼의 몇개를 인코딩 해야하는 거지?

shape에서 20개가 나왔고 하나만 연속형 변수이니...

142개.

 

 

3) null값 확인

.....일단 침착하게 null값을 살펴봤다.

# 결측값 확인된 변수만 출력
df.isnull().sum()[df.isnull().sum() > 0]

 

전체 데이터 520개중 이만큼이 지금 null값 보유중이다

 

이왕 시작한 거 끝을 보고 싶었는데 조금 더 쉬운 길을 택하러 1)로 돌아갈 수도 있겠다...

728x90
반응형

'개인 프로젝트' 카테고리의 다른 글

1) 캐글 데이터 살펴보기  (0) 2024.07.31