노력에는 지름길이 없으니까요

기초 팀프로젝트(1차) 피드백 정리 본문

내일배움캠프 일지/팀 프로젝트

기초 팀프로젝트(1차) 피드백 정리

데건 2024. 7. 31. 16:57
728x90

다른 팀께 제시해주신 방향 중 용이한 피드백이 많아서 정리해두고자 한다. 

 

전처리 파트

1) 결측치와 이상치

  • 94% 결측치를 가진 컬럼 -> 대부분의 팀이 컬럼 자체를 분석에서 제외
  • 우선 박스플롯을 그려본 후 이상치가 있음을 파악하고 이후 데이터를 일일이 확인하여 이상치 확인
  • 일반적으로 10% 이하 결측치는 대체하거나 삭제하고, 50% 이하는 대체한다. (질문 다시하기)
  • 결측치를 전부 삭제하지 않고 none, 0, 해당없음 등으로 분류
  • -> 최대한 모든 데이터를 남기려는 과정에서 데이터 분석 시 편향을 줄일 수 있었을 것이다.
  • 이름과 같은 고유명사는 결측치를 처리하면 안됨  -> 식별자로 처리

 

2) 파생변수

  • 년월일로 구분된 컬럼 -> datetime 형식으로 압축
  • 주중, 주말로 구분된 컬럼 -> 전체 숙박일 수로 압축
  • baby, children -> 이 차이를 깊게 파고들었을 때 통계적으로 유의한 결과를 얻었음
    그리고 다시 묶어서 자녀의 유무 파악... -> 데이터에 대한 깊은 고찰이 필요.
  • 이 데이터가 어디서 파생될 수 있었는가?
  • 이 데이터를 사용해서 어떤 데이터를 파생시킬 수 있는가?

 

시각화 파트

  • 데이터 분석을 진행할 때 데이터 설명이 반드시 필요함
  • 듣는 사람들은 데이터 정보를 모른다. 항상 유념해야 한다.
  • 목적에 맞는 유용한 그래프를 다양하게 사용하기
  • 설명이 필요한 부분에 대해서는 표보다는 시각자료를 활용하기. (통계축약표 제시보다는 그래프를)
  • 통계 지식이 없는 사람의 입장에서는 이해하기 힘들 수 있다. (항상 듣는 사람을 생각하기)
  • 데이터에 대한 것뿐만 아니라, 설명에 사용되는 모든 자료에 대한 처리 과정을 시각화라고 생각하기

 

분석 파트

  • 정량적을 넘어 정성적 분석으로 나아가기
  • 분석을 진행하기 전, 가설을 먼저 결정하고 이를 분석해서 결론을 내리는 방식이 논리적으로 느껴짐
  • 데이터 자체에 대한 가설을 세우는 것이 중요하다.
    -> 이 과정을 통해 아이디어가 확장될 수 있음
  • 데이터의 베이스가 되는 국가가 제시되어 있다면, 그 나라의 연령 기준과 대출 기준 파악하기
  • 데이터에 대한 명확성이 검증되지 않은 상태로 검정을 하면 신빙성이 떨어질 수 있음
  • 원인과 결과에 대한 해석이 필요하다.
  • 데이터 분류 시에는 통계적 기준을 항상 명시하기.
  • 3% -> 작은 수치를 간과하지 않는 게 좋다.

 

  • 두 개의 변수에 대해 연관지어서 분석을 진행할 거라면, 상식선의 판단을 완전히 제하고 두개에 대한 상관관계를 분석하는 것이 좋다. (왜 그것을 연관지었는지에 대한 통계적 근거를 제시해야 함)
  • IQR -> 대체로 효과적이지만, 데이터가 비대칭인 경우 오독할 가능성이 있으니 주의
  • 시계열 데이터의 특징 -> 기간을 어떻게 잡느냐에 따라 분석 결과와 해석이 달라진다. -> 데이터가 시간에 따라 흘러가면서 어떤 모습을 보였는지 파악했다면 좋았을 것임 (계절요인 등)

 

  • ANOVA 주의사항 -> 데이터의 분포를 보고 비교를 해줌, 정규성과 등분산성이 있어야함 그렇지 않으면 오독됨
  • pca 주의사항 -> 데이터 양이 많고 분포형태가 정규분포에 가까워야 함
  • 여러가지 제한 사항이 모델마다 있는데 모델을 연속적으로 사용하게 되면 데이터 해석력이 떨어질 수 있다.

 

방안 제시

  • 마케팅 제안을 할거라면 이득과 비용을 고려해야 함
  • 사람들의 감성을 이용한 방안 제시가 중요하게 작용할 수 있다. ex) 종교, 아이, 가족 등
  • 정성적 분석을 잘 활용했던 팀에게 많은 칭찬을 주심
  • 논문 자체도 데이터 분석 결과 -> 다른 데이터를 사용하게 될 때는 주의를 해야 함
  • 분류기준이 다른 그래프를 근거로서 제시하면 안됨

 

전반적

- 항상 출처를 공유할 것

 

 

도메인 지식

  • 저신용자의 이자율을 높게 하는 이유 : 돈을 높게 내게 일부러 만든다... (돈을 못 받으니까 이자라도 내...)
  • -> 잘못하면 은행에서 피해를 입기 때문에 이 역시 risk management인 것임
  • 부실 채권 : 부실채권이란 금융기관의 대출채권 중 부도 등의 사유로 정상적으로 회수되고 있지 않은 대출채권을 이야기합니다. 금융기관에서는 대출채권을 자산건전성 분류기준에 따라 정상·요주의·고정·회수의문·추정손실 등 다섯 가지로 구분하는데, ‘고정’, ‘회수의문’, ‘추정손실’로 분류된 대출채권을 통상 부실채권이라고 합니다. (출처)
  • 현재 이미 운영 중인 금융 상품 중에서 저신용자 대상의 상품은, 저신용자 전체가 아닌 그 중에서도 안정적인 저신용자를 대상으로 하되, 모든 위험을 은행이 감수하는 것이 아니라 정부의 지원이 따르는 등의 리스크 분배가 충분히 이루어져 있음 
  • 저신용자 -> 대출건수 / 대출총금액 의 분석을 진행한 팀이 있었는데, 고신용자는 안정적이기 때문에 당연히 대출 금액이 더 많이 나올 수밖에 없다. 분석 주제에 대한 세부적인 지식, 조사가 필요함을 느꼈음

 

 

궁금증
호텔 데이터셋에서 신규고객 97%, 재방문고객 3%...

-> 3%는 왜 재방문을 했을까? 에 대한 궁금증이 있었음

 

 

우리 조가 받은 피드백 정리

더보기

[피드백]
1. 데이터의 카테고리, 이상치 처리는 인상적이었음
2. 데이터의 시각화는 조금 아쉬웠음
- 표 형태로 제시한 것이 아쉬웠음
- 통계를 잘 모르는 사람들은 이해하기가 어려웠을 것으로 생각됨
3. 데이터 분류
- 신용도를 문제점으로 제시했던 그래프에서는 5개의 집단으로 구분되어 있음.
- 우리는 3개로 구분되어 있기 때문에 비교하기에는 조심스러움
4. 사용한 분석
- 사용한 분석에서는 분석을 하기 위한 기본 가정이 있음. 아노바는 등분산성, 정규분포를 따라야 하고
pca는 정규분포에 가까워야하고 데이터가 많아야 함.
-이러한 기본 가정을 잘 지켜야 함
전반적으로 EDA를 가장 많이 한 것으로 보이고, 시각화 및 상세 분석에 대한 기본 가정 파악이 조금 더 필요하다.

 

 

 

728x90
반응형