기초 팀프로젝트(1차) 피드백 정리

250x250

Notice

Recent Posts

Recent Comments

Link

« 2024/10 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

노력에는 지름길이 없으니까요

기초 팀프로젝트(1차) 피드백 정리 본문

내일배움캠프 일지/팀 프로젝트

기초 팀프로젝트(1차) 피드백 정리

데건 2024. 7. 31. 16:57

728x90

다른 팀께 제시해주신 방향 중 용이한 피드백이 많아서 정리해두고자 한다.

전처리 파트

1) 결측치와 이상치

94% 결측치를 가진 컬럼 -> 대부분의 팀이 컬럼 자체를 분석에서 제외
우선 박스플롯을 그려본 후 이상치가 있음을 파악하고 이후 데이터를 일일이 확인하여 이상치 확인
일반적으로 10% 이하 결측치는 대체하거나 삭제하고, 50% 이하는 대체한다. (질문 다시하기)
결측치를 전부 삭제하지 않고 none, 0, 해당없음 등으로 분류
-> 최대한 모든 데이터를 남기려는 과정에서 데이터 분석 시 편향을 줄일 수 있었을 것이다.
이름과 같은 고유명사는 결측치를 처리하면 안됨 -> 식별자로 처리

2) 파생변수

년월일로 구분된 컬럼 -> datetime 형식으로 압축
주중, 주말로 구분된 컬럼 -> 전체 숙박일 수로 압축
baby, children -> 이 차이를 깊게 파고들었을 때 통계적으로 유의한 결과를 얻었음
그리고 다시 묶어서 자녀의 유무 파악... -> 데이터에 대한 깊은 고찰이 필요.
이 데이터가 어디서 파생될 수 있었는가?
이 데이터를 사용해서 어떤 데이터를 파생시킬 수 있는가?

시각화 파트

데이터 분석을 진행할 때 데이터 설명이 반드시 필요함
듣는 사람들은 데이터 정보를 모른다. 항상 유념해야 한다.
목적에 맞는 유용한 그래프를 다양하게 사용하기
설명이 필요한 부분에 대해서는 표보다는 시각자료를 활용하기. (통계축약표 제시보다는 그래프를)
통계 지식이 없는 사람의 입장에서는 이해하기 힘들 수 있다. (항상 듣는 사람을 생각하기)
데이터에 대한 것뿐만 아니라, 설명에 사용되는 모든 자료에 대한 처리 과정을 시각화라고 생각하기

분석 파트

정량적을 넘어 정성적 분석으로 나아가기
분석을 진행하기 전, 가설을 먼저 결정하고 이를 분석해서 결론을 내리는 방식이 논리적으로 느껴짐
데이터 자체에 대한 가설을 세우는 것이 중요하다.
-> 이 과정을 통해 아이디어가 확장될 수 있음
데이터의 베이스가 되는 국가가 제시되어 있다면, 그 나라의 연령 기준과 대출 기준 파악하기
데이터에 대한 명확성이 검증되지 않은 상태로 검정을 하면 신빙성이 떨어질 수 있음
원인과 결과에 대한 해석이 필요하다.
데이터 분류 시에는 통계적 기준을 항상 명시하기.
3% -> 작은 수치를 간과하지 않는 게 좋다.

두 개의 변수에 대해 연관지어서 분석을 진행할 거라면, 상식선의 판단을 완전히 제하고 두개에 대한 상관관계를 분석하는 것이 좋다. (왜 그것을 연관지었는지에 대한 통계적 근거를 제시해야 함)
IQR -> 대체로 효과적이지만, 데이터가 비대칭인 경우 오독할 가능성이 있으니 주의
시계열 데이터의 특징 -> 기간을 어떻게 잡느냐에 따라 분석 결과와 해석이 달라진다. -> 데이터가 시간에 따라 흘러가면서 어떤 모습을 보였는지 파악했다면 좋았을 것임 (계절요인 등)

ANOVA 주의사항 -> 데이터의 분포를 보고 비교를 해줌, 정규성과 등분산성이 있어야함 그렇지 않으면 오독됨
pca 주의사항 -> 데이터 양이 많고 분포형태가 정규분포에 가까워야 함
여러가지 제한 사항이 모델마다 있는데 모델을 연속적으로 사용하게 되면 데이터 해석력이 떨어질 수 있다.

방안 제시

마케팅 제안을 할거라면 이득과 비용을 고려해야 함
사람들의 감성을 이용한 방안 제시가 중요하게 작용할 수 있다. ex) 종교, 아이, 가족 등
정성적 분석을 잘 활용했던 팀에게 많은 칭찬을 주심
논문 자체도 데이터 분석 결과 -> 다른 데이터를 사용하게 될 때는 주의를 해야 함
분류기준이 다른 그래프를 근거로서 제시하면 안됨

전반적

- 항상 출처를 공유할 것

도메인 지식

저신용자의 이자율을 높게 하는 이유 : 돈을 높게 내게 일부러 만든다... (돈을 못 받으니까 이자라도 내...)
-> 잘못하면 은행에서 피해를 입기 때문에 이 역시 risk management인 것임
부실 채권 : 부실채권이란 금융기관의 대출채권 중 부도 등의 사유로 정상적으로 회수되고 있지 않은 대출채권을 이야기합니다. 금융기관에서는 대출채권을 자산건전성 분류기준에 따라 정상·요주의·고정·회수의문·추정손실 등 다섯 가지로 구분하는데, ‘고정’, ‘회수의문’, ‘추정손실’로 분류된 대출채권을 통상 부실채권이라고 합니다. (출처)
현재 이미 운영 중인 금융 상품 중에서 저신용자 대상의 상품은, 저신용자 전체가 아닌 그 중에서도 안정적인 저신용자를 대상으로 하되, 모든 위험을 은행이 감수하는 것이 아니라 정부의 지원이 따르는 등의 리스크 분배가 충분히 이루어져 있음
저신용자 -> 대출건수 / 대출총금액 의 분석을 진행한 팀이 있었는데, 고신용자는 안정적이기 때문에 당연히 대출 금액이 더 많이 나올 수밖에 없다. 분석 주제에 대한 세부적인 지식, 조사가 필요함을 느꼈음

궁금증
호텔 데이터셋에서 신규고객 97%, 재방문고객 3%...

-> 3%는 왜 재방문을 했을까? 에 대한 궁금증이 있었음

우리 조가 받은 피드백 정리

[피드백]
1. 데이터의 카테고리, 이상치 처리는 인상적이었음
2. 데이터의 시각화는 조금 아쉬웠음
- 표 형태로 제시한 것이 아쉬웠음
- 통계를 잘 모르는 사람들은 이해하기가 어려웠을 것으로 생각됨
3. 데이터 분류
- 신용도를 문제점으로 제시했던 그래프에서는 5개의 집단으로 구분되어 있음.
- 우리는 3개로 구분되어 있기 때문에 비교하기에는 조심스러움
4. 사용한 분석
- 사용한 분석에서는 분석을 하기 위한 기본 가정이 있음. 아노바는 등분산성, 정규분포를 따라야 하고
pca는 정규분포에 가까워야하고 데이터가 많아야 함.
-이러한 기본 가정을 잘 지켜야 함
전반적으로 EDA를 가장 많이 한 것으로 보이고, 시각화 및 상세 분석에 대한 기본 가정 파악이 조금 더 필요하다.

728x90

저작자표시 비영리 동일조건

'내일배움캠프 일지 > 팀 프로젝트' 카테고리의 다른 글

240626 팀 프로젝트 진행 상황 (0)	2024.07.26
240625 팀 프로젝트 진행 상황 (0)	2024.07.25

'내일배움캠프 일지/팀 프로젝트' Related Articles

노력에는 지름길이 없으니까요

기초 팀프로젝트(1차) 피드백 정리 본문

기초 팀프로젝트(1차) 피드백 정리

'내일배움캠프 일지 > 팀 프로젝트' 카테고리의 다른 글

티스토리툴바