일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 선형회귀
- map
- 데이터시각화
- 데이터전처리
- SQL
- Join
- Til
- DATE_SUB
- AB테스트
- 내배캠_학습기록
- SQLD
- Max
- 리스트
- f-string
- 한줄for문
- python
- 이중for문
- Leetcode
- 반복문
- 다중공선성
- ★
- 시각화
- 프로그래머스
- Set
- 통계학
- 내일배움일지
- 내일배움캠프
- 태블로
- 아티클스터디
- 가설검정
- Today
- Total
노력에는 지름길이 없으니까요
240711 아티클스터디 - 데이터 속 거짓말 발견하기 본문
아티클 정리
https://yozm.wishket.com/magazine/detail/1821/
https://blog.naver.com/businessinsight/221918586252
이쪽 자료도 함께 참고했다. 블로그가 참고했다는 원 출처를 따로 기재한다.
필자 서울과학종합대학원 빅데이터 MBA 주임교수 김진호
https://namu.wiki/w/%EA%B7%B8%EB%9E%98%ED%94%84%20%EC%99%9C%EA%B3%A1#s-4.9
다양한 그래프 왜곡 예시가 있다.
데이터 시각화를 정확하게 판단하며 볼 수 있는 눈을 길러야 한다.
시각화 -> 데이터를 단순화하면서 동시에 데이터가 가진 사실을 충실하게 전달해야 한다.
1. 막대그래프를 특히 주의하자
> 기준선이 '0'인지 확인
그래프의 밑을 잘라내어 데이터 왜곡을 범하고 있다.
실제 의존도 차이는 약 30%에 불과하지만, 마치 몇배나 되는 것처럼 표현되었고,
그림7의 스케일 역시 0이 아닌 3200에서 시작하는 것을 확인할 수 있다.
2. 선 그래프는 스케일이 중요
선 그래프의 목적은 변화를 보여주는 것, 따라서 특정한 경우를 제외하고는 기준선을 '0'으로 두지 않는다.
그만큼 스케일에 주의해서 확인을 해야한다.
변화를 조금 더 극적으로 보이고 싶을 때 스케일을 조정하면 된다는 의미가 되기도 한다.
> 두 개의 Y축을 멀리하자
> 누적값으로 눈속임
판매량 등의 그래프를 제시했을 때, 이것이 누적값인지 확인하지 않는다면, 판매량 자체가 감소해도 누적값은 계속 올라갈 수밖에 없다는 맹점을 놓치기 쉽다.
3. 파이 차트를 써야 할까?
> 전체의 합이 100%인지 확인하자
> 3D는 피하자
각도에 따라 특정 데이터만을 강조해서 보이게 하거나, 올바른 비율로 시각화 정보를 제시할 수 없을 수도 있다.
그래프를 보는 사람의 입장에서 그래프의 공정성을 평가하기 위해 확인해야 할 것!
그래프가 전체 그림을 보여주고 있는가?
각 축의 눈금이 과장되어 있지 않을까?
그래프를 만드는 사람 입장에서는?
데이터의 본질을 이해할 필요가 있다.
변화에 따른 축소와 과장을 강조해서는 안 된다.
그림의 면적 혹은 부피의 차이가 그 수치의 차이와 동일하도록 정확하게 라벨링 해야 한다.
'내일배움캠프 일지 > 아티클스터디' 카테고리의 다른 글
아티클스터디 240813 - A/B 테스트 제대로 이해하기 2, 3 (0) | 2024.08.13 |
---|---|
240809 아티클스터디 - A/B 테스트 제대로 이해하기: 1. 테스트를 설계할 때 우리의 진짜 질문은? (0) | 2024.08.09 |
240807 아티클스터디 - SELECT로 SQL 쿼리를 시작하지 마라 (1) | 2024.08.07 |
240719 아티클스터디 - 대기업 데이터분석가가 추천하는 데이터 분석 프로젝트 주제 (0) | 2024.07.19 |
240716 아티클스터디 - 데이터 기반 의사결정의 장점 (2) | 2024.07.16 |