250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 선형회귀
- 다중공선성
- Join
- SQLD
- 태블로
- 내일배움일지
- 가설검정
- Leetcode
- 아티클스터디
- 시각화
- Set
- 통계학
- 내일배움캠프
- 리스트
- ★
- 한줄for문
- SQL
- 데이터시각화
- AB테스트
- f-string
- 데이터전처리
- 이중for문
- 내배캠_학습기록
- Max
- 프로그래머스
- Til
- 반복문
- map
- DATE_SUB
- python
Archives
- Today
- Total
노력에는 지름길이 없으니까요
가설검정의 주의점 - 6.2 p-해킹 본문
728x90
인위적으로 p-값을 낮추지 않을 수 있도록 조심해야 한다.
의도적으로... 수단과 방법을 가리지 않고 p값을 낮추기 위해 실험을 하는 것...
☑️ p-해킹
- 데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위
- 유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함
☑️ 문제점
- p-해킹은 데이터 분석 결과의 신뢰성을 저하시킴
☑️ 여러 가설 검정을 시도 할 때
- 여러 가설 검정을 시도하여 유의미한 p-값을 얻을 때까지 반복 분석하는 것을 조심
- p-해킹은 유의미한 결과를 얻기 위해 p-값이 0.05 이하인 결과만 선택적으로 보고하는 행위를 조심
- 데이터의 수를 늘리다보니 특정 데이터 수를 기록할때 잠깐 p값이 0.05 이하를 기록함으로 이를 바탕으로 대립가설 채택하는 것을 조심
- 즉, 결과를 보며 데이터 개수를 늘려서는 안됨
- 다양한 상황 중에서 p값이 유리하게 나오는 상황만 선별적으로 보고하는 것을 조심!
- 다양한 변수를 건드리며 유리한 결과가 나올 때 다시 처음 부터 가설을 그 결과에 맞게 세우는 것 -> 결과보고 끼워넣기... XX
- 즉, 마음에 드는 상황만 골라서 보고해서도 안됨. 모든 결과를 다보고하거나 더 엄격한 추가실험을 수행
- 가능한 가설을 미리 세우고 검증하는 가설검증형 방식으로 분석을 해야 하며 만약 탐색적으로 분석한 경우 가능한 모든 변수를 보고하고 본페로니 보정과 같은 방법을 사용해야 함
728x90
반응형
'통계학' 카테고리의 다른 글
가설검정의 주의점 - 6.4 자료수집 중단 시점 결정 (0) | 2024.08.06 |
---|---|
가설검정의 주의점 - 6.3 선택적 보고 (0) | 2024.08.06 |
가설검정의 주의점 - 6.1 재현 가능성 (0) | 2024.08.06 |
5.3 상호정보 상관계수 (0) | 2024.08.05 |
5.2 비모수 상관계수 (0) | 2024.08.05 |