일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Til
- DATE_SUB
- 아티클스터디
- 통계학
- 태블로
- 프로그래머스
- 이중for문
- python
- 데이터전처리
- ★
- 리스트
- 다중공선성
- AB테스트
- map
- 내배캠_학습기록
- 내일배움일지
- 내일배움캠프
- 가설검정
- 반복문
- Max
- f-string
- SQL
- Set
- 선형회귀
- SQLD
- 시각화
- Leetcode
- 한줄for문
- 데이터시각화
- Join
- Today
- Total
목록전체 글 (227)
노력에는 지름길이 없으니까요
원하는 결과가 나올 때 까지 자료를 수집하는 것을 조심! 자료수집 중단 시점 결정데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정하지 않으면, 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음. 이는 결과의 신뢰성을 떨어뜨림.샘플 크기에 따른 평균값과 95% 신뢰구간을 나타낸 그래프데이터 수집을 언제 멈출지 결정하는 것은 결과에 영향을 미칠 수 있음이상적으로는 사전에 정해진 계획에 따라야 함 결과를 이미 정해놓고 그에 맞추기 위해 자료수집을 하고자 할 때50명의 데이터를 수집하기로 했으나, 원하는 결과가 나오지 않자 100명까지 추가로 수집-> 어떤 이유로 데이터 수집을 하고자 하는지 확실하게 하고 다음 단계로 넘어가기!
☑️ 선택적 보고유의미한 결과만을 보고하고, 유의미하지 않은 결과는 보고하지 않는 행위이는 데이터 분석의 결과를 왜곡하고, 신뢰성을 저하시킴☑️ 그림으로 확인하기!모든 결과와 선택적으로 보고된 결과를 히스토그램으로 나타냄 (일부만 채택해서 보고하는 것)전체 결과와 보고된 결과의 분포가 다르면 선택적 보고의 가능성을 시사2) 선택적 보고는 언제 조심해야하는가?☑️ 유의미한 결과만 공개 할 때다수의 데이터 분석 중 유의미한 결과가 나온 실험만을 보고서에 작성하여 발표☑️ 결과를 보면서 가설을 다시 새로 설정했는데 마치 처음부터 설정한 가설이라고 얘기할 때미리 가설과 실험 방법등에 대해서 설정을 한다음 연구를 수행하거나 연구하는 동안 얻어진 모든 변수와 결과에 대해서 공개하지 못할 때
인위적으로 p-값을 낮추지 않을 수 있도록 조심해야 한다.의도적으로... 수단과 방법을 가리지 않고 p값을 낮추기 위해 실험을 하는 것... ☑️ p-해킹데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함☑️ 문제점p-해킹은 데이터 분석 결과의 신뢰성을 저하시킴 ☑️ 여러 가설 검정을 시도 할 때여러 가설 검정을 시도하여 유의미한 p-값을 얻을 때까지 반복 분석하는 것을 조심p-해킹은 유의미한 결과를 얻기 위해 p-값이 0.05 이하인 결과만 선택적으로 보고하는 행위를 조심데이터의 수를 늘리다보니 특정 데이터 수를 기록할때 잠깐 p값이 0.05 이하를 기록함으로 이를 바탕으로 대립가설 채택하는 것을 조심즉..