일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 데이터시각화
- 태블로
- 리스트
- map
- f-string
- Til
- SQLD
- 데이터전처리
- Set
- DATE_SUB
- 프로그래머스
- SQL
- 내일배움일지
- Leetcode
- python
- 가설검정
- Max
- 선형회귀
- Join
- 아티클스터디
- 내배캠_학습기록
- 내일배움캠프
- AB테스트
- 반복문
- ★
- 한줄for문
- 통계학
- 시각화
- 다중공선성
- 이중for문
- Today
- Total
목록통계학 (24)
노력에는 지름길이 없으니까요
검증하기 위한 데이터는 반드시 따로 분리 해놓아야 함! (처음부터)학습용 데이터 / 평가용 데이터 -> 과적합 방! ☑️ 데이터 탐색과 검증 분리데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임탐색 데이터와 검증 데이터를 히스토그램으로 나타냄데이터 탐색과 검증을 분리하면 탐색 과정에서 발견된 패턴이 검증 데이터에서도 유효한지 확인 가능검증 데이터는 철저하게 탐색 데이터와 구분되어져야 함 검증하기 위한 데이터가 따로 필요할 때데이터셋을 탐색용(training)과 검증용(test)으로 분리하여 사용from sklearn.model_selection import train_test_split# 데이터 생성np.ran..
원하는 결과가 나올 때 까지 자료를 수집하는 것을 조심! 자료수집 중단 시점 결정데이터 수집을 시작하기 전에 언제 수집을 중단할지 명확하게 결정하지 않으면, 원하는 결과가 나올 때까지 데이터를 계속 수집할 수 있음. 이는 결과의 신뢰성을 떨어뜨림.샘플 크기에 따른 평균값과 95% 신뢰구간을 나타낸 그래프데이터 수집을 언제 멈출지 결정하는 것은 결과에 영향을 미칠 수 있음이상적으로는 사전에 정해진 계획에 따라야 함 결과를 이미 정해놓고 그에 맞추기 위해 자료수집을 하고자 할 때50명의 데이터를 수집하기로 했으나, 원하는 결과가 나오지 않자 100명까지 추가로 수집-> 어떤 이유로 데이터 수집을 하고자 하는지 확실하게 하고 다음 단계로 넘어가기!
☑️ 선택적 보고유의미한 결과만을 보고하고, 유의미하지 않은 결과는 보고하지 않는 행위이는 데이터 분석의 결과를 왜곡하고, 신뢰성을 저하시킴☑️ 그림으로 확인하기!모든 결과와 선택적으로 보고된 결과를 히스토그램으로 나타냄 (일부만 채택해서 보고하는 것)전체 결과와 보고된 결과의 분포가 다르면 선택적 보고의 가능성을 시사2) 선택적 보고는 언제 조심해야하는가?☑️ 유의미한 결과만 공개 할 때다수의 데이터 분석 중 유의미한 결과가 나온 실험만을 보고서에 작성하여 발표☑️ 결과를 보면서 가설을 다시 새로 설정했는데 마치 처음부터 설정한 가설이라고 얘기할 때미리 가설과 실험 방법등에 대해서 설정을 한다음 연구를 수행하거나 연구하는 동안 얻어진 모든 변수와 결과에 대해서 공개하지 못할 때
인위적으로 p-값을 낮추지 않을 수 있도록 조심해야 한다.의도적으로... 수단과 방법을 가리지 않고 p값을 낮추기 위해 실험을 하는 것... ☑️ p-해킹데이터 분석을 반복하여 p-값을 인위적으로 낮추는 행위유의미한 결과를 얻기 위해 다양한 변수를 시도하거나, 데이터를 계속해서 분석하는 등의 방법을 포함☑️ 문제점p-해킹은 데이터 분석 결과의 신뢰성을 저하시킴 ☑️ 여러 가설 검정을 시도 할 때여러 가설 검정을 시도하여 유의미한 p-값을 얻을 때까지 반복 분석하는 것을 조심p-해킹은 유의미한 결과를 얻기 위해 p-값이 0.05 이하인 결과만 선택적으로 보고하는 행위를 조심데이터의 수를 늘리다보니 특정 데이터 수를 기록할때 잠깐 p값이 0.05 이하를 기록함으로 이를 바탕으로 대립가설 채택하는 것을 조심즉..
우연히 결과가 나오는 것이 아닌, 항상 일관된 결과가 나오는지 확인해야 한다. ☑️ 재현 가능성동일한 연구나 실험을 반복했을 때 일관된 결과가 나오는지 여부. 연구의 신뢰성을 높이는 중요한 요소.항상 일관된 결과가 나와야 실험이 의미 있어지는 것. -> 다시 벌어지지 않을 일... 의미가 없다고 할 수도 있다.ex) 신약을 개발할 때 실험실에서만 효과가 있는 것이 아니라 실제 상황에서도 일관된 결과가 나온다고 믿을 수 있기 때문에 개발 가능한 것 최근 p값에 대한 논쟁이 두드러지고 있다. (p값을 활용하여 재현가능성을 판단하고 있음)p값을 사용하지 않는 것이 좋다유의수준을 0.05에서 변경하는 것이 좋다 -> 이 숫자가 관습적으로 정해진 값이기 때문에... 더 낮춰야 의미가 있다는 의견이 현재 두드러지는..
☑️ 다항회귀독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측.데이터가 곡선적 경향을 따를 때 사용합니다.비선형 관계를 모델링할 수 있습니다.고차 다항식의 경우 과적합(overfitting) 위험이 있습니다. ☑️ 스플라인 회귀독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성합니다.데이터가 국부적으로 다른 패턴을 보일 때 사용합니다.복잡한 비선형 관계를 유연하게 모델링할 수 있습니다.적절한 매듭점(knots)의 선택이 중요합니다. ☑️ 독립변수와 종속변수의 관계가 비선형 관계일 때 사용주택 가격 예측(면적과 가격 간의 비선형 관계) from sklearn.prepro..
회귀에서 범주형 변수의 경우 특별히 변환을 해주어야 함! ☑️ 범주형 변수수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있지 않는 변수가 범주형 변수 ☑️ 범주형 변수 종류예를 들어 성별(남, 여), 지역(도시, 시골) 등이 있으며, 더미 변수로 변환하여 회귀 분석에 사용.순서가 있는 범주형 변수옷의 사이즈 (L, M, …), 수능 등급 (1등급, 2등급, ….)과 같이 범주형 변수라도 순서가 있는 변수에 해당한다이런 경우 각 문자를 임의의 숫자로 변환해도 문제가 없다 (순서가 잘 반영될 수 있게 숫자로 변환)ex) XL → 3, L → 2, M → 1, S → 0순서가 없는 범주형 변수성별 (남,여), 지역 (부산, 대구, 대전, …) 과 같이 순서가 없는 변수에 해당한다2개 밖에 없는 경우 임의..
두개 이상의 변수에 의한 결과를 예측일반적으로 많이 사용되는 선형회귀가 이쪽에 가까움 다중선형회귀두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.공간적으로 확장이 됨! -> 직선보다 평면으로 생각 ☑️ 회귀식Y = β0 + β1X1 + β2X2 + ... + βnXn☑️ 특징여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용합니다.여러 변수의 영향을 동시에 분석할 수 있습니다.변수들 간의 다중공선성 문제가 발생할 수 있습니다. https://young-1-2.tistory.com/162 다중공선성이란?다중공선성이란?다중공선성(Multicollinearity)은 회귀분석에서 독립 변수들 간에..
다중공선성이란?다중공선성(Multicollinearity)은 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우를 말합니다.이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있습니다.독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리해내기 어려워져 회귀의 해석을 어렵게 만듭니다.굳이 필요하지 않은 변수를 넣은 것 -> 오히려 난잡해질 수도 있음 다중공선성으로 인해 실제로 중요한 변수가 통계적으로 유의하지 않게 나타날 수 있습니다. 어떻게 진단할 수 있을까?가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있습니다.더 정확한 방법으로는 분산 팽창 계수 (VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법..
한개의 변수에 의한 결과를 예측금융관련, 매출 예측 등... 다양하게 쓰이는 방법 왜 경향성 파악하는 방법론의 용어로 '회귀'라는 단어를 쓰는가?사람의 키가 세대가 지남에 따라 어느 정도가 차이가 있겠으나, 결국 평균으로 돌아오려 한다, 즉 평균으로 회귀한다는 연구 결과를 얻어내고 이 이후로 경향성 문제에서 '회귀'라는 표현을 쓰기 시작했다고 함! 선형회귀란?직선 형태로 회귀를 하는구나! 직선과 같은 관계를 보일 때! 회귀를 통해 우리가 가지고 있지 않은 데이터에 대해서도 예측할 수 있게 된다.\단순선형회귀- 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법. ☑️ 회귀식Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기중학교 때 배웠던 1차함수를 생각하면 이..