250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 내일배움일지
- AB테스트
- 반복문
- python
- SQLD
- 내배캠_학습기록
- 가설검정
- 데이터전처리
- 통계학
- 데이터시각화
- SQL
- 한줄for문
- 프로그래머스
- 이중for문
- 아티클스터디
- Til
- 시각화
- Max
- Join
- 선형회귀
- 다중공선성
- 내일배움캠프
- ★
- 태블로
- f-string
- Leetcode
- map
- 리스트
- DATE_SUB
- Set
Archives
- Today
- Total
노력에는 지름길이 없으니까요
다중공선성이란? 본문
728x90
다중공선성이란?
다중공선성(Multicollinearity)은 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우를 말합니다.
이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있습니다.
독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리해내기 어려워져 회귀의 해석을 어렵게 만듭니다.
굳이 필요하지 않은 변수를 넣은 것 -> 오히려 난잡해질 수도 있음
다중공선성으로 인해 실제로 중요한 변수가 통계적으로 유의하지 않게 나타날 수 있습니다.
어떻게 진단할 수 있을까?
가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있습니다.
더 정확한 방법으로는 분산 팽창 계수 (VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법으로 다중공선성이 높다고 판단할 수 있습니다.
다중공선성 해결 방법
가장 간단한 방법으로는 높은 계수를 가진 변수 중 하나를 제거하는 것입니다.
혹은 주성분 분석(PCA)과 같은 변수들을 효과적으로 줄이는 차원 분석 방법을 적용하여 해결할 수도 있습니다.
728x90
반응형
'통계학' 카테고리의 다른 글
4.3 범주형 변수 (0) | 2024.08.05 |
---|---|
4.2 다중선형회귀 (0) | 2024.08.05 |
4.1 단순선형회귀 (0) | 2024.08.05 |
3.6 제 1종 오류와 제 2종 오류 (0) | 2024.08.02 |
3.5 카이제곱검정 (0) | 2024.08.02 |