노력에는 지름길이 없으니까요

다중공선성이란? 본문

통계학

다중공선성이란?

데건 2024. 8. 5. 11:33
728x90

다중공선성이란?

다중공선성(Multicollinearity)은 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우를 말합니다.

이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있습니다.

독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리해내기 어려워져 회귀의 해석을 어렵게 만듭니다.

굳이 필요하지 않은 변수를 넣은 것 -> 오히려 난잡해질 수도 있음

 

다중공선성으로 인해 실제로 중요한 변수가 통계적으로 유의하지 않게 나타날 수 있습니다.

 

 

어떻게 진단할 수 있을까?

가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있습니다.

더 정확한 방법으로는 분산 팽창 계수 (VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법으로 다중공선성이 높다고 판단할 수 있습니다.

 

다중공선성 해결 방법

가장 간단한 방법으로는 높은 계수를 가진 변수 중 하나를 제거하는 것입니다.

혹은 주성분 분석(PCA)과 같은 변수들을 효과적으로 줄이는 차원 분석 방법을 적용하여 해결할 수도 있습니다.

728x90
반응형

'통계학' 카테고리의 다른 글

4.3 범주형 변수  (0) 2024.08.05
4.2 다중선형회귀  (0) 2024.08.05
4.1 단순선형회귀  (0) 2024.08.05
3.6 제 1종 오류와 제 2종 오류  (0) 2024.08.02
3.5 카이제곱검정  (0) 2024.08.02