노력에는 지름길이 없으니까요

1.2 기술통계와 추론통계 본문

통계학

1.2 기술통계와 추론통계

데건 2024. 8. 1. 11:59
728x90

통계를 크게 두개로 나눌 수 있음.

-> 기술통계와 추론통계

 

1) 기술통계

대표값을 출력함으로써 데이터를 요약하고 설명하는 통계 방법

주로 평균, 중앙값, 분산, 표준편차 등을 사용

 

대표값 간단 설명

평균 (Mean)

중앙값 (Median) : 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값

데이터에 이상치, 예외값이 많을 것 같다면, 대표값으로서 평균이 아닌 중앙값을 사용하는 것이 좋을 경우도 있음

분산 (Variance) : 평균으로부터 데이터가 얼마나 떨어져 있는지, 데이터의 흩어짐 정도

분산이 크면 데이터가 넓게 퍼져 있음, 작으면 데이터가 평균에 가깝게 모여 있음

표준편차 (Standard Deviation) : 평균으로부터 데이터가 얼마나 떨어져 있는지, 분산의 제곱근

분산과 표준편차 둘 다 데이터의 분포를 설명하지만, 표준편차가 조금 더 직관적임 (단위 관점에서!)

 

 

2) 추론통계

무에서 유를 창조하는 것. 어려운 부분! 그만큼 결과는 강력하다.

 

표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법

데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심

ex) 과거와 현재 데이터로 미래를 예측하는 것도 이에 속한다.

 

신뢰구간이란?

모집단의 평균이 특정 범위 내에 있을 것이라는 확률

모집단 = 모든 데이터

일반적으로 95% 신뢰구간이 사용되며, 이는 모집단의 평균이 95% 확률로 이 구간 내에 있음을 의미한다.

ex) 만약 어떤 설문조사에서 평균 만족도가 75점이고, 신뢰구간이 70점에서 80점이라면, 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있다.

 

가설검정이란?

모집단에 대한 가설을 검증하기 위해 사용된다.

일반적으로 두가지 가설이 있다.

(1) 귀무가설 (H0) : 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설 (변화가 없다, 효과가 없다 등)

(2) 대립가설 (H1) : 그 반대 가설로 주장하는 바 (변화가 있다, 효과가 있다 등)

p-value를 통해 귀무가설을 기각할지 채택할지를 결정한다.

 

실제로 기술통계와 추론통계가 어떻게 사용되어질까?
☑️ 기술통계
회사의 매출 데이터를 요약하기 위해 평균 매출, 매출의 표준편차 등을 계산
☑️ 추론통계
일부 고객의 설문조사를 통해 전체 고객의 만족도를 추정

728x90
반응형