노력에는 지름길이 없으니까요

2-1) 모집단과 표본 본문

통계학

2-1) 모집단과 표본

데건 2024. 8. 1. 14:32
728x90

모집단은 전체! 표본은 일부!

 

☑️ 모집단
- 관심의 대상이 되는 전체 집단. ex) 한 국가의 모든 성인.
☑️ 표본
- 모집단에서 추출한 일부. ex) 그 국가의 성인 중 일부를 조사.


1) 왜 표본을 사용하는가?

현실적인 제약
1. 비용과 시간
    - 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적입니다.

표본 조사는 이러한 자원을 절약하면서도 유의미한 결과를 도출할 수 있는 방법입니다.
2. 접근성
    - 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많습니다. 예를 들어, 특정 질병에 걸린 모든 환자의 데이터를 수집하는 것은 어려울 수 있습니다.

대표성
1. 표본의 대표성 (표본이 모집단의 대표성을 가지고 있다!)
    - 잘 설계된 표본은 모집단의 특성을 반영할 수 있습니다. 이를 통해 표본에서 얻은 결과를 모집단 전체에 일반화할 수 있습니다.
    - 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함할 수 있습니다.

    - 표본을 뽑을 때 주관을 섞으면 편향이 섞일 수 있다. 특정 항목에 대해 치우치지 않을 수 있도록 해야 함.

 

데이터 관리
1) 데이터 처리의 용이성
    - 표본 데이터를 사용하는 것은 전체 데이터를 다루는 것보다 데이터 처리와 분석이 훨씬 용이합니다. 큰 데이터셋은 분석에 많은 컴퓨팅 자원이 필요할 수 있지만, 작은 표본은 이런 부담을 줄여줍니다.
2) 데이터 품질 관리
    - 작은 표본에서는 데이터 품질을 더 쉽게 관리하고, 오류나 이상값을 식별하여 수정할 수 있습니다.

모델 검증 용이
1) 모델 적합도 테스트
    - 표본 데이터를 사용하여 통계적 모델을 검증할 수 있습니다. 모델이 표본 데이터에 잘 맞는다면, 모집단에도 잘 맞을 가능성이 높습니다.


 

☑️ 전수조사
- 모집단 전체를 조사하는 방법. 대규모일 경우 비용과 시간이 많이 듦.

☑️ 표본조사
- 표본만을 조사하는 방법. 비용과 시간이 적게 들지만, 표본이 대표성을 가져야 함.

 


 

2) 실제로 어떻게 사용되어질까요?

도시 연구
    - 한 도시의 모든 가구(모집단) 중 100가구(표본)를 조사하여 평균 전력 사용량을 추정.
의료 연구
    - 특정 치료법의 효과를 알아보기 위해 전체 환자를 조사하는 대신, 표본을 통해 추정하고 이를 바탕으로 결론을 도출합니다.
시장 조사
    - 소비자 선호도를 파악하기 위해 모든 소비자를 조사하는 대신, 무작위로 선택된 표본을 통해 전체 시장의 트렌드를 추정합니다.
정치 여론 조사
    - 선거 전 여론 조사를 통해 전체 유권자의 투표 경향을 추정하여 선거 결과를 예측합니다.

import numpy as np
import matplotlib.pyplot as plt

# 모집단 생성 (예: 국가의 모든 성인의 키 데이터)
# 다양한 확률 분포에 따라 난수를 생성하는 기능을 제공
population = np.random.normal(170, 10, 1000)

# 표본 추출
# 지정된 배열에서 무작위로 선택된 요소를 반환하는 기능을 제공
sample = np.random.choice(population, 100)

plt.hist(population, bins=50, alpha=0.5, label='population', color='purple')
plt.hist(sample, bins=50, alpha=0.5, label='sample', color='blue')
plt.legend()
plt.title('population and sample distribution')
plt.show()

728x90
반응형