일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 내배캠_학습기록
- Set
- ★
- 한줄for문
- SQL
- 내일배움일지
- 태블로
- Til
- Max
- 가설검정
- 선형회귀
- 프로그래머스
- 리스트
- Leetcode
- 내일배움캠프
- 반복문
- 데이터전처리
- 이중for문
- 다중공선성
- AB테스트
- python
- 통계학
- Join
- 시각화
- f-string
- map
- DATE_SUB
- 아티클스터디
- 데이터시각화
- SQLD
- Today
- Total
노력에는 지름길이 없으니까요
2-1) 모집단과 표본 본문
모집단은 전체! 표본은 일부!
☑️ 모집단
- 관심의 대상이 되는 전체 집단. ex) 한 국가의 모든 성인.
☑️ 표본
- 모집단에서 추출한 일부. ex) 그 국가의 성인 중 일부를 조사.
1) 왜 표본을 사용하는가?
현실적인 제약
1. 비용과 시간
- 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적입니다.
표본 조사는 이러한 자원을 절약하면서도 유의미한 결과를 도출할 수 있는 방법입니다.
2. 접근성
- 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많습니다. 예를 들어, 특정 질병에 걸린 모든 환자의 데이터를 수집하는 것은 어려울 수 있습니다.
대표성
1. 표본의 대표성 (표본이 모집단의 대표성을 가지고 있다!)
- 잘 설계된 표본은 모집단의 특성을 반영할 수 있습니다. 이를 통해 표본에서 얻은 결과를 모집단 전체에 일반화할 수 있습니다.
- 무작위로 표본을 추출하면 편향을 최소화하고 모집단의 다양한 특성을 포함할 수 있습니다.
- 표본을 뽑을 때 주관을 섞으면 편향이 섞일 수 있다. 특정 항목에 대해 치우치지 않을 수 있도록 해야 함.
데이터 관리
1) 데이터 처리의 용이성
- 표본 데이터를 사용하는 것은 전체 데이터를 다루는 것보다 데이터 처리와 분석이 훨씬 용이합니다. 큰 데이터셋은 분석에 많은 컴퓨팅 자원이 필요할 수 있지만, 작은 표본은 이런 부담을 줄여줍니다.
2) 데이터 품질 관리
- 작은 표본에서는 데이터 품질을 더 쉽게 관리하고, 오류나 이상값을 식별하여 수정할 수 있습니다.
모델 검증 용이
1) 모델 적합도 테스트
- 표본 데이터를 사용하여 통계적 모델을 검증할 수 있습니다. 모델이 표본 데이터에 잘 맞는다면, 모집단에도 잘 맞을 가능성이 높습니다.
☑️ 전수조사
- 모집단 전체를 조사하는 방법. 대규모일 경우 비용과 시간이 많이 듦.
☑️ 표본조사
- 표본만을 조사하는 방법. 비용과 시간이 적게 들지만, 표본이 대표성을 가져야 함.
2) 실제로 어떻게 사용되어질까요?
도시 연구
- 한 도시의 모든 가구(모집단) 중 100가구(표본)를 조사하여 평균 전력 사용량을 추정.
의료 연구
- 특정 치료법의 효과를 알아보기 위해 전체 환자를 조사하는 대신, 표본을 통해 추정하고 이를 바탕으로 결론을 도출합니다.
시장 조사
- 소비자 선호도를 파악하기 위해 모든 소비자를 조사하는 대신, 무작위로 선택된 표본을 통해 전체 시장의 트렌드를 추정합니다.
정치 여론 조사
- 선거 전 여론 조사를 통해 전체 유권자의 투표 경향을 추정하여 선거 결과를 예측합니다.
import numpy as np
import matplotlib.pyplot as plt
# 모집단 생성 (예: 국가의 모든 성인의 키 데이터)
# 다양한 확률 분포에 따라 난수를 생성하는 기능을 제공
population = np.random.normal(170, 10, 1000)
# 표본 추출
# 지정된 배열에서 무작위로 선택된 요소를 반환하는 기능을 제공
sample = np.random.choice(population, 100)
plt.hist(population, bins=50, alpha=0.5, label='population', color='purple')
plt.hist(sample, bins=50, alpha=0.5, label='sample', color='blue')
plt.legend()
plt.title('population and sample distribution')
plt.show()
'통계학' 카테고리의 다른 글
2.3 정규분포 / 2.4 긴 꼬리 분포 (1) | 2024.08.01 |
---|---|
2-2) 표본오차와 신뢰구간 (0) | 2024.08.01 |
1.3 다양한 분석 방법 (0) | 2024.08.01 |
1.2 기술통계와 추론통계 (0) | 2024.08.01 |
1.1 데이터 분석에 있어서 통계가 중요한 이유 (0) | 2024.08.01 |