일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 내일배움일지
- 프로그래머스
- 다중공선성
- SQL
- 내배캠_학습기록
- 데이터전처리
- 선형회귀
- 시각화
- 이중for문
- 통계학
- 내일배움캠프
- SQLD
- 아티클스터디
- Leetcode
- AB테스트
- 데이터시각화
- Til
- f-string
- 반복문
- DATE_SUB
- python
- 가설검정
- ★
- 한줄for문
- Set
- 태블로
- 리스트
- Max
- Join
- map
- Today
- Total
노력에는 지름길이 없으니까요
2-2) 표본오차와 신뢰구간 본문
1) 표본오차와 신뢰구간이란?
표본오차 (Sampling Error)
- 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이.
- 표본 크기가 클수록 표본오차는 작아짐.
- 이는 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 따라 달라질 수 있습니다.
- 표본의 크기: 표본의 크기가 클수록 표본오차는 줄어듭니다. 더 많은 데이터를 수집할수록 모집단을 더 잘 대표하게 됩니다. (적당한 타협점을 찾아야 함)
- 표본 추출 방법: 무작위 추출 방법을 사용하면 표본오차를 줄일 수 있습니다. 모든 모집단 요소가 선택될 동등한 기회를 가지게 해야 합니다. (공평해야 한다.)
0으로 만들 수는 없지만, 두 방법을 사용하여 표본오차를 줄여야 한다.
신뢰구간 (Confidence Interval)
- 신뢰구간은 모집단의 특정 파라미터(예: 평균, 비율)에 대해 추정된 값이 포함될 것으로 기대되는 범위를 나타냅니다.
- 신뢰구간 계산 방법
- 신뢰구간=표본평균±z×표준오차
- 여기서 z는 선택된 신뢰수준에 해당하는 z-값입니다. 예를 들어, 95% 신뢰수준의 z-값은 1.96입니다.
- 일반적으로 95% 신뢰수준을 많이 사용합니다.
표본오차, 신뢰구간 그림으로 확인하기
- 모집단과 표본 분포 (왼쪽 그림)
- 붉은색 점선은 모집단의 평균
- 파란색 점선은 표본의 평균
- 모집단의 분포는 넓고, 표본 평균들의 분포는 좁아집니다.
- 표본 크기가 커질수록 표본 평균이 모집단 평균에 더 가까워지는 경향을 보여줍니다.
- 신뢰구간 시각화 (오른쪽 그림)
- 오른쪽 그림은 표본의 분포와 95% 신뢰구간을 보여줍니다.
- 파란색 점선은 표본의 평균을 나타내고, 녹색 점선은 95% 신뢰구간의 상한과 하한을 나타냅니다.
- 이 신뢰구간은 모집단의 평균을 포함할 것으로 예상되는 범위입니다.
import scipy.stats as stats
# 표본 평균과 표본 표준편차 계산
sample_mean = np.mean(sample)
sample_std = np.std(sample)
# 95% 신뢰구간 계산
conf_interval = stats.t.interval(alpha=0.95,
df=len(sample)-1,
loc=sample_mean,
scale=sample_std/np.sqrt(len(sample)))
print(f"표본 평균: {sample_mean}")
print(f"95% 신뢰구간: {conf_interval}")
표본 평균: 168.500952592623
95% 신뢰구간: (np.float64(166.74526084504365), np.float64(170.25664434020237))
stats.t.interval란 무엇일까?
- scipy.stats는 SciPy 라이브러리의 일부로, 통계 분석을 위한 다양한 함수와 클래스들을 제공하는 모듈입니다.
- scipy.stats.t.interval 함수는 주어진 신뢰 수준에서 t-분포(밑에서 얘기하는 student t 분포)를 사용하여 신뢰 구간(confidence interval)을 계산하는 데 사용됩니다.
scipy.stats.t.interval(alpha, df, loc=0, scale=1)
alpha
신뢰 수준(confidence level)을 의미합니다. 예를 들어, 95% 신뢰 구간을 원하면 alpha를 0.95로 설정합니다.
df
자유도(degrees of freedom)를 나타냅니다. 일반적으로 표본 크기에서 1을 뺀 값으로 설정합니다 (df = n - 1).
loc
위치(parameter of location)로, 일반적으로 표본 평균을 설정합니다.
scale
스케일(parameter of scale)로, 일반적으로 표본 표준 오차(standard error)를 설정합니다. 표본 표준 오차는 표본 표준편차를 표본 크기의 제곱근으로 나눈 값입니다 (scale = sample_std / sqrt(n)).
'통계학' 카테고리의 다른 글
2.5 스튜던트 t 분포 (0) | 2024.08.01 |
---|---|
2.3 정규분포 / 2.4 긴 꼬리 분포 (1) | 2024.08.01 |
2-1) 모집단과 표본 (0) | 2024.08.01 |
1.3 다양한 분석 방법 (0) | 2024.08.01 |
1.2 기술통계와 추론통계 (0) | 2024.08.01 |