250x250
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- Set
- 시각화
- 이중for문
- 통계학
- ★
- 내일배움캠프
- 내배캠_학습기록
- Max
- 데이터시각화
- Join
- 다중공선성
- map
- SQL
- DATE_SUB
- 가설검정
- 반복문
- 리스트
- 한줄for문
- AB테스트
- 프로그래머스
- SQLD
- Leetcode
- python
- 아티클스터디
- f-string
- 태블로
- 내일배움일지
- 데이터전처리
- Til
- 선형회귀
Archives
- Today
- Total
노력에는 지름길이 없으니까요
가설검정의 주의점 - 6.5 데이터 탐색과 검증 분리 본문
728x90
검증하기 위한 데이터는 반드시 따로 분리 해놓아야 함! (처음부터)
학습용 데이터 / 평가용 데이터 -> 과적합 방!
☑️ 데이터 탐색과 검증 분리
- 데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것
- 이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임
- 탐색 데이터와 검증 데이터를 히스토그램으로 나타냄
- 데이터 탐색과 검증을 분리하면 탐색 과정에서 발견된 패턴이 검증 데이터에서도 유효한지 확인 가능
- 검증 데이터는 철저하게 탐색 데이터와 구분되어져야 함
검증하기 위한 데이터가 따로 필요할 때
- 데이터셋을 탐색용(training)과 검증용(test)으로 분리하여 사용
from sklearn.model_selection import train_test_split
# 데이터 생성
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)
# 데이터 분할 (탐색용 80%, 검증용 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)
# 탐색용 데이터로 예측
y_train_pred = model.predict(X_train)
# 검증용 데이터로 예측
y_test_pred = model.predict(X_test)
# 탐색용 데이터 평가
train_mse = mean_squared_error(y_train, y_train_pred)
train_r2 = r2_score(y_train, y_train_pred)
print(f"탐색용 데이터 - MSE: {train_mse}, R2: {train_r2}")
# 검증용 데이터 평가
test_mse = mean_squared_error(y_test, y_test_pred)
test_r2 = r2_score(y_test, y_test_pred)
print(f"검증용 데이터 - MSE: {test_mse}, R2: {test_r2}")
728x90
반응형
'통계학' 카테고리의 다른 글
시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차 (2) | 2024.09.24 |
---|---|
가설검정의 주의점 - 6.4 자료수집 중단 시점 결정 (0) | 2024.08.06 |
가설검정의 주의점 - 6.3 선택적 보고 (0) | 2024.08.06 |
가설검정의 주의점 - 6.2 p-해킹 (0) | 2024.08.06 |
가설검정의 주의점 - 6.1 재현 가능성 (0) | 2024.08.06 |