가설검정의 주의점 - 6.5 데이터 탐색과 검증 분리

250x250

Notice

Recent Posts

Recent Comments

Link

« 2024/10 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

노력에는 지름길이 없으니까요

가설검정의 주의점 - 6.5 데이터 탐색과 검증 분리 본문

통계학

가설검정의 주의점 - 6.5 데이터 탐색과 검증 분리

데건 2024. 8. 6. 10:49

728x90

검증하기 위한 데이터는 반드시 따로 분리 해놓아야 함! (처음부터)

학습용 데이터 / 평가용 데이터 -> 과적합 방!

☑️ 데이터 탐색과 검증 분리

데이터 탐색을 통해 가설을 설정하고, 이를 검증하기 위해 별도의 독립된 데이터셋을 사용하는 것
이는 데이터 과적합을 방지하고 결과의 신뢰성을 높임

탐색 데이터와 검증 데이터를 히스토그램으로 나타냄
데이터 탐색과 검증을 분리하면 탐색 과정에서 발견된 패턴이 검증 데이터에서도 유효한지 확인 가능
검증 데이터는 철저하게 탐색 데이터와 구분되어져야 함

검증하기 위한 데이터가 따로 필요할 때

데이터셋을 탐색용(training)과 검증용(test)으로 분리하여 사용

from sklearn.model_selection import train_test_split

# 데이터 생성
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 데이터 분할 (탐색용 80%, 검증용 20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 학습
model = LinearRegression()
model.fit(X_train, y_train)

# 탐색용 데이터로 예측
y_train_pred = model.predict(X_train)

# 검증용 데이터로 예측
y_test_pred = model.predict(X_test)

# 탐색용 데이터 평가
train_mse = mean_squared_error(y_train, y_train_pred)
train_r2 = r2_score(y_train, y_train_pred)
print(f"탐색용 데이터 - MSE: {train_mse}, R2: {train_r2}")

# 검증용 데이터 평가
test_mse = mean_squared_error(y_test, y_test_pred)
test_r2 = r2_score(y_test, y_test_pred)
print(f"검증용 데이터 - MSE: {test_mse}, R2: {test_r2}")

728x90

저작자표시 비영리 동일조건

'통계학' 카테고리의 다른 글

시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차 (2)	2024.09.24
가설검정의 주의점 - 6.4 자료수집 중단 시점 결정 (0)	2024.08.06
가설검정의 주의점 - 6.3 선택적 보고 (0)	2024.08.06
가설검정의 주의점 - 6.2 p-해킹 (0)	2024.08.06
가설검정의 주의점 - 6.1 재현 가능성 (0)	2024.08.06

'통계학' Related Articles

노력에는 지름길이 없으니까요

가설검정의 주의점 - 6.5 데이터 탐색과 검증 분리 본문

가설검정의 주의점 - 6.5 데이터 탐색과 검증 분리

☑️ 데이터 탐색과 검증 분리

검증하기 위한 데이터가 따로 필요할 때

'통계학' 카테고리의 다른 글

티스토리툴바