'통계학' 카테고리의 글 목록 (2 Page)

250x250

Notice

Recent Posts

Recent Comments

Link

« 2024/10 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록통계학 (30)

노력에는 지름길이 없으니까요

4.3 범주형 변수

회귀에서 범주형 변수의 경우 특별히 변환을 해주어야 함! ☑️ 범주형 변수수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있지 않는 변수가 범주형 변수 ☑️ 범주형 변수 종류예를 들어 성별(남, 여), 지역(도시, 시골) 등이 있으며, 더미 변수로 변환하여 회귀 분석에 사용.순서가 있는 범주형 변수옷의 사이즈 (L, M, …), 수능 등급 (1등급, 2등급, ….)과 같이 범주형 변수라도 순서가 있는 변수에 해당한다이런 경우 각 문자를 임의의 숫자로 변환해도 문제가 없다 (순서가 잘 반영될 수 있게 숫자로 변환)ex) XL → 3, L → 2, M → 1, S → 0순서가 없는 범주형 변수성별 (남,여), 지역 (부산, 대구, 대전, …) 과 같이 순서가 없는 변수에 해당한다2개 밖에 없는 경우 임의..

통계학 2024. 8. 5. 11:58

4.2 다중선형회귀

두개 이상의 변수에 의한 결과를 예측일반적으로 많이 사용되는 선형회귀가 이쪽에 가까움 다중선형회귀두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링.공간적으로 확장이 됨! -> 직선보다 평면으로 생각 ☑️ 회귀식Y = β0 + β1X1 + β2X2 + ... + βnXn☑️ 특징여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용합니다.여러 변수의 영향을 동시에 분석할 수 있습니다.변수들 간의 다중공선성 문제가 발생할 수 있습니다. https://young-1-2.tistory.com/162 다중공선성이란?다중공선성이란?다중공선성(Multicollinearity)은 회귀분석에서 독립 변수들 간에..

통계학 2024. 8. 5. 11:42

다중공선성이란?

다중공선성이란?다중공선성(Multicollinearity)은 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우를 말합니다.이는 회귀분석 모델의 성능과 해석에 여러 가지 문제를 일으킬 수 있습니다.독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리해내기 어려워져 회귀의 해석을 어렵게 만듭니다.굳이 필요하지 않은 변수를 넣은 것 -> 오히려 난잡해질 수도 있음 다중공선성으로 인해 실제로 중요한 변수가 통계적으로 유의하지 않게 나타날 수 있습니다. 어떻게 진단할 수 있을까?가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있습니다.더 정확한 방법으로는 분산 팽창 계수 (VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법..

통계학 2024. 8. 5. 11:33

4.1 단순선형회귀

한개의 변수에 의한 결과를 예측금융관련, 매출 예측 등... 다양하게 쓰이는 방법 왜 경향성 파악하는 방법론의 용어로 '회귀'라는 단어를 쓰는가?사람의 키가 세대가 지남에 따라 어느 정도가 차이가 있겠으나, 결국 평균으로 돌아오려 한다, 즉 평균으로 회귀한다는 연구 결과를 얻어내고 이 이후로 경향성 문제에서 '회귀'라는 표현을 쓰기 시작했다고 함! 선형회귀란?직선 형태로 회귀를 하는구나! 직선과 같은 관계를 보일 때! 회귀를 통해 우리가 가지고 있지 않은 데이터에 대해서도 예측할 수 있게 된다.\단순선형회귀- 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법. ☑️ 회귀식Y = β0 + β1X, 여기서 β0는 절편, β1는 기울기중학교 때 배웠던 1차함수를 생각하면 이..

통계학 2024. 8. 5. 11:25

3.6 제 1종 오류와 제 2종 오류

두개를 구분하고 최대한 줄일 수 있도록 해야 함!!! 1) 제 1종 오류와 제 2종 오류는 무엇일까?☑️ 제 1종 오류귀무가설이 참인데 기각하는 오류잘못된 긍정을 의미 (아무런 영향이 없는데 영향이 있다고 하는 것)한 단어로 위양성!α를 경계로 귀무가설을 기각하기 때문에 제1종 오류가 α만큼 발생따라서 유의수준(α)을 정함으로써 제 1종 오류 제어 가능만약, 유의수준이 0.05라면 100번 중 5번 정도 일어날 수 있는 제 1종 오류는 감수하겠다는 것 ❓다중 검정시 제 1종 오류가 증가하는 이유? -> 보정을 해야하는 이유!하나의 검정에서 제1종 오류가 발생하지 않을 확률은 1- α 입니다.m개의 독립된 검정에서 제1종 오류가 전혀 발생하지 않을 확률은 (1- α)^m입니다.따라서, m개의 검정에서 하나..

통계학 2024. 8. 2. 16:47

3.5 카이제곱검정

카이제곱검정범주형 데이터의 분석에 사용한다!!! - 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나 - 두 범주형 변수 간의 독립성을 검정(독립성 검정) 적합도, 독립성 검정에 따라 사용하는 함수가 다르다!☑️ 적합도 검정 -> stats.chisquare관찰된 분포와 기대된 분포가 일치하는지 검정p값이 높으면 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무 가설이 적합p값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음. 즉, 관찰된 데이터와 귀무 가설이 부적합 stats.chisquare카이제곱 적합도 검정을 수행하여 관찰된 빈도 분포가 기대된 빈도 분포와 일치하는지 평가 ☑️ 독립성 검정 -> stats.chi2_contingency두 범주형 변수 간의 독립성을..

통계학 2024. 8. 2. 16:35

3.4 다중검정

☑️ 다중검정여러 가설을 동시에 검정할 때 발생하는 문제각 검정마다 유의수준을 조정하지 않으면 1종 오류(귀무가설이 참인데 기각하는 오류) 발생 확률이 증가1종 오류가 무엇인지랑 왜 다중검정시 발생확률이 증가하는지는 밑에서 다시 설명! 지금은, 어떤 오류가 발생할 수 있다는 정도로 이해! ☑️ 보정 방법본페로니 보정, 튜키 보정, 던넷 보정, 윌리엄스 보정 등이 있음가장 대표적이고 기본적인게 본페로니 보정 import numpy as npimport scipy.stats as stats# 세 그룹의 데이터 생성np.random.seed(42)group_A = np.random.normal(10, 2, 30)group_B = np.random.normal(12, 2, 30)group_C = np.rand..

통계학 2024. 8. 2. 16:19

3.2 가설검정

이 데이터가 의미가 있다고 볼 수 있는지, ... 가설을 세워서 그걸 검정해보는 것... 문제 발생 -> 가설을 세움 -> 귀무가설, 대립가설로 분류하고 둘 중 하나를 선택해야 한다. (정반대 중 하나!) -> 선택해서 결론을 내리는 것임☑️ 가설검정표본 데이터를 통해 모집단의 가설을 검증하는 과정즉, 데이터가 특정 가설을 지지하는지 평가하는 과정귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지를 결정 데이터 분석시 두가지 전략을 취할 수 있음확증적 자료분석미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석탐색적 자료분석(EDA)가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것 ☑️ 단계귀무가설(H0)과 대립가설(H1) 설정유의수준(α) 결..

통계학 2024. 8. 2. 15:33

3.1 A/B 검정

유의성 검정이란?통계를 배우며 많이 쓰여질 부분.유사한가 아닌가에 대한 판단. 대표적으로... 두가지 서비스를 준비했을 때 기존 서비스보다 새로운 서비스가 더 효과가 있는가에 대한 테스트... 실무에서 자주 사용될 수 있음. 1) A/B 검정A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법.표본에 대한 데이터 값... 일부 사용자들에게 얻은 값이 모집단에게도 동일한 값을 가질 것인가? 가 중요함마케팅, 웹사이트 디자인 등에서 많이 사용됨.사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비교.일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교.목적두 그룹 간의 변화가 ..

통계학 2024. 8. 2. 13:54

분포를 고르는 방법

☑️ 데이터 수가 충분하다 → (무조건) 정규분포☑️ 데이터 수가 작다 → 스튜던트 t 분포☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포

통계학 2024. 8. 1. 16:56

이전 Prev 1 2 3 Next 다음

목록통계학 (30)

노력에는 지름길이 없으니까요

티스토리툴바