일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- Max
- Join
- ★
- 가설검정
- f-string
- python
- 내일배움일지
- 데이터전처리
- DATE_SUB
- SQL
- Set
- 선형회귀
- AB테스트
- 데이터시각화
- 태블로
- 내배캠_학습기록
- 이중for문
- 한줄for문
- map
- 반복문
- SQLD
- 다중공선성
- 시각화
- 아티클스터디
- 통계학
- 프로그래머스
- Til
- 내일배움캠프
- 리스트
- Leetcode
- Today
- Total
목록통계학 (30)
노력에는 지름길이 없으니까요
희귀한 사건이 발생할 때 사용하는 분포!- 이항 분포처럼 연속된 값을 가지지 않기 때문에 이 분포도 역시 이산형 분포에 해당됩니다. - 평균 발생률 λ가 충분히 크다면 (무한으로 간다면) 정규분포에 근사사건이 발생하는 횟수가 람다.- 평균 발생률이란 주어신 시간이나 공간에서 사건이 몇 번 발생했는가 - ex) 한 시간동안 콜센터에 전화오는 건수가 10건이면 λ는 10 푸아송 분포- 단위 시간 또는 단위 면적 당 발생하는 사건의 수를 모델링할 때 사용하는 분포입니다. - 푸아송 분포는 평균 발생률 λ를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생하는지를 나타냅니다. 전체시간이나 전체공간이 아니라, 특정시간이나 특정공간에 집중하고 싶은 때 사용할 수 있는 모델링특징- 푸아송 분포는 단위 시간..
결과가 2개가 나오는 상황일 때 사용하는 분포!이항분포는 연속된 값을 가지지 않고, 특정한 정수 값만을 가질 수 있습니다. 예를 들어, 동전을 10번 던질 때 앞면이 나오는 횟수는 0, 1, 2, ..., 10과 같은 정수입니다. 따라서 이항분포가 연속적으로 그려지지 않습니다.이런 이항분포처럼 연속된 값을 가지지 않는 분포를 이산형 분포라고 지칭하기도 합니다.이항분포란?- 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포 입니다. - 독립적인 시행이 n번 반복되고(데이터 개수), 각 시행에서 성공과 실패 중 하나의 결과만 가능한 경우를 모델링하는 분포라고도 할 수 있습니다. - 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 나타냅니다. 특징- 실험 횟수(n)와 ..
독립성 검정이나 적합도 검정에 사용되는 분포! 출처 : 위키백과여기서 K값은 자유도 (여기서 자유도란 표본의 크기와 관련이 있는 값이다 정도로 이해!)카이제곱 분포란?카이제곱분포는 범주형 데이터의 독립성 검정이나 적합도 검정에 사용되는 분포 특징 - 자유도에 따라 모양이 달라짐. - 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 ‘완벽하게 서로 다른 질적 자료’일 때 활용 - ex) 성별이나 나이에 따른 선거 후보 지지율 - 범주형 데이터 분석에 사용 독립성 검정두 범주형 변수 간의 관계가 있는지 확인할 때 사용됩니다.예를 들어, 성별과 직업 선택 간의 독립성을 검토할 수 있습니다.혹은, 성별이 후보 지지율에 영향을 끼치는지? 검토할 수도 있습니다. 적합도 검정관측한 값들이 특정 분포에 ..
표본이 작을 때 정규분포 대신 사용! 출처 : 위키백과자유도가 커질 수록 정규분포에 가까워짐 (여기서 자유도란 표본의 크기와 관련이 있는 값이라고 이해!)스튜던트 t 분포t분포는 모집단의 표준편차를 알 수 없고 표본의 크기가 작은 경우(일반적으로 30미만)에 사용되는 분포입니다.정규분포와 유사하지만, 표본의 크기가 작을수록 꼬리가 두꺼워지는 특징이 있습니다.특징표본 크기가 커지면 정규분포에 가까워짐. 데이터가 적은 경우 사용작은 표본의 평균 비교예를 들어, 두 그룹의 평균 시험 점수를 비교할 때 표본 크기가 작다면 t검정을 사용하여 두 그룹의 평균이 유의미하게 다른지 검토할 수 있습니다.약물 시험새로운 약물의 효과를 테스트할 때, 소규모 임상 시험에서 두 그룹 간의 차이를 분석하는 데 사용됩니다.# ..
정규분포란?정규분포는 종 모양의 대칭 분포로, 대부분의 데이터가 평균 주위에 몰려 있는 분포입니다.평균을 중심으로 좌우 대칭이며, 평균에서 멀어질수록 데이터의 빈도가 감소합니다.표준편차는 분포의 퍼짐 정도를 나타냅니다.특징대부분의 데이터가 평균 주변에 몰려 있으며, 평균에서 멀어질수록 빈도가 줄어듦.대부분의 데이터는 중심극한정리에 의해 데이터 수가 많아질수록 정규분포를 따르게 된다. -> 데이터 수가 충분하면 정규분포를 따른다고 가정해도 상관없다. # 정규분포 생성normal_dist = np.random.normal(170, 10, 1000)# 히스토그램으로 시각화plt.hist(normal_dist, bins=30, density=True, alpha=0.6, color='skyblue')# 정규분포..
1) 표본오차와 신뢰구간이란?표본오차 (Sampling Error)- 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이. - 표본 크기가 클수록 표본오차는 작아짐. - 이는 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 따라 달라질 수 있습니다. - 표본의 크기: 표본의 크기가 클수록 표본오차는 줄어듭니다. 더 많은 데이터를 수집할수록 모집단을 더 잘 대표하게 됩니다. (적당한 타협점을 찾아야 함) - 표본 추출 방법: 무작위 추출 방법을 사용하면 표본오차를 줄일 수 있습니다. 모든 모집단 요소가 선택될 동등한 기회를 가지게 해야 합니다. (공평해야 한다.) 0으로 만들 수는 없지만, 두 방법을 사용하여 표본오차를 줄여야 한다. 신뢰구간 (Co..
모집단은 전체! 표본은 일부! ☑️ 모집단- 관심의 대상이 되는 전체 집단. ex) 한 국가의 모든 성인.☑️ 표본- 모집단에서 추출한 일부. ex) 그 국가의 성인 중 일부를 조사.1) 왜 표본을 사용하는가?현실적인 제약1. 비용과 시간 - 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적입니다.표본 조사는 이러한 자원을 절약하면서도 유의미한 결과를 도출할 수 있는 방법입니다. 2. 접근성 - 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많습니다. 예를 들어, 특정 질병에 걸린 모든 환자의 데이터를 수집하는 것은 어려울 수 있습니다. 대표성1. 표본의 대표성 (표본이 모집단의 대표성을 가지고 있다!) - 잘 설계된 표본은 모집단의..
1) 위치추정데이터의 중심을 파악하는 대표적인 방법 : 중앙값, 평균mean = np.mean(data)median = np.median(data) 2) 변이추정데이터들이 서로 얼마나 다른지 확인하는 방법 : 분산, 표준편차, 범위ex) 매출 데이터의 변이를 분석하여 비즈니스의 안정성을 평가범위(Range)란?가장 큰 값과 가장 작은 값의 차이가 어느 정도 되는가?범위를 통해 데이터가 어느 정도의 변동성을 가지는지 쉽게 파악할 수 있다.variance = np.var(data)std_dev = np.std(data)data_range = np.max(data) - np.min(data) 3) 데이터 분포 탐색데이터의 값들이 어떻게 이루어져 있는지 한눈에 확인하기plt.hist(data, bins=5)..
통계를 크게 두개로 나눌 수 있음.-> 기술통계와 추론통계 1) 기술통계대표값을 출력함으로써 데이터를 요약하고 설명하는 통계 방법주로 평균, 중앙값, 분산, 표준편차 등을 사용 대표값 간단 설명평균 (Mean)중앙값 (Median) : 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값데이터에 이상치, 예외값이 많을 것 같다면, 대표값으로서 평균이 아닌 중앙값을 사용하는 것이 좋을 경우도 있음분산 (Variance) : 평균으로부터 데이터가 얼마나 떨어져 있는지, 데이터의 흩어짐 정도분산이 크면 데이터가 넓게 퍼져 있음, 작으면 데이터가 평균에 가깝게 모여 있음표준편차 (Standard Deviation) : 평균으로부터 데이터가 얼마나 떨어져 있는지, 분산의 제곱근분산과 표준편차 둘 다 데이터의 분..
왜 통계를 배워야 하는가?데이터 기반의 의사결정을 내릴 수 있음 통계로 할 수 있는 것방대한 양의 데이터를 손쉽게, 명확하게 파악할 수 있는 방법이해, 해석, 요약, 패턴추론을 통해 결론을 도출하는 과정을 도움즉, 데이터 기반의 의사결정을 내릴 수 있음결국 기업이 보다 현명한 결정을 내리고 수익을 창출하기 위해 필요 통계를 활용한 데이터 분석은 필수다! 통계 사용의 예1) 고객 만족도 설문조사 분석2) 고객 유형별 세그먼트(Segment) 상품 추천-> 같은 그룹의 고객들끼리 같은 상품이나 서비스 추천을 하는 것이 용이하다.3) 기업의 전략을 수립등등...