일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ★
- 태블로
- 내일배움캠프
- 한줄for문
- 가설검정
- Leetcode
- 데이터전처리
- 선형회귀
- 다중공선성
- DATE_SUB
- 아티클스터디
- SQL
- Join
- 데이터시각화
- AB테스트
- 프로그래머스
- map
- 리스트
- SQLD
- 내일배움일지
- python
- 시각화
- f-string
- 내배캠_학습기록
- Max
- 이중for문
- 반복문
- Til
- 통계학
- Set
- Today
- Total
목록2024/08/01 (14)
노력에는 지름길이 없으니까요
오늘 목표통계학 1주차통계학 2주차통계학 복습 완벽하게 하기코드카타 1개 이상프로젝트 코드 정리 이어서 -> 진행중강의 내용코드카타Python, level 0 https://young-1-2.tistory.com/141SQL, level 3 https://young-1-2.tistory.com/140 통계학 공부1 대표 ) https://young-1-2.tistory.com/1442 대표 ) https://young-1-2.tistory.com/145
☑️ 데이터 수가 충분하다 → (무조건) 정규분포☑️ 데이터 수가 작다 → 스튜던트 t 분포☑️ 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)☑️ 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포☑️ 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포☑️ 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포
희귀한 사건이 발생할 때 사용하는 분포!- 이항 분포처럼 연속된 값을 가지지 않기 때문에 이 분포도 역시 이산형 분포에 해당됩니다. - 평균 발생률 λ가 충분히 크다면 (무한으로 간다면) 정규분포에 근사사건이 발생하는 횟수가 람다.- 평균 발생률이란 주어신 시간이나 공간에서 사건이 몇 번 발생했는가 - ex) 한 시간동안 콜센터에 전화오는 건수가 10건이면 λ는 10 푸아송 분포- 단위 시간 또는 단위 면적 당 발생하는 사건의 수를 모델링할 때 사용하는 분포입니다. - 푸아송 분포는 평균 발생률 λ를 가진 사건이 주어진 시간 또는 공간 내에서 몇 번 발생하는지를 나타냅니다. 전체시간이나 전체공간이 아니라, 특정시간이나 특정공간에 집중하고 싶은 때 사용할 수 있는 모델링특징- 푸아송 분포는 단위 시간..
결과가 2개가 나오는 상황일 때 사용하는 분포!이항분포는 연속된 값을 가지지 않고, 특정한 정수 값만을 가질 수 있습니다. 예를 들어, 동전을 10번 던질 때 앞면이 나오는 횟수는 0, 1, 2, ..., 10과 같은 정수입니다. 따라서 이항분포가 연속적으로 그려지지 않습니다.이런 이항분포처럼 연속된 값을 가지지 않는 분포를 이산형 분포라고 지칭하기도 합니다.이항분포란?- 성공/실패와 같은 두 가지 결과를 가지는 실험을 여러 번 반복했을 때 성공 횟수의 분포 입니다. - 독립적인 시행이 n번 반복되고(데이터 개수), 각 시행에서 성공과 실패 중 하나의 결과만 가능한 경우를 모델링하는 분포라고도 할 수 있습니다. - 성공 확률을 p라 할 때, 성공의 횟수를 확률적으로 나타냅니다. 특징- 실험 횟수(n)와 ..
독립성 검정이나 적합도 검정에 사용되는 분포! 출처 : 위키백과여기서 K값은 자유도 (여기서 자유도란 표본의 크기와 관련이 있는 값이다 정도로 이해!)카이제곱 분포란?카이제곱분포는 범주형 데이터의 독립성 검정이나 적합도 검정에 사용되는 분포 특징 - 자유도에 따라 모양이 달라짐. - 상관관계나 인과관계를 판별하고자 하는 원인의 독립변수가 ‘완벽하게 서로 다른 질적 자료’일 때 활용 - ex) 성별이나 나이에 따른 선거 후보 지지율 - 범주형 데이터 분석에 사용 독립성 검정두 범주형 변수 간의 관계가 있는지 확인할 때 사용됩니다.예를 들어, 성별과 직업 선택 간의 독립성을 검토할 수 있습니다.혹은, 성별이 후보 지지율에 영향을 끼치는지? 검토할 수도 있습니다. 적합도 검정관측한 값들이 특정 분포에 ..
표본이 작을 때 정규분포 대신 사용! 출처 : 위키백과자유도가 커질 수록 정규분포에 가까워짐 (여기서 자유도란 표본의 크기와 관련이 있는 값이라고 이해!)스튜던트 t 분포t분포는 모집단의 표준편차를 알 수 없고 표본의 크기가 작은 경우(일반적으로 30미만)에 사용되는 분포입니다.정규분포와 유사하지만, 표본의 크기가 작을수록 꼬리가 두꺼워지는 특징이 있습니다.특징표본 크기가 커지면 정규분포에 가까워짐. 데이터가 적은 경우 사용작은 표본의 평균 비교예를 들어, 두 그룹의 평균 시험 점수를 비교할 때 표본 크기가 작다면 t검정을 사용하여 두 그룹의 평균이 유의미하게 다른지 검토할 수 있습니다.약물 시험새로운 약물의 효과를 테스트할 때, 소규모 임상 시험에서 두 그룹 간의 차이를 분석하는 데 사용됩니다.# ..
정규분포란?정규분포는 종 모양의 대칭 분포로, 대부분의 데이터가 평균 주위에 몰려 있는 분포입니다.평균을 중심으로 좌우 대칭이며, 평균에서 멀어질수록 데이터의 빈도가 감소합니다.표준편차는 분포의 퍼짐 정도를 나타냅니다.특징대부분의 데이터가 평균 주변에 몰려 있으며, 평균에서 멀어질수록 빈도가 줄어듦.대부분의 데이터는 중심극한정리에 의해 데이터 수가 많아질수록 정규분포를 따르게 된다. -> 데이터 수가 충분하면 정규분포를 따른다고 가정해도 상관없다. # 정규분포 생성normal_dist = np.random.normal(170, 10, 1000)# 히스토그램으로 시각화plt.hist(normal_dist, bins=30, density=True, alpha=0.6, color='skyblue')# 정규분포..
1) 표본오차와 신뢰구간이란?표본오차 (Sampling Error)- 표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이. - 표본 크기가 클수록 표본오차는 작아짐. - 이는 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 따라 달라질 수 있습니다. - 표본의 크기: 표본의 크기가 클수록 표본오차는 줄어듭니다. 더 많은 데이터를 수집할수록 모집단을 더 잘 대표하게 됩니다. (적당한 타협점을 찾아야 함) - 표본 추출 방법: 무작위 추출 방법을 사용하면 표본오차를 줄일 수 있습니다. 모든 모집단 요소가 선택될 동등한 기회를 가지게 해야 합니다. (공평해야 한다.) 0으로 만들 수는 없지만, 두 방법을 사용하여 표본오차를 줄여야 한다. 신뢰구간 (Co..
모집단은 전체! 표본은 일부! ☑️ 모집단- 관심의 대상이 되는 전체 집단. ex) 한 국가의 모든 성인.☑️ 표본- 모집단에서 추출한 일부. ex) 그 국가의 성인 중 일부를 조사.1) 왜 표본을 사용하는가?현실적인 제약1. 비용과 시간 - 전체 모집단을 조사하는 것은 비용과 시간이 많이 들기 때문에 대부분의 경우 불가능하거나 비효율적입니다.표본 조사는 이러한 자원을 절약하면서도 유의미한 결과를 도출할 수 있는 방법입니다. 2. 접근성 - 모든 데이터를 수집하는 것이 물리적으로 불가능한 경우가 많습니다. 예를 들어, 특정 질병에 걸린 모든 환자의 데이터를 수집하는 것은 어려울 수 있습니다. 대표성1. 표본의 대표성 (표본이 모집단의 대표성을 가지고 있다!) - 잘 설계된 표본은 모집단의..
1) 위치추정데이터의 중심을 파악하는 대표적인 방법 : 중앙값, 평균mean = np.mean(data)median = np.median(data) 2) 변이추정데이터들이 서로 얼마나 다른지 확인하는 방법 : 분산, 표준편차, 범위ex) 매출 데이터의 변이를 분석하여 비즈니스의 안정성을 평가범위(Range)란?가장 큰 값과 가장 작은 값의 차이가 어느 정도 되는가?범위를 통해 데이터가 어느 정도의 변동성을 가지는지 쉽게 파악할 수 있다.variance = np.var(data)std_dev = np.std(data)data_range = np.max(data) - np.min(data) 3) 데이터 분포 탐색데이터의 값들이 어떻게 이루어져 있는지 한눈에 확인하기plt.hist(data, bins=5)..