일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- f-string
- 아티클스터디
- Join
- 내일배움일지
- 선형회귀
- 내일배움캠프
- SQLD
- 다중공선성
- 가설검정
- ★
- python
- AB테스트
- 데이터시각화
- 이중for문
- 태블로
- map
- 반복문
- 통계학
- 시각화
- Set
- Max
- SQL
- 한줄for문
- DATE_SUB
- 내배캠_학습기록
- Til
- 리스트
- 프로그래머스
- 데이터전처리
- Leetcode
- Today
- Total
노력에는 지름길이 없으니까요
시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차 본문
머신러닝
시계열 자체가 어려움
시계열 : 시계열로 적용한 프로젝트 Needs 발견
MLops : 머신러닝, operation의 축약어로 Jupyternotebook에만 코딩하고 끝나는 것이 아닌 실제로 사내 operation 시스템에 적용하는 것을 목표
시계열 분석이란?
과거의 흐름으로 미래를 예측하는 방법론
어떤 교과과정 어디에 속해 있는가?
통계학, 데이터 사이언스의 전공과목에서도 4학년 전공 선택으로 난이도가 높은 과목
선형대수학 - 수리통계
과거의 트랜드로 미래를 예측할 수 있다는 매력적인 논리로 많은 회사들이 시계열 모델을 적용하고 있으며 Meta는 Prophet모델, 딥러닝에서는 LSTM, RNN, Transfomer등 다양한 시계열 모델들이 개발되었음
튜터님께서 추천해주신 링크들
- 확률&통계: Khan Academy
- 학부 통계학: 숙명여대 여인권교수님 통계학 MOOC
- 수학: 개발자를 위한 필수수학
- 기타 추천도서
인과추론이 최근 유행함
2. 시계열 예측의 이해
시계열 데이터 : 시간에 따라 정렬된 데이터
데이터는 주기적으로 기록되며, 이를 동일한 시간단계(timestep)로 분포한다고 정의
주가그래프, 전기 소비량 등...
다양한 X,Y데이터로 이루어진 데이터와 달리
시계열 데이터는 시간, 측정 값 단 2개의 데이터로만 이루어져 있습니다.
시계열 구성요소
모든 시계열 데이터는 시계열의 세가지 구성요소인 추세, 계절성, 잔차로 분해될 수 있다고 믿는 것부터 시작한다.
2.1 추세 (Trend)
지속적이고 일관된 방향으로 변화하는 장기적 패턴
패턴은 증가, 감소, 혹은 일정한 상태(데이터의 단기적 변동 즉, 노이즈 또는 계절성 구별)
2.2 계절성 (Seasonality)
일정한 시간 주기에 따라 반복되는 패턴
순환하는 현상 그 자체를 의미함 (고정 주기를 가지고 있음)
2.3 주기성 (Cycles)
경제적, 사회적, 정치적 요인에 의해 발생하는 불규칙한 변동 패턴
장기적이고 불규칙한 패턴이라는 점이 계절성과 다른 점
2.4 잔차(Residual)
시계열 데이터에서 추세와 계절성을 제거한 후 남는 무작위적 변화량
특정 패턴을 가지지 않으며 주로 백색소음(White Noise)처럼 랜덤한 요소
- (a) 200 거래일 동안의 구글 주식 가격: 추세
- (b) 200 거래일 동안의 구글 주식 가격의 일일 변동
- (c) 미국의 연간 파업 수: 추세, 주기
- (d) 미국에서 판매되는 새로운 단독 주택의 월별 판매액: 계절성
- (e) 미국에서 계란 12개의 연간 가격 (달러): 추세
- (f) 호주 빅토리아 주에서 매월 도살한 돼지의 전체 수: 추세
- (g) 캐나다 북서부의 맥킨지 강 지역에서 연간 포획된 스라소니의 전체 수: 주기
- (h) 호주 월별 맥주 생산량: 계절성
- (i) 호주 월별 가스 생산량: 추세, 계절성
2.3 시계열 분해
시계열 분해를 통해 각 구성요소를 시각화하면 원래 데이터로는 파악하기 어려운 추세와 계절적 패턴을 파악하는 데 도움이 됩니다.
statsmodels나 prophet 모델은 시계열 분해와 그 결과를 시각화하는 기능을 제공
시계열에는 피처가 데이터 하나
과거의 데이터로 다음 데이터를 맞추는 것뿐
시간 의존성이 핵심.
자기회귀 모델(AR) - 과거 값을 기반으로 미래값 예측
이동평균 모델(MA) - 과거의 잔차를 활용해 예측
---
시계열의 두 시점 간 공분산이 시간(t)에 의존하지 않고 시간의 차(h)에만 의존함
h: 시차
공분산 : 모든 t에 대해서 일정하게 유지하는 것이 중요하다.
시간 간격에 의존하는 개념
np.cov -> corr 비교하면 이해할 수 있을 것임
---
정상성 확보를 위한 데이터 변환 기법
1. 차분 (Diffencing)
2. 이동평균 평활화
전체적인 추세를 더 명확히 볼 수 있음
주가는 이동평균을 중요하게 여김
3. 분산 안정화
로그 변환
큰 데이터를 축소 -> 금액 편차가 큰 경우 등 정상성을 꾀할 수 있음
제곱근 변환
데이터 크기가 작아지는 효과 (단, 양수 데이터를 대상으로 사용)
z-score 표준화
평균과 분산의 안정화를 꾀하면 자연스럽게 공분산도 시간에 독립적이고 시차에만 의존하는 특성을 갖게 됨
평균, 분산, 공분산 시각화를 해보는 게 과제
'통계학' 카테고리의 다른 글
가설검정의 주의점 - 6.5 데이터 탐색과 검증 분리 (0) | 2024.08.06 |
---|---|
가설검정의 주의점 - 6.4 자료수집 중단 시점 결정 (0) | 2024.08.06 |
가설검정의 주의점 - 6.3 선택적 보고 (0) | 2024.08.06 |
가설검정의 주의점 - 6.2 p-해킹 (0) | 2024.08.06 |
가설검정의 주의점 - 6.1 재현 가능성 (0) | 2024.08.06 |