노력에는 지름길이 없으니까요

시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차 본문

통계학

시계열 기반 머신러닝 모델과 MLops 적용기 - 1회차

데건 2024. 9. 24. 11:55
728x90

 

 

머신러닝

시계열 자체가 어려움

 

시계열 : 시계열로 적용한 프로젝트 Needs 발견

MLops : 머신러닝, operation의 축약어로 Jupyternotebook에만 코딩하고 끝나는 것이 아닌 실제로 사내 operation 시스템에 적용하는 것을 목표

 

 

시계열 분석이란?

과거의 흐름으로 미래를 예측하는 방법론

 

어떤 교과과정 어디에 속해 있는가?

통계학, 데이터 사이언스의 전공과목에서도 4학년 전공 선택으로 난이도가 높은 과목

선형대수학 - 수리통계

 

과거의 트랜드로 미래를 예측할 수 있다는 매력적인 논리로 많은 회사들이 시계열 모델을 적용하고 있으며 Meta는 Prophet모델, 딥러닝에서는 LSTM, RNN, Transfomer등 다양한 시계열 모델들이 개발되었음

 

 

튜터님께서 추천해주신 링크들

 

인과추론이 최근 유행함

 

 

2. 시계열 예측의 이해

 

시계열 데이터 : 시간에 따라 정렬된 데이터

데이터는 주기적으로  기록되며, 이를 동일한 시간단계(timestep)로 분포한다고 정의

주가그래프, 전기 소비량 등...

 

다양한 X,Y데이터로 이루어진 데이터와 달리

시계열 데이터는 시간, 측정 값 단 2개의 데이터로만 이루어져 있습니다.

 

시계열 구성요소

모든 시계열 데이터는 시계열의 세가지 구성요소인 추세, 계절성, 잔차로 분해될 수 있다고 믿는 것부터 시작한다.

 

2.1 추세 (Trend)

지속적이고 일관된 방향으로 변화하는 장기적 패턴

패턴은 증가, 감소, 혹은 일정한 상태(데이터의 단기적 변동 즉, 노이즈 또는 계절성 구별)

 

2.2 계절성 (Seasonality)

일정한 시간 주기에 따라 반복되는 패턴

순환하는 현상 그 자체를 의미함 (고정 주기를 가지고 있음)

 

2.3 주기성 (Cycles)

경제적, 사회적, 정치적 요인에 의해 발생하는 불규칙한 변동 패턴

장기적이고 불규칙한 패턴이라는 점이 계절성과 다른 점

 

 

 

 

2.4 잔차(Residual)

시계열 데이터에서 추세와 계절성을 제거한 후 남는 무작위적 변화량

특정 패턴을 가지지 않으며 주로 백색소음(White Noise)처럼 랜덤한 요소

 

 

 

 

더보기
  • (a) 200 거래일 동안의 구글 주식 가격: 추세
  • (b) 200 거래일 동안의 구글 주식 가격의 일일 변동
  • (c) 미국의 연간 파업 수: 추세, 주기
  • (d) 미국에서 판매되는 새로운 단독 주택의 월별 판매액: 계절성
  • (e) 미국에서 계란 12개의 연간 가격 (달러): 추세
  • (f) 호주 빅토리아 주에서 매월 도살한 돼지의 전체 수: 추세
  • (g) 캐나다 북서부의 맥킨지 강 지역에서 연간 포획된 스라소니의 전체 수: 주기
  • (h) 호주 월별 맥주 생산량: 계절성
  • (i) 호주 월별 가스 생산량: 추세, 계절성

 


 

2.3 시계열 분해

시계열 분해를 통해 각 구성요소를 시각화하면 원래 데이터로는 파악하기 어려운 추세와 계절적 패턴을 파악하는 데 도움이 됩니다.

 

statsmodels나 prophet 모델은 시계열 분해와 그 결과를 시각화하는 기능을 제공

 

시계열에는 피처가 데이터 하나

과거의 데이터로 다음 데이터를 맞추는 것뿐

시간 의존성이 핵심.

 

자기회귀 모델(AR) - 과거 값을 기반으로 미래값 예측

이동평균 모델(MA) - 과거의 잔차를 활용해 예측

 

 

---

 

시계열의 두 시점 간 공분산이 시간(t)에 의존하지 않고 시간의 차(h)에만 의존함

h: 시차

공분산 : 모든 t에 대해서 일정하게 유지하는 것이 중요하다.

시간 간격에 의존하는 개념

np.cov -> corr 비교하면 이해할 수 있을 것임

 

 

 

---

정상성 확보를 위한 데이터 변환 기법

1. 차분 (Diffencing)

2. 이동평균 평활화

전체적인 추세를 더 명확히 볼 수 있음

주가는 이동평균을 중요하게 여김

 

3. 분산 안정화

로그 변환

큰 데이터를 축소 -> 금액 편차가 큰 경우 등 정상성을 꾀할 수 있음

제곱근 변환

데이터 크기가 작아지는 효과 (단, 양수 데이터를 대상으로 사용)

z-score 표준화

 

평균과 분산의 안정화를 꾀하면 자연스럽게 공분산도 시간에 독립적이고 시차에만 의존하는 특성을 갖게 됨

 

평균, 분산, 공분산 시각화를 해보는 게 과제

 

 

728x90
반응형