Statistics/시계열분석

1. 시계열 분석 개요 및 데이터 다루기

삐롱K 2022. 7. 25. 17:47
728x90
반응형
시계열 분석(Time series analysis)

 

 1  시계열 분석

1. 시계열 분석

  • 의미 : 시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계 정보를 추출하기 위한 노력
  • 과거 행동을 진단할 뿐만 아니라 미래 행동을 예측하기 위해 시계열 분석을 수행

 

 2  시계열자료의 특징

  • 시간의 영향을 받음 예) 일별주가, 일별 강우량, 월별 실업률, 월별 판매량 등
  • 시계열 자료는  서로 독립이 아니므로  새로운 분석법이 필요
  • 횡단면자료(cross-sectional data)와 종단면자료(longitudinal data)
구분 횡단면 자료 종단면 자료
정의 고정된 시간에 측정된 자료 단위시간에 따라 측정된 자료
특징 관측값들간 독립 관측값들 사이에 연관성 존재
2010년 100개 기업의 고용자 수 1970년 ~ 2010년 산업생산지수, 소비자 물가지수

 

 3  시계열자료의 예

  • 경제활동과 관련된 시계열(economic time series) : 국민 총 생산액, 물가지수, 총 수출액, 주가지수 등
  • 물리적 현상과 관련된 시계열(physical time series) : 일일 강수량, 기온, 태양의 흑점 수, 연간 지진의 발생 수 등
  • 회사의 경영활동과 관련된 시계열(marketing time series) : 상품판매량, 상품광고액, 상품재고량, 상품매출액 등
  • 인구와 관련된 시계열(demographic time series) : 총인구, 농가 수, 인구증가율, 평균결혼연령 등
  • 생산관리와 관련된 시계열(time series in process control) : 품질관련 등
  • 사회생활과 관련된 시계열 : 월별 교통사고 건수, 월별 범죄 발생 수

 

 4  시계열 데이터 다루기

1. 결측값 대체

  • 포워드  필(forward fill) : 누락된 값이 나타나기 직전의 값으로 누락된 값을 채우는 가장 간단한 방법
  • 이동평균(moving average) : 최근 과거의 여러 시간대를 입력한 내용을 사용하여 예측
  • 보간법(interpolation) : 전체 데이터를 기하학적인 행동에 제한하여 누락된 데이터값을 결정하는 방법
                                        예) 선형 보간법 : 누락된 데이터가 주변 데이터에 선형적인 일관성을 갖도록 제한

 

2. 데이터 평활

  • 지수평활 : 최근 데이터일수록 더 많은 가중치를 줘서 시간의 특성을 더 잘 인식할 수 있도록 만들어진 방법

 

3. EDA

  • 정상성(stationarity) : 시계열이 정상성이 된다는 의미와 정상성에 대한 통계적 검사
  • 자체상관(self correlation) : 시계열 그 자체로 연관성이 있다는 의미와 이 연관성이 시계열의 내재된 역동성에 대해 보여주고자 하는 것
  • 허위상관(spurious correlation) : 상관관계가 허위가 된다는 의미와 허위상관을 마주칠 만한 상황
728x90
반응형