728x90
반응형
시계열 분석(Time series analysis)
1 시계열 분석
1. 시계열 분석
- 의미 : 시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계 정보를 추출하기 위한 노력
- 과거 행동을 진단할 뿐만 아니라 미래 행동을 예측하기 위해 시계열 분석을 수행
2 시계열자료의 특징
- 시간의 영향을 받음 예) 일별주가, 일별 강우량, 월별 실업률, 월별 판매량 등
- 시계열 자료는 서로 독립이 아니므로 새로운 분석법이 필요
- 횡단면자료(cross-sectional data)와 종단면자료(longitudinal data)
구분 | 횡단면 자료 | 종단면 자료 |
정의 | 고정된 시간에 측정된 자료 | 단위시간에 따라 측정된 자료 |
특징 | 관측값들간 독립 | 관측값들 사이에 연관성 존재 |
예 | 2010년 100개 기업의 고용자 수 | 1970년 ~ 2010년 산업생산지수, 소비자 물가지수 |
3 시계열자료의 예
- 경제활동과 관련된 시계열(economic time series) : 국민 총 생산액, 물가지수, 총 수출액, 주가지수 등
- 물리적 현상과 관련된 시계열(physical time series) : 일일 강수량, 기온, 태양의 흑점 수, 연간 지진의 발생 수 등
- 회사의 경영활동과 관련된 시계열(marketing time series) : 상품판매량, 상품광고액, 상품재고량, 상품매출액 등
- 인구와 관련된 시계열(demographic time series) : 총인구, 농가 수, 인구증가율, 평균결혼연령 등
- 생산관리와 관련된 시계열(time series in process control) : 품질관련 등
- 사회생활과 관련된 시계열 : 월별 교통사고 건수, 월별 범죄 발생 수
4 시계열 데이터 다루기
1. 결측값 대체
- 포워드 필(forward fill) : 누락된 값이 나타나기 직전의 값으로 누락된 값을 채우는 가장 간단한 방법
- 이동평균(moving average) : 최근 과거의 여러 시간대를 입력한 내용을 사용하여 예측
- 보간법(interpolation) : 전체 데이터를 기하학적인 행동에 제한하여 누락된 데이터값을 결정하는 방법
예) 선형 보간법 : 누락된 데이터가 주변 데이터에 선형적인 일관성을 갖도록 제한
2. 데이터 평활
- 지수평활 : 최근 데이터일수록 더 많은 가중치를 줘서 시간의 특성을 더 잘 인식할 수 있도록 만들어진 방법
3. EDA
- 정상성(stationarity) : 시계열이 정상성이 된다는 의미와 정상성에 대한 통계적 검사
- 자체상관(self correlation) : 시계열 그 자체로 연관성이 있다는 의미와 이 연관성이 시계열의 내재된 역동성에 대해 보여주고자 하는 것
- 허위상관(spurious correlation) : 상관관계가 허위가 된다는 의미와 허위상관을 마주칠 만한 상황
728x90
반응형
'Statistics > 시계열분석' 카테고리의 다른 글
3. 시계열 분석의 확률과정 및 정상성 (0) | 2022.08.09 |
---|---|
2. 전통적 방법 : 시계열 데이터 구성요소(추세, 순환, 계절, 우연변동) (0) | 2022.07.29 |