Statistics 8

[통계] 교차분석(Cross Tabulation Analysis)

1. 교차분석 의미- 독립변인과 종속변인이 모두 명목척도 혹은 서열척도로 측정한 불연속 변인일 때 적용하는 통계방법 교차분석은 2개 또는 그 이상의 범주 변인들에 근거한 케이스들의 중복된 빈도 분포를 생산하는 과정에서 적용되는 통계 기법이다. 이때 생산한 빈도 분포표를 교차표(cross tabulation table) 또는 분할표(contingency table)라고 하며, 1904년 칼 피어슨(Karl Pearson)이 처음으로 사용했다. 교차분석은 두 범주 변인 간 관계가 상호 독립 관계인지 아니면 상호 연관성을 맺고 있는지를 검증하는 방법이다. 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expecte..

3. 시계열 분석의 확률과정 및 정상성

1️⃣ 시계열 자료와 확률과정 1. 확률과정(Stochastic process) ① 시계열 자료 시간을 통해서 순차적으로 발생한 실측값 ② 확률과정 시점 t에 대응되는 확률변수들의 집합 2. 정상성 ① 정의 및 특징 정의 : 시계열의 확률적인 성질들이 시간의 흐름에 따라 불변 특징 뚜렷한 추세가 없음. 즉, 시계열의 평균이 시간 축에 평행 시계열의 진폭(변동)이 시간의 흐름에 따라 일정 시계열 자료의 과거와 미래의 상관관계가 시간의 흐름에 따라 일정 ② 평균, 분산, 자기공분산 정상성은 평균, 분산, 자기공분산이 시점 t에 관계없이 일정 평균 μ 는 모든 시점에서 일정 분산 σ^2 는 모든 시점에서 일정 자기공분산이 시차(time lag, k = t - s)에만 의존 ③ 정상성을 갖는 시계열 자료 그림 ..

2. 전통적 방법 : 시계열 데이터 구성요소(추세, 순환, 계절, 우연변동)

*유튜브 김성범[소장 / 인공지능공학연구소] 강의를 바탕으로 정리한 내용입니다. 1 시계열 데이터 구성요소 1. 추세변동(Trends) 시간이 경과함에 따라 관측값이 지속적으로 증가하거나 감소하는 추세를 갖는 경우의 변동 10년 이상 동일방향으로 상승 또는 하강 경향을 나타내는 요인 주로 경제 데이터에서 발생 2. 순환, 주기변동(Cycle) 주기적인 변화를 가지나 계절에 의한 것이 아니고 주기가 긴 경우의 변동 확장과 수축 과정을 반복하는 주기적인 변동요인 주기나 폭이 애매하지만 cycle이 있음 3. 계절변동(Season) 주별, 월별, 계절별과 같이 주기적인 요인에 의한 변동 4. 우연변동, 불규칙변동 시간에 따른 규칙적인 움직임과는 무관하게 랜덤한 원인에 의해 나타나는 변동 천재지변, 정책 변화 ..

2-1. 조건부 확률과 베이즈정리

1 조건부 확률 1. 조건부 확률(Uniform Distribution) A 사건이 이루어진 이후에 B 사건이 발생할 확률 Association Rule, 정확도, 추천시스템에 활용 컴퓨터를 산 사람에게 마우스를 사라고 추천한다면? → B|A 2 베이즈 정리 1. 베이즈 정리(Bayes' Rule) 사전(prior) 확률과 사후(posterior) 확률 사이의 관계를 조건부 확률을 이용해 계산하는 확률 실제생활에서는 사후 확률만 알고 있는 경우가 많음. 2. 사전 설계 코호트(Cohort) 연구, 전향적 연구 P(B|A) : 원인(A)가 발생한 후 결과(B)가 나타날 확률 A(원인) → B(결과) 3. 사후 설계 사례 - 대조연구, 후향적 연구 P(A|B) : 결과(B)가 나온 이후에 원인(A)일 확률 ..

1-3. 포아송분포와 지수분포

1 포아송분포 1. 포아송분포(Poisson distribution) 랜덤하게 선택한 일정한 단위 시간이나 공간 내에 발생하는 사건의 개수를 설명 지수분포 와 역의 관계 경영학에서는 대기시간 모형 에서 많이 사용 K 서비스 센터는 5분에 평균 1.5회의 전화가 온다. 5분 동안에 2회의 전화를 받을 확률은? 2 지수분포 1. 지수분포(Exponential distribution) 연속확률분포 두 사건 사이의 시간에 대한 확률 K 서비스 센터는 5분에 평균 1.5회의 전화가 온다. 대기시간이 1분이내일 확률은?

1. 시계열 분석 개요 및 데이터 다루기

시계열 분석(Time series analysis) 1 시계열 분석 1. 시계열 분석 의미 : 시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계 정보를 추출하기 위한 노력 과거 행동을 진단할 뿐만 아니라 미래 행동을 예측하기 위해 시계열 분석을 수행 2 시계열자료의 특징 시간의 영향을 받음 예) 일별주가, 일별 강우량, 월별 실업률, 월별 판매량 등 시계열 자료는 서로 독립이 아니므로 새로운 분석법이 필요 횡단면자료(cross-sectional data)와 종단면자료(longitudinal data) 구분 횡단면 자료 종단면 자료 정의 고정된 시간에 측정된 자료 단위시간에 따라 측정된 자료 특징 관측값들간 독립 관측값들 사이에 연관성 존재 예 2010년 100개 기업의 고용자 수 1970년 ~ 20..

1-2. 이산 균일분포와 이항분포

1 이산 균일분포 1. 이산 균일분포(Uniform Distribution) 표본공간 내의 모든 사건의 발생 가능성이 동일한 확률분포 이산 균등분포라고도 함. 주머니 속에 1부터 10까지 적힌 공이 들어 있고, 하나를 뽑을 때 나오는 눈이 관측될 확률 2 이항분포 1. 베르누이 시행(Bernoulli trial) 결과는 두 가지(성공, 실패)이고, 각각의 결과가 서로 독립적인 시행 각 시행에서 '성공'의 확률 p는 변하지 않음. 모든 시행들은 서로 독립 2. 이항분포(Binomial Distribution) 성공률 p인 베르누이 시행을 독립적으로 n번 반복 시행할 때, 성공의 횟수를 X. X는 이항분포를 따름 - 100개의 제품을 불량품과 양호품으로 구분하는 경우 - 1,000명의 유권자에게 정부정책에 ..

1-1. 확률

1 확률변수와 확률분포 * 확률(Probability) : 어떤 현상이 일어날 가능성에 대한 믿음의 정도 어떤 실험에서 특정한 사건의 발생 비율에 해당되는 개념(0~1) 확률 = 가능성 = % 1. 확률변수(random variable) 표본공간 내의 각 사건들에 실수값을 대응시키는 함수 2. 확률분포(Probability Distributions) 확률변수 X의 각 값(x)에 대응하는 확률(0~1)을 표시 1) 이산확률분포(Discrete Probability Distributions) 일양분포, 이항분포, 포아송분포, 초기하분포, 기하분포 2) 연속확률분포(Continuous Probability Distributions) 정규분포, t-분포, 카이제곱분포, f분포 2 확률 특성 1. 2. 순열과 조..

728x90