Statistics 11

[통계] 교차분석(Cross Tabulation Analysis)

1. 교차분석 의미- 독립변인과 종속변인이 모두 명목척도 혹은 서열척도로 측정한 불연속 변인일 때 적용하는 통계방법 교차분석은 2개 또는 그 이상의 범주 변인들에 근거한 케이스들의 중복된 빈도 분포를 생산하는 과정에서 적용되는 통계 기법이다. 이때 생산한 빈도 분포표를 교차표(cross tabulation table) 또는 분할표(contingency table)라고 하며, 1904년 칼 피어슨(Karl Pearson)이 처음으로 사용했다. 교차분석은 두 범주 변인 간 관계가 상호 독립 관계인지 아니면 상호 연관성을 맺고 있는지를 검증하는 방법이다. 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expecte..

[Sampling] Reservoir Sampling

1. Reservoir Sampling 정의 n개의 항목 목록에서 k 개의 샘플을 무작위로 선택하기 위한 무작위 알고리즘으로, 여기서 n은 매우 크거나 알 수 없는 숫자이다. 일반적으로 n은 목록이 주 메모리에 맞지 않을 정도로 크다. 예를 들어 Google 및 Facebook의 검색어 목록이다. 특징 데이터 스트림에서 샘플링하는 알고리즘 2. Process 단순화하기 위해 숫자의 큰 배열 (또는 스트림)이 주어지며 1 < = k < = n 인 k 숫자를 무작위로 선택하는 효율적인 함수를 작성해야한다. 입력 배열을 stream[] 으로 하자. 간단한 해결책은 최대 크기 k의 배열 저장소 reservoir[]를 만드는 것이다. 스트림 [0..n-1]에서 항목을 하나씩 무작위로 선택한 뒤, 선택한 항목이 이..

Statistics/Sampling 2023.02.13

[Sampling] 중요도 샘플링 (Importance Sampling: IS)

1. Importance Sampling 정의 효율적으로 기댓값을 추정하기 위해 고안되었으며, 확률 밀도 추정 및 강화 학습 등의 다양한 활용에 이용 기댓값을 계산하고자 하는 확률 분포 p(x)의 확률 밀도 함수 (probability density function, PDF)를 알고는 있지만 p에서 샘플을 생성하기가 어려울 때, 비교적 샘플을 생성하기가 쉬운 q(x)에서 샘플을 생성하여 p 의 기댓값을 계산하는 것 즉, pdf(p(x))로 임의의 샘플을 생성하지 않음. Monte Carlo sampling 정확도를 향상시키기 위해 왜곡된 pdf(q(x))를 찾는다. 활용 예 어휘량이 많은 neural language models의 학습을 가속화하기 위해 Estimate partition function ..

Statistics/Sampling 2023.02.13

[Sampling] 라틴 하이퍼큐브 샘플링(Latin Hypercube Sampling: LHS)

1. Latin Hypercube Sampling정의- stratified Monte Carlo(MC)의 한 종류로 기본 아이디어는 샘플링 포인트의 분포를 확률 밀도 함수(probability density function: pdf)에 가깝게 만드는 것- 샘플링 영역은 x의 각 구성 요소의 범위를 나누어 특정 방식으로 분할된다. x의 요소가 독립이거나, 독립을 기반으로 변형가능할 경우에만 고려한다.특징- 분포를 동일한 확률구간으로 분할한다.- 주로 long-running model에 사용하도록 의도됨(효율적인 계층화 특성 때문에)2. Processprocess1) x 변수로부터 샘플 크기 N을 생성한다. x1, x2, ..., xn 각 변수의 범위는 동일한 확률 크기(1/N)를 기준으로 N개의 겹치..

Statistics/Sampling 2023.02.13

3. 시계열 분석의 확률과정 및 정상성

1️⃣ 시계열 자료와 확률과정 1. 확률과정(Stochastic process) ① 시계열 자료 시간을 통해서 순차적으로 발생한 실측값 ② 확률과정 시점 t에 대응되는 확률변수들의 집합 2. 정상성 ① 정의 및 특징 정의 : 시계열의 확률적인 성질들이 시간의 흐름에 따라 불변 특징 뚜렷한 추세가 없음. 즉, 시계열의 평균이 시간 축에 평행 시계열의 진폭(변동)이 시간의 흐름에 따라 일정 시계열 자료의 과거와 미래의 상관관계가 시간의 흐름에 따라 일정 ② 평균, 분산, 자기공분산 정상성은 평균, 분산, 자기공분산이 시점 t에 관계없이 일정 평균 μ 는 모든 시점에서 일정 분산 σ^2 는 모든 시점에서 일정 자기공분산이 시차(time lag, k = t - s)에만 의존 ③ 정상성을 갖는 시계열 자료 그림 ..

2. 전통적 방법 : 시계열 데이터 구성요소(추세, 순환, 계절, 우연변동)

*유튜브 김성범[소장 / 인공지능공학연구소] 강의를 바탕으로 정리한 내용입니다. 1 시계열 데이터 구성요소 1. 추세변동(Trends) 시간이 경과함에 따라 관측값이 지속적으로 증가하거나 감소하는 추세를 갖는 경우의 변동 10년 이상 동일방향으로 상승 또는 하강 경향을 나타내는 요인 주로 경제 데이터에서 발생 2. 순환, 주기변동(Cycle) 주기적인 변화를 가지나 계절에 의한 것이 아니고 주기가 긴 경우의 변동 확장과 수축 과정을 반복하는 주기적인 변동요인 주기나 폭이 애매하지만 cycle이 있음 3. 계절변동(Season) 주별, 월별, 계절별과 같이 주기적인 요인에 의한 변동 4. 우연변동, 불규칙변동 시간에 따른 규칙적인 움직임과는 무관하게 랜덤한 원인에 의해 나타나는 변동 천재지변, 정책 변화 ..

2-1. 조건부 확률과 베이즈정리

1 조건부 확률 1. 조건부 확률(Uniform Distribution) A 사건이 이루어진 이후에 B 사건이 발생할 확률 Association Rule, 정확도, 추천시스템에 활용 컴퓨터를 산 사람에게 마우스를 사라고 추천한다면? → B|A 2 베이즈 정리 1. 베이즈 정리(Bayes' Rule) 사전(prior) 확률과 사후(posterior) 확률 사이의 관계를 조건부 확률을 이용해 계산하는 확률 실제생활에서는 사후 확률만 알고 있는 경우가 많음. 2. 사전 설계 코호트(Cohort) 연구, 전향적 연구 P(B|A) : 원인(A)가 발생한 후 결과(B)가 나타날 확률 A(원인) → B(결과) 3. 사후 설계 사례 - 대조연구, 후향적 연구 P(A|B) : 결과(B)가 나온 이후에 원인(A)일 확률 ..

1-3. 포아송분포와 지수분포

1 포아송분포 1. 포아송분포(Poisson distribution) 랜덤하게 선택한 일정한 단위 시간이나 공간 내에 발생하는 사건의 개수를 설명 지수분포 와 역의 관계 경영학에서는 대기시간 모형 에서 많이 사용 K 서비스 센터는 5분에 평균 1.5회의 전화가 온다. 5분 동안에 2회의 전화를 받을 확률은? 2 지수분포 1. 지수분포(Exponential distribution) 연속확률분포 두 사건 사이의 시간에 대한 확률 K 서비스 센터는 5분에 평균 1.5회의 전화가 온다. 대기시간이 1분이내일 확률은?

1. 시계열 분석 개요 및 데이터 다루기

시계열 분석(Time series analysis) 1 시계열 분석 1. 시계열 분석 의미 : 시간 순서대로 정렬된 데이터에서 의미 있는 요약과 통계 정보를 추출하기 위한 노력 과거 행동을 진단할 뿐만 아니라 미래 행동을 예측하기 위해 시계열 분석을 수행 2 시계열자료의 특징 시간의 영향을 받음 예) 일별주가, 일별 강우량, 월별 실업률, 월별 판매량 등 시계열 자료는 서로 독립이 아니므로 새로운 분석법이 필요 횡단면자료(cross-sectional data)와 종단면자료(longitudinal data) 구분 횡단면 자료 종단면 자료 정의 고정된 시간에 측정된 자료 단위시간에 따라 측정된 자료 특징 관측값들간 독립 관측값들 사이에 연관성 존재 예 2010년 100개 기업의 고용자 수 1970년 ~ 20..

1-2. 이산 균일분포와 이항분포

1 이산 균일분포 1. 이산 균일분포(Uniform Distribution) 표본공간 내의 모든 사건의 발생 가능성이 동일한 확률분포 이산 균등분포라고도 함. 주머니 속에 1부터 10까지 적힌 공이 들어 있고, 하나를 뽑을 때 나오는 눈이 관측될 확률 2 이항분포 1. 베르누이 시행(Bernoulli trial) 결과는 두 가지(성공, 실패)이고, 각각의 결과가 서로 독립적인 시행 각 시행에서 '성공'의 확률 p는 변하지 않음. 모든 시행들은 서로 독립 2. 이항분포(Binomial Distribution) 성공률 p인 베르누이 시행을 독립적으로 n번 반복 시행할 때, 성공의 횟수를 X. X는 이항분포를 따름 - 100개의 제품을 불량품과 양호품으로 구분하는 경우 - 1,000명의 유권자에게 정부정책에 ..

728x90