Statistics/기초통계

[통계] 교차분석(Cross Tabulation Analysis)

삐롱K 2025. 6. 18. 13:28
728x90
반응형

1. 교차분석 의미

- 독립변인과 종속변인이 모두 명목척도 혹은 서열척도로 측정한 불연속 변인일 때 적용하는 통계방법

 

교차분석은 2개 또는 그 이상의 범주 변인들에 근거한 케이스들의 중복된 빈도 분포를 생산하는 과정에서 적용되는 통계 기법이다. 이때 생산한 빈도 분포표를 교차표(cross tabulation table) 또는 분할표(contingency table)라고 하며, 1904년 칼 피어슨(Karl Pearson)이 처음으로 사용했다. 교차분석은 두 범주 변인 간 관계가 상호 독립 관계인지 아니면 상호 연관성을 맺고 있는지를 검증하는 방법이다. 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expected frequency) 간에 얼마만큼의 차이가 있는지를 카이제곱 분포(chi-squared distribution)를 참조해 통계적으로 검증하는 통계 기법이다. 여기서 기대빈도는 모집단의 빈도 모수(parameter)와 일치하는 값이다.

만일 각 변인에 대한 관찰빈도와 기대빈도가 거의 차이가 없다면, 두 변인은 상호 독립적인 것으로 평가할 수 있는 반면, 관찰빈도가 기대빈도와 큰 차이를 나타낸다면, 두 변인은 상호 독립적이지 않고 어떤 식으로든 연관성이 있다고 평가할 수 있다. 여기서 기대빈도를 구하는 공식과 카이제곱 통계량을 도출하는 공식을 소개하면 다음과 같다.

[네이버 지식백과] 교차분석 (커뮤니케이션 통계 방법, 2013. 2. 25., 류성진)

 

2. 예시

- 응답자의 스마트폰 '사용브랜드'에 따라 '월수입'에 차이가 있는지

 

3. 분석

- 관찰빈도와 기대빈도(또는 가설화된 빈도)를 비교하여 카이제곱값(x2)을 통해 통계적으로 검정

사진 삭제

사진 설명을 입력하세요.

- E : 기대빈도, C : 행의 각 빈도의 합, R : 열의 각 빈도의 합, N : 케이스의 총 합

 

4. 카이제곱검정 (chi-square test)

- 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지 검정

- 카이제곱통계량 : 일반적으로 변수 간 독립성에 대한 귀무가설이 타당한지 평가

- 피어슨 잔차(Pearson residual) : R = (관측값 - 기댓값) / Sqrt(기대값)

- 자유도 : (r-1)x(c-1)

 

 

[가설]
H0 : 응답자의 스마트폰 '사용브랜드'에 따라 '월수입'에 차이가 없다.
Ha : 응답자의 스마트폰 '사용브랜드'에 따라 '월수입'에 차이가 있다.

 

[python]

1) 교차분석표

2) 카이제곱값

3) 결과

p-value 값은 0.02로 위의 가설은 유의수준 0.05하에서 유의하다.

따라서 응답자의 스마트폰 '사용브랜드'에 따라 '월수입'에 차이가 있다.

 


Last Updated. 2025.06.18

🔖 참고 자료

https://terms.naver.com/entry.naver?docId=1625380&cid=42251&categoryId=42262

https://junsik-hwang.tistory.com/23

728x90
반응형

'Statistics > 기초통계' 카테고리의 다른 글

2-1. 조건부 확률과 베이즈정리  (0) 2022.07.27
1-3. 포아송분포와 지수분포  (0) 2022.07.27
1-2. 이산 균일분포와 이항분포  (0) 2022.07.05
1-1. 확률  (0) 2022.07.05