1. 교차분석 의미
- 독립변인과 종속변인이 모두 명목척도 혹은 서열척도로 측정한 불연속 변인일 때 적용하는 통계방법
교차분석은 2개 또는 그 이상의 범주 변인들에 근거한 케이스들의 중복된 빈도 분포를 생산하는 과정에서 적용되는 통계 기법이다. 이때 생산한 빈도 분포표를 교차표(cross tabulation table) 또는 분할표(contingency table)라고 하며, 1904년 칼 피어슨(Karl Pearson)이 처음으로 사용했다. 교차분석은 두 범주 변인 간 관계가 상호 독립 관계인지 아니면 상호 연관성을 맺고 있는지를 검증하는 방법이다. 이 중 카이제곱 교차분석은 실제로 나온 관찰빈도(observed frequency)와 각 셀에서 통계적으로 기대할 수 있는 빈도, 즉 기대빈도(expected frequency) 간에 얼마만큼의 차이가 있는지를 카이제곱 분포(chi-squared distribution)를 참조해 통계적으로 검증하는 통계 기법이다. 여기서 기대빈도는 모집단의 빈도 모수(parameter)와 일치하는 값이다.
만일 각 변인에 대한 관찰빈도와 기대빈도가 거의 차이가 없다면, 두 변인은 상호 독립적인 것으로 평가할 수 있는 반면, 관찰빈도가 기대빈도와 큰 차이를 나타낸다면, 두 변인은 상호 독립적이지 않고 어떤 식으로든 연관성이 있다고 평가할 수 있다. 여기서 기대빈도를 구하는 공식과 카이제곱 통계량을 도출하는 공식을 소개하면 다음과 같다.
[네이버 지식백과] 교차분석 (커뮤니케이션 통계 방법, 2013. 2. 25., 류성진)
2. 예시
- 응답자의 스마트폰 '사용브랜드'에 따라 '월수입'에 차이가 있는지
3. 분석
- 관찰빈도와 기대빈도(또는 가설화된 빈도)를 비교하여 카이제곱값(x2)을 통해 통계적으로 검정

사진 설명을 입력하세요.
- E : 기대빈도, C : 행의 각 빈도의 합, R : 열의 각 빈도의 합, N : 케이스의 총 합
4. 카이제곱검정 (chi-square test)
- 횟수 관련 데이터에 주로 사용되며 예상되는 분포에 얼마나 잘 맞는지 검정
- 카이제곱통계량 : 일반적으로 변수 간 독립성에 대한 귀무가설이 타당한지 평가
- 피어슨 잔차(Pearson residual) : R = (관측값 - 기댓값) / Sqrt(기대값)
- 자유도 : (r-1)x(c-1)
[가설]
H0 : 응답자의 스마트폰 '사용브랜드'에 따라 '월수입'에 차이가 없다.
Ha : 응답자의 스마트폰 '사용브랜드'에 따라 '월수입'에 차이가 있다.
[python]
1) 교차분석표

2) 카이제곱값

3) 결과
p-value 값은 0.02로 위의 가설은 유의수준 0.05하에서 유의하다.
따라서 응답자의 스마트폰 '사용브랜드'에 따라 '월수입'에 차이가 있다.
Last Updated. 2025.06.18
🔖 참고 자료
https://terms.naver.com/entry.naver?docId=1625380&cid=42251&categoryId=42262
'Statistics > 기초통계' 카테고리의 다른 글
2-1. 조건부 확률과 베이즈정리 (0) | 2022.07.27 |
---|---|
1-3. 포아송분포와 지수분포 (0) | 2022.07.27 |
1-2. 이산 균일분포와 이항분포 (0) | 2022.07.05 |
1-1. 확률 (0) | 2022.07.05 |