한국일보

설문조사 결과의 신뢰도와 정확도

2019-06-18 (화) 07:39:08 김창호 일리노이대 명예 석좌교수 조지 메이슨대 초빙교수
크게 작게
한국 갤럽이 2019년 6월 첫째 주에 실시한 한국 정당 지지도를 보면 더불어민주당 39.0%, 자유한국당 23.0%, 바른미래당 6.0%, 민주평화당 1.0%, 정의당 8.0%로 조사되었다. 이 조사는 만 19세 이상 남녀 1,006명을 대상으로 하였으며 95% 신뢰 수준에 표본 오차는 ±3.1 포인트이며 응답률은 16%라 발표되었다. 한편 같은 시기 조사에서 리얼미터는 더불어민주당 40.5%, 자유한국당 29.6%, 바른미래당 4.7%, 민주평화당 2.9%, 정의당 6.9%로 19세 이상 남녀 약 2,002명이 조사 대상으로 되었으며 95% 신뢰 수준에 표본 오차는 ±2.2 포인트이며 응답률은 6.1%라 발표되었다.

이 조사에서 각 정당의 지지도 우열은 쉽게 알 수 있겠다. 그러나 95%의 신뢰 수준이란 무엇이고 표본 오차 ±3.1또는 ±2.2란 무엇이며 또 정확히 서로 다른 결과를 어떻게 이해해야 하는가의 의문이 일게 된다. 우선 신뢰수준 95%란 해당 여론조사를 95%만 믿을 수 있다는 뜻이 아니고 표본 오차란 신뢰 수준 95%의 ±3.1 또는 ±2.2만큼 믿을 수 있다는 뜻은 더욱이 아니다.

표본 오차와 신뢰 수준을 이해하기 위해서 우선 정당 지지도를 전국 남녀 유권자 모두에게 물어본다고 가정하자. 즉 이 경우를 전수조사라고 하며 이의 결과는 100% 신뢰 수준에 표본 오차는 없을 것이다. 왜냐하면 그 결과야말로 전체의 의중을 알아본 조사이기 때문이다. 그러나 2017년 실시된 제 19대 대통령 선거 총 선거인 수인 약 4,240만명을 전체 유권자로 보고 이 많은 유권자 100%를 대상으로 정당 지지도를 조사하는 것은 엄청난 일이 아닐 수 없겠다. 과거 총선 또는 대선 투표의 참여율이 상대적으로 오랜 기간의 홍보에도 불구하고 최고 70% 정도 밖에 안된 것을 감안할 때 100% 전수조사는 거의 불가능한 일이다.


대안은 표본 설문조사이다. 표본 설문조사는 전국 유권자의 연령별, 지역별 그리고 남녀의 비율을 같이하여 무작위로 약 1,000 내지 2,000명을 조사하면 전 유권자를 대상으로 한 조사와 비슷한 결과를 얻을 수 있다는 전제에서 출발한다. 즉 그 결과는 전체 유권자(모집단-Statistical Population)의 의중을 대표하는 뜻과 비슷한 결과를 얻는다는 것이다.

그런데 왜 두 기관의 조사 결과가 서로 다를까? 무엇 보다도 설문의 대상자 수(표본 수)가 다를 수 있다. 당연히 더 많은 대상자에게 설문했다면 오차 범위는 줄어 들겠고 신뢰 수준도 더 높게 나올 수 있게 된다. 대상자 수가 다르니 조사 결과가 다른 것은 당연하다 하겠다. 그 다른 정도가 100% 전수 조사했을 때와 비교하여 얼마나 다를 수 있는가를 뜻하는 것이 오차 범위이고 설문의 결과가 얼마나 신빙성이 있는가를 나타내는 것이 신뢰수준 또는 신뢰도라 한다.

즉 95%의 신뢰 수준 또는 신뢰도란 정확히 말하자면 같은 설문 조사를 100번 하였을 때 95번은 정당 지지도 결과의 ±3.1%(갤럽의 경우) 또는 ±2.2% (리얼미터의 경우)의 오차 범위 안에 100% 전수조사했을 때와 같은 지지도가 들어 있다는 뜻이다. 물론 100% 전수조사를 한 적도 없기 때문에 그 값은 알 수 없으니 표본 조사의 결과는 통계학적 접근 방법으로 산출한 근사치 또는 추정치 일 수 밖에 없기 때문이며 이처럼 있을 수 있는 차이의 범위를 오차한계라고 부른다.

여기서 말하는 오차란 조사 기관이 실수를 범한다는 오류의 뜻이 아니다. 즉 추정치 임으로 100%라 신뢰할 수 없기 때문에 신뢰 수준과 오차 범위를 발표하고 있다. 이때에 35.9% - 42.1%(39%의 ±3.1%) 또는 19.9% - 26.1%(23%의 ±3.1%)는 정확도를 알려 주는 신뢰 구간이다. 표본 수가 1,000 에서 2,000 명으로 늘게 되면 표본 오차는 ±3.1% 에서 ±2.2%로 줄게 된다. 즉 더 많은 유권자에게 물어 보면 볼수록 조사 결과의 오차가 줄어들게 된다는 상식에 부합하는 뜻이다. 신뢰 구간의 간격이 적을 수록 즉 오차범위가 적을수록 그 결과는 100% 전수 조사의 결과에 더 근접한다고 볼 수 있을 것이며 조사 결과에 대한 신뢰 역시 높아질 것이다.

상기 갤럽 조사는 전국 남녀 6,294명에게 전화로 질문하여 이 중 16% 즉 1,006명만이 조사에 응하였으며 그 응답의 결과는 95% 신뢰 수준에 표본 오차는 ±3.1% 포인트라 발표하였다.

다시 반복하면 이 조사 결과의 정확한 의미는 전국의 유권자 중 매번 무작위로 창출한 대상자 중 조사에 응한 1,000여명에게 같은 질문으로 100번 조사한다면 95번의 결과는 더불어민주당 지지율을 최소 35.9%에서 최대 42.1%까지, 자유한국당은 최소 19.9%에서 최대 26.1%, 바른미래당은 최소 2.9%에서 최대 9.1%, 민주평화당은 최소 0%에서 최대 4.1%, 정의당은 최소 4.9%에서 최대 11.1%까지의 결과가 나온다는 뜻이다.

<김창호 일리노이대 명예 석좌교수 조지 메이슨대 초빙교수>

카테고리 최신기사

많이 본 기사