hot topic

통계의 함정, 그 속에서

나오지 않으시겠어요?(뿌잉뿌잉)

 

안녕하세요! 오랜만에 뵙습니다~ 통통이예요!! 추운 겨울, 몸 관리는 잘 하고 계신가요? 오랜만에 뵙는 만큼 옛날이야기 하나를 꺼내볼까 해요.

 

 

선거 때마다 TV를 점령하는 이것! 예측 결과!


대통령 선거나 국회의원 선거를 할 때면 지상파 TV나 케이블 TV 채널 모두 예측결과를 발표하는 것을 볼 수 있을 텐데요. 지금과는 그 방법이 달랐지만, 미국에서는 예부터 선거 결과에 대한 예측을 했었다고 합니다.

20세기 미국에서는 지금은 잘 들어볼 수 없는 이름의 잡지사가 있었습니다. 바로 ‘리터러리 다이제스트’인데요. 미국에서 선거가 이루어 질 때 여론조사에 인한 예측으로 명성을 얻은 후로 미국의 인기 정상 잡지로 자리를 잡게 되었지요. 특히 1920년부터 32년까지 있었던 4차례의 미국 대선 결과를 정확히 예측하면서 그 인기가 더해졌다고 합니다. 그러나 1936년 있었던 대선에서 공화당의 랜던과 민주당의 루즈벨트가 대결한 결과를 정반대로 예측하면서 순식간에 몰락하게 되었습니다. 평소 정확한 예측을 했던 리터러리 다이제스트는 어떤 이유로 빗나간 예측을 하게 되었을까요?

 

( 사진 - 리터러리 다이제스트의 우편 )

1936년 선거가 시작되면서, 리터러리 다이제스트는 전화기 및 자동차 보유자 약 1000만 명을 예측의 표본으로 삼았습니다. 1000만 명에게 발송이 된 우편 중 2백30만장을 돌려받은 후 그 집계 결과로 공화당의 랜던 후보가 57%p, 민주당의 루즈벨트가 43%p를 얻게 되어 랜던이 루트벨트를 압도적으로 누르고 대통령에 당선된다는 예측을 하게 되었죠. 하지만 이러한 예측은 사실과 정반대로 빗나가게 되었습니다. 실제로 선거 후의 결과가 루즈벨트는 61%p의 지지를 얻었고, 랜던이 39%p의 지지를 얻어 민주당이 정권을 잡게 되었습니다.

 

 

여기서 문제! 이 안에서 무슨 문제가 잘못 된 것일까요?

리터러리 다이제스트가 1천만명 이상의 대규모 모집단을 대상으로 조사한 결과가 틀린 이유는 바로, 표본을 고른 표본추출 방법에 있었습니다. 리터러리 다이제스트는 구독자와 함께 전화 가입자, 자동차 보유자 명단을 중심으로 여론조사를 실시했습니다. 그러나 당시 미국상황에서 전화 가입자나 자동차를 소유한 사람들은 경제적으로 부유한 계층이었고, 이들 대부분이 공화당 지지자였습니다. 결국 국민 전체를 대표해야 할 표본을 공화당 지지계층을 중심으로 추출하게 되어 여론조사를 실시하였기 때문에 나온 예측 오류였죠.

이렇게 전문적인 일을 하는 기업이나 기관에서도 통계에 대한 오류와 함정에 빠져 크고 작은 손해를 입게 됩니다. 우리 일반인들도 일상생활에서 느낄 수 있는 수많은 오류와 함정이 있는데요, 간단하게 두 가지정도만 함께 알아보도록 할게요! :)

 

 

퍼센트(%) vs 퍼센트포인트(%p) vs 포인트(p)


퍼센트와 퍼센트포인트 그리고 포인트는 방송이나 신문에서 통계적 개념을 이용하여 각종 수치에 대한 변화를 이야기할 때 자주 등장하는 단위입니다. 이 세 가지 단위를 헷갈리게 사용하여 잘못된 정보를 전달하는 경우가 많다고 하네요.

특히, 많은 사람들이 퍼센트와 퍼센트포인트를 잘못 사용 하는 경우가 많다고 하는데요, 퍼센트는 백분비라고도 하며, 전체의 수량을 100으로 하여, 해당 수량이 그 중 며이 되는가를 가리키는 수로 나타냅니다. 그에 반해 퍼센트포인트는 이러한 퍼센트 간의 차이를 표현한 것입니다. 올 하반기의 핫 이슈라 할 수 있는 수능에서의 외국어영역 문제 오류도 이로 인해 발생한 문제입니다. 이를 예로 둘의 차이를 알아보도록 합시다.

아래의 그림은 2014년도 외국어영역 25번 문제에서 사용된 <2006년과 2012년 미국 청소년의 소셜 미디어 이용실태(Social Media Profiles: What Americans Age 12-17 Post)>에 관한 도표를 나타낸 것입니다.

 

 

5번의지문을 보시면 아시겠지만 수능 출제 당시 ‘핸드폰 번호 공개 비율이 2%에서 20%로 18% 올랐다.’고 해석을 해 놓았는데요. 얼핏 보면 맞는 말 같지만, 통계학적 이론으로 볼 때는 저 표현은 틀린 말입니다. ‘900%의 비율로 올랐다.’, 또는 ‘18%p가 올랐다.’ 라는 표현이 맞는 말 이지요.

참고로, 경기종합지수에서 동행지수 순환 변동치나 종합주가지수의 변동을 나타낼 때는 다음과 같이 ‘포인트’란 용어를 사용합니다. 예를 들어 ‘2014년 1월 1일 오후 2시의 코스피 지수는 전일 대비 3.7포인트 오른 1890.67 이다.’처럼 쓰이게 되는 것 이죠.

 

 

평균 vs 중앙값


한 자료 전체의 중심적인 경향이나 특징을 대표적인 하나의 수로 나타낸 값을 ‘대푯값’이라고 부릅니다. 그 중 가장 일반적인 대푯값은 모두들 잘 아시는 ‘평균’이라는 대푯값입니다. 산술적인 '평균'은 ‘자료의 합’을 ‘자료의 개수’로 나눠 계산합니다. 한편, ‘중앙값’은 절반 이상의 숫자들이 이 값보다 크거나 같고, 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수로 정의됩니다. 좀 더 쉽게 이해하기 위해서 평균과 중앙값을 사용한 예시를 한번 살펴볼까요?

아래 그림은 A반과 B반의 평균과 중앙값을 비교해 놓은 그래프입니다. A반의 평균과 B반의 평균은 같은 것을 알 수 있지만 한 눈에 보아도 그 분포가 두 반이 다른 것을 알 수 있으시겠죠?

평균은 모든 자료에 있어서 중요한 정보지만 자료가 퍼진 정도를 반영하지는 못합니다. 때문에 중앙값이라는 개념이 중요한 개념이 되었죠. A반의 중앙값은 2등을 한 1번의 4점과 3등을 한 2번의 평균을 구한 값이며, B반의 중앙값은 모든 학생들의 점수가 같기 때문에 중앙값이 평균과 같습니다. 위의 예시처럼 평균이라는 수치가 자료를 왜곡되게 보일 수 있게 한다는 사실을 알 수 있어요.

통계의 오류! 잘 알고 사용하여야겠죠?

 

 

통계의 함정 빠지지 말고 피하세요!


어쩌면 통계는 지금까지 설명한 것보다 훨씬 다양하고 복잡한 방식으로 우리들의 생각에 영향을 끼치고 있을 지도 모릅니다. 저 통통이가 학교에서 통계학 시간에 처음으로 배운 수업 중 가장 기억에 남는 말이 있습니다. 바로 ‘통계학은 오류를 인정하는 단 하나의 학문’이라는 것입니다. 통계학에서는 오차라는 것이 존재하는데요, 이렇게 오차와 오류를 존재하는 학문임을 알고서도 함정에 빠져서는 안 되겠죠?

독자 여러분도 통통이와 함께 통계적 시각을 길러보도록 해요!


 


※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다.

신고
트랙백 TRACKBACK :0 개, 댓글 2 개가 달렸습니다.
  • BlogIcon Yume 2015.02.02 15:46 신고 ADDR EDIT/DEL REPLY

    안녕하세요, 통통이님 (__)o 작성하신 기사를 읽다가 궁금해서 덧글을 답니다.
    ● < 퍼센트(%) vs 퍼센트포인트(%p) vs 포인트(p) >에서
    수능문제쪽에 설명중에
    '900%의 비율로 올랐다.'라고 하면, 18%가 되는 것 아닌가요?
    '900%의 비율만큼 추가적으로 상승했다.'면 2%에 900%의 비율만큼 상승한 수치를 더하겠지만...
    비율로 상승하면거면 그냥 18%가 되는 것 같아서요.

    아니면 '1000%의 비율로 올랐다.'고해서 20%를 나타내야 되지 않나요?

  • BlogIcon Yume 2015.02.02 15:51 신고 ADDR EDIT/DEL REPLY

    포스팅 읽으면서 통계에 대해 많이 배워갑니다. (_ _)o
    통계를 하면서는 항상 오차와 오류를 생각하여 작성을 해야겠군요!!!

    감사합니다~☆


최근 뉴스 기사를 보던 중 눈에 띄는 제목이 있었습니다. ‘대한민국 작년 평균 월급이 300만 원이 넘어’ 라는 제목으로 기사가 올라왔기 때문입니다.


저도 놀라고, 친구도 놀라고, 네티즌들도 놀랐습니다. 도저히 믿기지가 않았기 때문입니다. 하지만 기사의 내용을 보니 고용노동부가 발표한 사업체 노동력조사 결과에 따르면 2013년 상용근로자 5인 이상 사업체라며 정확한 출처와 공신력 있는 기관에서 정확한 조사대상을 선정하여 조사했다고 하니 한번 더 놀랐습니다.


그렇다면 네티즌들의 반응들은 어땠을까요? 기사의 댓글 중 네티즌들의 가장 많은 공감을 받은 댓글입니다.

 

 

사진의 내용처럼 어느 나라 임금이 300이냐?’, ‘의미 없는 기사 올리지 마라.’, 등등 기사의 내용을 인정할 수 없다는 의견들이 가장 공감을 많이 얻었습니다. 댓글의 공감의 수로 미루어 보아, 대부분의 네티즌들은 우리나라의 작년 평균 월급이 300만 원 이라는 발표를 신뢰하지 못하는 것으로 보여집니다.

 

특히, '통계를 어떤 식으로 내는 건지 궁금하네.' 라고 어느 분이 말씀하셔서 혹시 기사가 잘못되었나 싶어서 직접 통계청에서 자료를 얻고 그래프로 만들어 보았습니다. 그 결과...!!  

 

 

 

<자료 : 통계청 >

 

 

 

 <원본 출처 : flickr.com >

 

 

진짜였습니다. 작년 대한민국의 월 평균 임금은 3,229,000원이었습니다! 통계청과 고용노동부의 발표가 틀렸을까요? 아니면 조사를 정말 잘못해서 일반 사람들이 인정을 못 할 통계치가 나온 것일까요? 결론부터 말하자면 '통계청의 발표는 잘못되지 않았습니다.' 정말 작년 대한민국의 월 평균 임금은 300만 원이 맞습니다. 그렇다면...,

 


"무엇이 우리를 이토록 통계치현실괴리감을 느끼게 하는 것 일까요?"

  

  

<원본 출처 : flickr.com >

 

 

평균(Mean)

 

 

< 출처 : 네이버 지식백과 >

 

 

우리가 생활 속에서도 쭉 써오던 용어이자 초등학교 5학년부터 배우는 개념인 바로! ‘평균입니다평균이라는 단어 속에 우리는 본능적으로 어느 집단의 대푯값 혹은 특징을 잘 나타내는 중심이라고 생각하고 있기 때문입니다. 틀린 생각은 절대 아닙니다. 평균'하나도 빠짐없이' 자료의 모든 값을 잘 반영하여 평형을 시켜주는 아주 멋있는 친구입니다.

 

 

밑의 자료는 초등학교 교과서에서 평균에 대한 설명을 나타내는 방법 중 한 예화입니다.

 

 

 

<출처 : 네이버 지식백과 >

 

학교 선생님이 우리 반 과목별 평균점수다.” 라며 평균= 집단의 대푯값이라는 식의 설명으로 시작하고 있습니다. 실제로 우리도 평균을 그런 뜻으로 많이 사용해 왔습니다.

 

지만 여기에 치명적인 단점이 있습니다. 그 단점을 제가 재밌는 한 가지 예화로 설명해 드리겠습니다.

 

 

 

<사진 원본 : http://ask.nate.com/qna/view.html?n=8100637 >

 

 

 

이 달동네의 평균 월급을 구하면

이 나왔습니다.

 

"달동네 주민의 평균 월급은 정말로 1,000만 원인가요?"

 

"네, 맞습니다."

 

평균 월급은 1,000만 원이 맞습니다. 하지만 평균 월급이 달동네라는 집단의 특징을 잘 나타내는 것일까요이 달동네 주민들의 소득 수준이 정말 1,000만 원이 맞을까요평균 월급이 1,000만 원이라고 해서 이 달동네 대부분 주민이 1,000만 원을 벌고 있나요?

 

 

당연히 아닙니다. 즉, 평균이라고 해서 '무조건' 어느 집단의 중간쯤 되는 대표라고 생각하시는 것은 옳지 않다는 것입니다.

 

 

 

위 예화처럼 평균은 모든 자료의 값을 사용하기 때문에 극단적으로 크거나, 극단적으로 작은 값 즉, 이상점(outlier)이 나오게 되면 모든 자료의 균형은 깨지게 되고 우리가 알고자 하는 평균으로서의 대표 값의 의미는 사라지게 됩니다.

 

 

 

 

 

 

<원본 출처 : http://ask.nate.com/qna/view.html?n=6275345>

 

 

우리는 집단의 중심 알고자 할 때 치명적인 약점을 가진 평균 말고 다른 어떤 것들을 사용할 수 있을까요?

 

 

 

#  자료 중심의 측도

 

중앙값(Median)

 

 

 

<출처 : 이훈영,『일반통계학』(도서출판 청람 2013), p74

 

 

앙값은 전체 자료 값들을 오름차순 정렬하였을 경우 중앙에 위치한 값을 뜻합니다. 자료의 개수가 홀수이냐 짝수이냐의 따라서 구하는 방법도 달라집니다. 중앙값의 특징은 자료들의 수치를 전부 다 담고 있지는 않지만, 자료들의 중간을 가장 잘 나타내줍니다. 또한, 극단적인 값들의 영향을 받지 않기 때문에 평균이 극단적인 값들로 인해 대푯값으로 쓰일 수 없을 때 자료의 대푯값으로 쓰입니다.


 

최빈값(Mode)

 

 

 

빈값은 자료 값들의 빈도(출현횟수)를 구하였을 때, 가장 높은 값을 말합니다. 위의 사진에서 보신 것처럼 24명의 과일 선호도를 구했습니다. 이때의 최빈값으로는 10명의 선택을 받는 수박이 최빈값이 됩니다. 이렇듯 많은 사람이 선택한 값이거나 속한 자료가 그 집단의 대푯값이 되기도 합니다. 평균과 중앙값과 더불어 최빈값은 자료의 대푯값으로 주로 쓰이는 개념입니다.

 


절사평균(Trimmed Mean)

 

 

 

 

사평균은 평균의 단점을 보완하기 위해 만들어진 평균입니다. 중앙값과 평균을 혼합하여 계산하는 방식으로, 알고자 하는 '집단의 모든 자료를 오름차순으로 정렬한 뒤 상위 α % 와 하위 α % 를 제외한 나머지 자료들의 평균'입니다. 평균의 단점인 이상 점(outlier)으로 인한 왜곡현상을 막으며 더욱 정확한 자료 중심의 측도라 할 수 있습니다. 하지만 α 어느 정도까지 할 것인지에 따른 의견차이로 인해 자주 쓰이지는 않습니다.

 

 

#  정리

 

<출처 : http://www.datanews.co.kr/site/datanews/Print.asp?aID=20090128155538060>

 

 

보시는 그림이 지금껏 제가 해왔던 이야기의 결론 입니다. 그렇습니다. 평균이 아무리 높아도 그 구성원이 모두가 높은 것이 아닐 수가 있습니다. 극단적인 값들로 인해 극단적으로 중심이 변하게 되는 평균은 '무조건' 집단의 대푯값이 될 수 없습니다. 즉, 중앙값최빈값을 고려해야만 집단의 중심을 알아볼 수 있습니다.


 

이번 고용노동부의 발표에 따른 대부분 네티즌의 댓글처럼 평균이 전하는 표면적인 수치만 보고 결과를 잘못 해석하며 잘못된 판단하는 것이 아니라, 수치 이면의 내용까지 꿰뚫어 볼 줄 아는 멋있는 통통이 독자 여러분이 되길 바랍니다! 아자! 아자! 화이팅! 



 ※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다



신고
트랙백 TRACKBACK :0 개, 댓글 8 개가 달렸습니다.
  • BlogIcon 계란과밥상 2014.04.16 03:38 신고 ADDR EDIT/DEL REPLY

    좋은 자료 잘 봤습니다. 앞으로도 좋은 활동 부탁드려요

  • BlogIcon 삐리빠라뿌 2014.04.16 08:46 신고 ADDR EDIT/DEL REPLY

    좋은 글 감사합니다!

  • BlogIcon 삐리빠라뿌 2014.04.16 08:46 신고 ADDR EDIT/DEL REPLY

    좋은 글 감사합니다!

  • hyera55 2014.04.18 11:48 신고 ADDR EDIT/DEL REPLY

    머리에 쏙속 들어오네요!

  • hyera55 2014.04.18 11:48 신고 ADDR EDIT/DEL REPLY

    머리에 쏙속 들어오네요!

  • 2014.04.18 11:48 ADDR EDIT/DEL REPLY

    비밀댓글입니다

  • BlogIcon 이성화 2015.06.11 17:03 신고 ADDR EDIT/DEL REPLY

    그래서 최빈값을 고려한 월급의 대표값은 어느 정도 입니까? 글을 쓰다 말았네요

  • 통계조사중인고딩 2015.06.14 21:44 신고 ADDR EDIT/DEL REPLY

    이성화님한테 동의.. 님이나 님친구들이나 네티즌들의 예시만 들어서 '대한민국 월급 평균이 상황을 대표하지 못한다'라고 진술하기에는 무리가 있는 것 아닌가요? 600명이 그렇게 많은 숫자도 아니고..


티스토리 툴바