hot topic

통계의 함정, 그 속에서

나오지 않으시겠어요?(뿌잉뿌잉)

 

안녕하세요! 오랜만에 뵙습니다~ 통통이예요!! 추운 겨울, 몸 관리는 잘 하고 계신가요? 오랜만에 뵙는 만큼 옛날이야기 하나를 꺼내볼까 해요.

 

 

선거 때마다 TV를 점령하는 이것! 예측 결과!


대통령 선거나 국회의원 선거를 할 때면 지상파 TV나 케이블 TV 채널 모두 예측결과를 발표하는 것을 볼 수 있을 텐데요. 지금과는 그 방법이 달랐지만, 미국에서는 예부터 선거 결과에 대한 예측을 했었다고 합니다.

20세기 미국에서는 지금은 잘 들어볼 수 없는 이름의 잡지사가 있었습니다. 바로 ‘리터러리 다이제스트’인데요. 미국에서 선거가 이루어 질 때 여론조사에 인한 예측으로 명성을 얻은 후로 미국의 인기 정상 잡지로 자리를 잡게 되었지요. 특히 1920년부터 32년까지 있었던 4차례의 미국 대선 결과를 정확히 예측하면서 그 인기가 더해졌다고 합니다. 그러나 1936년 있었던 대선에서 공화당의 랜던과 민주당의 루즈벨트가 대결한 결과를 정반대로 예측하면서 순식간에 몰락하게 되었습니다. 평소 정확한 예측을 했던 리터러리 다이제스트는 어떤 이유로 빗나간 예측을 하게 되었을까요?

 

( 사진 - 리터러리 다이제스트의 우편 )

1936년 선거가 시작되면서, 리터러리 다이제스트는 전화기 및 자동차 보유자 약 1000만 명을 예측의 표본으로 삼았습니다. 1000만 명에게 발송이 된 우편 중 2백30만장을 돌려받은 후 그 집계 결과로 공화당의 랜던 후보가 57%p, 민주당의 루즈벨트가 43%p를 얻게 되어 랜던이 루트벨트를 압도적으로 누르고 대통령에 당선된다는 예측을 하게 되었죠. 하지만 이러한 예측은 사실과 정반대로 빗나가게 되었습니다. 실제로 선거 후의 결과가 루즈벨트는 61%p의 지지를 얻었고, 랜던이 39%p의 지지를 얻어 민주당이 정권을 잡게 되었습니다.

 

 

여기서 문제! 이 안에서 무슨 문제가 잘못 된 것일까요?

리터러리 다이제스트가 1천만명 이상의 대규모 모집단을 대상으로 조사한 결과가 틀린 이유는 바로, 표본을 고른 표본추출 방법에 있었습니다. 리터러리 다이제스트는 구독자와 함께 전화 가입자, 자동차 보유자 명단을 중심으로 여론조사를 실시했습니다. 그러나 당시 미국상황에서 전화 가입자나 자동차를 소유한 사람들은 경제적으로 부유한 계층이었고, 이들 대부분이 공화당 지지자였습니다. 결국 국민 전체를 대표해야 할 표본을 공화당 지지계층을 중심으로 추출하게 되어 여론조사를 실시하였기 때문에 나온 예측 오류였죠.

이렇게 전문적인 일을 하는 기업이나 기관에서도 통계에 대한 오류와 함정에 빠져 크고 작은 손해를 입게 됩니다. 우리 일반인들도 일상생활에서 느낄 수 있는 수많은 오류와 함정이 있는데요, 간단하게 두 가지정도만 함께 알아보도록 할게요! :)

 

 

퍼센트(%) vs 퍼센트포인트(%p) vs 포인트(p)


퍼센트와 퍼센트포인트 그리고 포인트는 방송이나 신문에서 통계적 개념을 이용하여 각종 수치에 대한 변화를 이야기할 때 자주 등장하는 단위입니다. 이 세 가지 단위를 헷갈리게 사용하여 잘못된 정보를 전달하는 경우가 많다고 하네요.

특히, 많은 사람들이 퍼센트와 퍼센트포인트를 잘못 사용 하는 경우가 많다고 하는데요, 퍼센트는 백분비라고도 하며, 전체의 수량을 100으로 하여, 해당 수량이 그 중 며이 되는가를 가리키는 수로 나타냅니다. 그에 반해 퍼센트포인트는 이러한 퍼센트 간의 차이를 표현한 것입니다. 올 하반기의 핫 이슈라 할 수 있는 수능에서의 외국어영역 문제 오류도 이로 인해 발생한 문제입니다. 이를 예로 둘의 차이를 알아보도록 합시다.

아래의 그림은 2014년도 외국어영역 25번 문제에서 사용된 <2006년과 2012년 미국 청소년의 소셜 미디어 이용실태(Social Media Profiles: What Americans Age 12-17 Post)>에 관한 도표를 나타낸 것입니다.

 

 

5번의지문을 보시면 아시겠지만 수능 출제 당시 ‘핸드폰 번호 공개 비율이 2%에서 20%로 18% 올랐다.’고 해석을 해 놓았는데요. 얼핏 보면 맞는 말 같지만, 통계학적 이론으로 볼 때는 저 표현은 틀린 말입니다. ‘900%의 비율로 올랐다.’, 또는 ‘18%p가 올랐다.’ 라는 표현이 맞는 말 이지요.

참고로, 경기종합지수에서 동행지수 순환 변동치나 종합주가지수의 변동을 나타낼 때는 다음과 같이 ‘포인트’란 용어를 사용합니다. 예를 들어 ‘2014년 1월 1일 오후 2시의 코스피 지수는 전일 대비 3.7포인트 오른 1890.67 이다.’처럼 쓰이게 되는 것 이죠.

 

 

평균 vs 중앙값


한 자료 전체의 중심적인 경향이나 특징을 대표적인 하나의 수로 나타낸 값을 ‘대푯값’이라고 부릅니다. 그 중 가장 일반적인 대푯값은 모두들 잘 아시는 ‘평균’이라는 대푯값입니다. 산술적인 '평균'은 ‘자료의 합’을 ‘자료의 개수’로 나눠 계산합니다. 한편, ‘중앙값’은 절반 이상의 숫자들이 이 값보다 크거나 같고, 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수로 정의됩니다. 좀 더 쉽게 이해하기 위해서 평균과 중앙값을 사용한 예시를 한번 살펴볼까요?

아래 그림은 A반과 B반의 평균과 중앙값을 비교해 놓은 그래프입니다. A반의 평균과 B반의 평균은 같은 것을 알 수 있지만 한 눈에 보아도 그 분포가 두 반이 다른 것을 알 수 있으시겠죠?

평균은 모든 자료에 있어서 중요한 정보지만 자료가 퍼진 정도를 반영하지는 못합니다. 때문에 중앙값이라는 개념이 중요한 개념이 되었죠. A반의 중앙값은 2등을 한 1번의 4점과 3등을 한 2번의 평균을 구한 값이며, B반의 중앙값은 모든 학생들의 점수가 같기 때문에 중앙값이 평균과 같습니다. 위의 예시처럼 평균이라는 수치가 자료를 왜곡되게 보일 수 있게 한다는 사실을 알 수 있어요.

통계의 오류! 잘 알고 사용하여야겠죠?

 

 

통계의 함정 빠지지 말고 피하세요!


어쩌면 통계는 지금까지 설명한 것보다 훨씬 다양하고 복잡한 방식으로 우리들의 생각에 영향을 끼치고 있을 지도 모릅니다. 저 통통이가 학교에서 통계학 시간에 처음으로 배운 수업 중 가장 기억에 남는 말이 있습니다. 바로 ‘통계학은 오류를 인정하는 단 하나의 학문’이라는 것입니다. 통계학에서는 오차라는 것이 존재하는데요, 이렇게 오차와 오류를 존재하는 학문임을 알고서도 함정에 빠져서는 안 되겠죠?

독자 여러분도 통통이와 함께 통계적 시각을 길러보도록 해요!


 


※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다.

신고
트랙백 TRACKBACK :0 개, 댓글 2 개가 달렸습니다.
  • BlogIcon Yume 2015.02.02 15:46 신고 ADDR EDIT/DEL REPLY

    안녕하세요, 통통이님 (__)o 작성하신 기사를 읽다가 궁금해서 덧글을 답니다.
    ● < 퍼센트(%) vs 퍼센트포인트(%p) vs 포인트(p) >에서
    수능문제쪽에 설명중에
    '900%의 비율로 올랐다.'라고 하면, 18%가 되는 것 아닌가요?
    '900%의 비율만큼 추가적으로 상승했다.'면 2%에 900%의 비율만큼 상승한 수치를 더하겠지만...
    비율로 상승하면거면 그냥 18%가 되는 것 같아서요.

    아니면 '1000%의 비율로 올랐다.'고해서 20%를 나타내야 되지 않나요?

  • BlogIcon Yume 2015.02.02 15:51 신고 ADDR EDIT/DEL REPLY

    포스팅 읽으면서 통계에 대해 많이 배워갑니다. (_ _)o
    통계를 하면서는 항상 오차와 오류를 생각하여 작성을 해야겠군요!!!

    감사합니다~☆


 얼마 전 총선에 앞서 SNS를 통한 선거운동이 합법화 되면서 SNS에서 여러가지 이슈가 생겨나고 있습니다. 트위터 글 중에서 누가 19대 국회의원으로 적합한지 예비 후보로 나온 두사람에 대해서 여론 조사를 하는 일이 있었죠. 하지만 투표 후 조사 결과는 뜨지만 조사기관과 신뢰도에 대한 설명은 전혀 나와 있지 않았어요. 이렇게 SNS를 통한 여론 또한 총선의 중요한 부분이 되고 이제는 SNS여론을 분석하는 곳도 생겨나게 되었습니다. 

사용자 삽입 이미지


 
SNS로 여론조사도 한다? 

"기존의 여론조사를 하려면 설문 조사 대행 기관에 맡기고 그에 지불 해야 했던 비용이 막대 했지만 이제는 SNS를 통해서 인력과 투자비용을 낮게 할 수 있다. 또한 트위터는 방대한 회원 수와 빠른 확산성으로 효과를 극대화 시켰다."
-소셜 네트워크 서비스의 활용방안 연구,2010,육지애


 

위와 같이 SNS를 통해서 여론 조사가 현재 이루어 지고 있습니다. 이렇게 SNS를 이용하면 개인의 커뮤니케이션이 자유로워집니다. 비용도 절감되고, 정보공유도 실시간으로 가능해요. 그렇다면 이런 SNS여론조사는 과언 어디에서 하는 것일까요?
 
 

SNS 여론 조사 기관에는 어떤 것이 있을까?

SNS 여론 조사기관은 일부는 블로그의 내용을 분석하기도 하지만 대부분은 트위터의 데이터를 분석합니다. 이런 SNS를 분석하는 기관은 아래와 같이 몇 가지가 있어요.
 [##_http://hinso.kr/owner/entry/1C%7Ccfile9.uf@2659153F514C44510FE480.jpg%7Cwidth=%22450%22%20height=%22947%22%20alt=%22%EC%82%AC%EC%9A%A9%EC%9E%90%20%EC%82%BD%EC%9E%85%20%EC%9D%B4%EB%AF%B8%EC%A7%80%22%7C_##]
▲순서대로 4.11 총선 SNS 민심(▶바로가기), 소셜메트릭스(▶바로가기), 트윗트렌드(▶바로가기)

 

SNS여론을 분석 하는 각 사이트의 특징은 실시간으로 특정 키워드를 분석 해주고 있다는 것입니다. SNS의 특징인 빠른 전파력을 가지고 실시간으로 현재 여론을 분석 할 수 있죠. 특히 동아일보에서 운영하는 <총선SNS 민심>은 지역별로 어떤 여론이 조성되고 있는지를 실시간으로 알려주는 서비스도 있답니다~



SNS여론조사, 믿을만 한가?
 
기존에 SNS를 통한 여론조사는 적용 대상이 카페나 웹사이트 등 특정 커뮤니티의 제한적인 사람들을 대상으로 조사를 했습니다. 그래서 여론 조사기관을 이용하는 여론 조사와는 표본수가 차이가 났죠. 게다가 여론조사 대상자가 트위터 이용자로 한정되어 조사 자체가 특정 성향을 띌 수 있다는 점이 문제가 될 수 있죠. 하지만 SNS를 이용한 여론 조사는 단순한 여론 조사로 끝나지 않고 사용자들의 상세한 반응도 함께 끌어낼 수 있다는 것이 장점입니다. 실제로 트위터 사용자 중 한명인 @do**는 '차기 대통령으로 당신은 누구를 선택하시겠습니까?'라는 설문으로 트윗폴에서 1,043명의 호응을 이끌어 내기도 했어요.  

 
사용자 삽입 이미지

▲트위터 설문조사 제공 사이트 트윗폴(▶바로가기)



SNS는 잘못된 정보도 빠르게 확산이 된다는 것이 문제죠. 소셜 서비스의 양면성이라고 볼 수 있는데 변형된 정보에 대한 책임의 주체는 없고 변형된 정보에 대한 피해만 남게 되는거죠. 얼마 전 있었던 채선당 사건이나 국물녀 사건 같이 특정 상황으로 변형된 정보도 SNS 이용자 사이에서 무비판적으로 수용 되고 있기 때문입니다. 이런 부정적인 측면을 극복하기 위해서는 체계적인 통제 수단이 필요하겠습니다. 물론 과도하게 통제가 되는 것이 아니라 SNS가 안좋은 방향으로 흘러가지 않도록 일정한 기준이 필요한거죠. 그리고 소수의 의견에도 귀를 귀울이고 열린 사고를 가진 이용자가 많아져 진정한 소통의 창구인 소셜 네트워크 서비스가 되어야 되었으면 하는 바람입니다.



사용자 삽입 이미지

※본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다.
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

티스토리 툴바