hot topic

[통계청 기자단] 숫자로 들여다보는 세상의 놀라운 이치 <짜통계학>


 안녕하세요? 여러분에게 통계학에 관한 책 한 권을 소개해드릴까 하는데요. 바로 김진호 저자의 <괴짜 통계학>이라는 책인데요. 이 책을 저술한 김진호 교수께서는 국방대학원 경영학과 교수로, 통계학에 관한 여러 가지 책을 출판하셨습니다. 



 이 책을 보니 <괴짜 경제학>이라는 책이 생각나는 분들이 있으실 겁니다. 경제학을 공부하는 학생이라면 한 번쯤은 읽어봤을 법한 <괴짜 경제학>은 어려운 경제학을 실생활에 적용하여 재미있게 설명함으로써 경제학 초보자들도 보기 쉽게 만든 책인데요. 위의 <괴짜 통계학> 역시 그와 비슷하게 통계학을 잘 모르는 사람이라도 쉽게 읽을 수 있습니다.


 이 책은 총 5장의 챕터로 이루어져 있으며, 숫자에 대한 무지 때문에 기본적인 통계학 원리를 악용하는 것에 속는 것을 경계하라는 내용을 담고 있습니다. 간단한 예로, 우리가 마트에서 물건을 살 때, 50%를 할인한 데에서 20%를 더 할인해준다고 하면 총 70%가 할인되었다고 생각하는데, 이는 단순한 숫자 덧셈으로 나온 결과이지만 사실은 원래 금액에서의 70%가 아니라 그에 훨씬 못 미치는 정도가 할인된 것을 알려주고 있습니다. 


 이 책에서는 숫자를 제대로 이해하는 것이 통계학을 이해하는 것의 첫걸음이 된다고 설명하고 있습니다. 숫자에 대한 무지 때문에 일어나는 많은 현상들을 설명하면서, 그것들에 속지 않기 위해서는 숫자를 제대로 알아두는 것이 중요하다고 저자는 말하고 있습니다. 

 이 책에서 다루는 흔한 통계학의 숫자 장난에 대해서 몇 개 예시를 들어보겠습니다.


 흔히 말하는 평균, 3가지나 있었어?

 흔히 우리가 평균이라고 말할 때 우리는 그 수치를 그대로 받아들여 이해합니다. 흔히 우리가 이해하는 평균은 수학적으로 산술평균이라고 하여, 모든 자료의 값을 다 더해 전체 수로 나눈 것입니다.


 1 1 2 3 1 3 4

위의 숫자의 산술평균은 위의 숫자를 모두 더해(15) 전체 수(7)로 나눈 평균 2.1입니다.


 하지만 우리가 주변에서 접할 수 있는 평균에는 산술평균만 있는 것이 아닙니다. 우리가 사용하는 평균에는 ‘중앙값’이라는 것도 존재합니다. 중앙값은 숫자들을 작은 수부터 큰 수 순서로 세워놨을 때, 중앙에 위치하는 값을 의미합니다. 중앙값을 이용하면, 다음과 같은 자료의 평균을 더 정확하게 측정할 수 있습니다.


 1 1 2 3 1 3 17

 위의 값의 산술평균은 17이라는 숫자 때문에 평균과는 약간 거리가 멀어 보이는 큰 숫자가 나오게 됩니다. 하지만 중앙값을 이용하면 숫자의 평균값을 효과적으로 대표할 수 있습니다.

 

 마지막으로 최빈수라는 평균이 있는데, 주어진 자료 중 가장 빈번하게 나온 숫자를 평균으로 택하는 것을 뜻합니다. 위에 숫자배열에서 보자면, 1이 가장 자주 등장하므로 최빈수는 1이겠죠.


 이렇게 평균의 개념이 3개로 나뉘기 때문에, 여기저기에서 어떤 데이터의 평균을 제시할 때 저 세 가지 중 본인에게 유리한 것을 선택해서 제시합니다. 그러므로 평균을 제시하는 데이터가 보일 때는 그냥 단순하게 받아들이지 말고, 저 세 개 중 어떤 평균의 계산법을 취하고 있는지 확인하여 어이없게 속는 경우를 방지해야 합니다.


 단순한 숫자 제시에만 속지 말고, 기준을 확실하게!

 사람들은 숫자에 약하므로, 숫자가 등장하면 무조건 맹신하는 경우가 많습니다. 이 책에서도 그러한 경우를 많이 제시하면서, 그러한 상황을 경계하라고 말하고 있습니다. 

 어느 한 연구 발표에서 가정 폭력에 대한 충격적인 결과를 보고한 적이 있습니다. 여자만 가정 폭력에 시달리는 것이 아니라, 남편들 중에도 무려 15%가 아내의 폭력에 시달린다는 것이었습니다. 하지만, 그 통계를 자세하게 들여다보면 아래와 같습니다.

 

남편의 폭력 경험

손,발, 몽둥이 사용:45.3%

닥치는 대로 때림:9.1%

칼 등의 흉기 사용:4.7%


아내의 폭력 경험

남편을 밀친다: 11.3%

물건을 던진다:7.0%

뺨을 때린다:2.6%

발이나 주먹 사용: 1.4%


 위에서 보면 남편이 아내에게 폭력을 행사한 것과 아내가 남편에게 행사한 것의 기준이 크게 다름을 알 수 있습니다. 위와 같은 기준을 살펴보지 않고 숫자에만 집착하면, 남편도 아내에게 15%나 폭력을 당한다고 한다는 발표에 속을 수 밖에 없고, 안 좋은 이해관계에 이용될 수도 있습니다.


 이 책은 이러한 것 외에도 수많은 통계적 데이터 들의 오류에 대해서 다루고 있습니다. 

 이 책이 이러한 수많은 오류들에 대해서 자세하고, 쉽고 재미있게 다루고 있다는 점은 굉장한 장점입니다. 덕분에 통계를 전혀 모르는 사람도 이 책을 쉽게 읽을 수 있다는 점에서 말입니다. 하지만, 한 가지 아쉬운 점은 5장이나 되는 방대한 내용 안에 알맹이는 아주 조금에 불과하다는 것입니다. 뒤로 갈수록 앞에 했던 내용이 똑같이 반복되거나, 심지어는 문장과 문단까지 똑같이 반복되는 경우가 있는데, 그렇기 때문에 핵심적인 책의 내용이 장수에 비해 현저하게 줄어들어 아쉬움이 남지 않았나 싶습니다.


어렵게 수식만 제시하는 복잡한 통계학 책을 멀리하고 싶다면, 통계학에 대해서 한 개도 모르는데 조금이라도 접해보고 싶다면, 더 이상 숫자놀음에 속는 것을 그만두고 싶다면, 이 <괴짜 통계학> 책을 읽어보는 것은 어떨지요! 



※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다

저작자 표시
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

[통계청 기자단] 통계 속의 재미있는 세상이야기




구정화, 김찬호. 안병근. 이기원 저

 통계학적 문제해결 과정이란 input을 투입한 뒤 그 input이 프로세스를 거치면서 제어 가능한 변수들과 수많은 잡음의 영향을 받아 아웃풋으로 결과가 나오는 일련의 과정이다. 통계적 분석을 통해서 제어 가능한 변수를 예측 가능하도록 만들 수 있다면 변동(데이터)으로 야기된 많은 문제들을 해결할 수 있을 것이다.

'통계 속의 재미있는 세상이야기' 이 책에서는 이런 과정을 통해서 사회에서 일어나고 있는 다양한 일들을 원인을 찾아내고 과정을 분석하고 결과를 예측하는 내용을 담고 있다. 시사, 경제 도서라고 해도 무색할 만큼 경제적 내용이나 시사적 내용이 주제로 이루어져 있으며, 그 근본에는 통계를 사용하여 이야기를 풀어내고 있었다.


 

책은 총4부로 이루어져있는데 모두 줄글로 이야기를 하는 것이 아니라 만화 형식으로 이야기를 하는 부분도 많이 포함이 되어있었고, 그래프도 딱딱한 막대그래프들만 있는 것이 아니라 지루하지 않고 재미있게 책을 읽을 수 있었다. 


 "말발굽에 채어 죽은 군인은 얼마나 될까?"라는 에피소드에서는 평균값과 중앙값들이 어떤 상황에서 활용되어야 그 자료를 대표 할 수 있는지에 대해 이야기하고 있었다. 자료들 간의 퍼짐의 정도가 너무 크면 평균값이 의미가 없어지고 그 대신 중앙값을 이용하는 것이 전체자료를 대표하는데 더 효율적인 방법이라는 것을 알 수 있었다.


"우리의 취업 현장을 보니.." 에피소드에서는 근로 실제상황을 경제활동인구와 실업률을 통한 그래프로 보여주고 있었고, 종사상 지위별 취업자 구성비 변화와 학력별 임금 수준 등을 통계청에서 발췌한 통계적 자료를 바탕으로 이해하기 쉽게 삽화를 포함한 그래프로 설명해주고 있었다.


통계속의 재미있는 세상이야기 112P , 114P 발췌


"우리 반에 생일이 같은 아이가 있어요" 라는 에피소드에서는 한 반에 생일이 같은 아이가 있을 확률을 계산하는 방법과 그 반대의 확률을 계산하는 방법을 설명하고 있었다. 있다/없다 와 같은 이분법적인 확률의 계산 같은 경우 반대의 확률을 계산 할 때는 1에서 이전에 계산한 확률을 빼면 반대의 확률이 나오게 된다. 모든 확률의 합은 1이 되기 때문이다.


"나의 진짜 몸무게는?"라는 에피소드에서는 목욕탕에서 체중계를 이용해 몸무게를 재면서 측정오차와 표준편차, 평균값에 대해 설명해주었다. 같은 사람이지만 체중계에 올라갈 때마다 조금씩 체중 값이 변하게 되는데 이는 몸무게가 변한 것이 아니라 몸무게를 측정하는 기계에서 오차가 발생했기 때문이다. 이 같은 오차들을 고려한 대표 값을 구하기 위해서는 평균값이 필요하다. 평균값으로부터의 분포를 알아보기 위해서는 측정값과 평균값의 차이를 제곱한 분산을 계산해야 한다. 이와 같은 평균값과 분산 값은 회사 등에서 조사를 실행할 때 정확도의 척도가 되기 때문에 매우 중요한 개념이라고 설명하고 있다. 수식과 지루한 설명이 아닌 목욕탕에서 아버지와 아들의 자연스러운 대화로 통계에서 가장 핵심적인 개념인 평균과 분산에 대해서 알기 쉽게 설명해주고 있었다.

 

 통계학과에서 공부를 하고 있는 나는 교수님들께 항상 통계학적 Process를 따라 생각하고 모든 일을 해결하는 습관을 갖으라는 말을 가장 많이 들어왔다. 이 책은 원인을 통해 결과를 분석해서 예측가능한 생각의 과정, 즉 통계학적 Process를 정립하고 싶은 사람에게 큰 도움이 될 수 있는 책인 것같다. 뿐만 아니라, 사회의 이슈나 경제문제도 더 재미있게 이해할 수 있기 때문에 이 책 한권을 통해서 생각의 과정도 정립하고 시사상식까지 확립하는 두 마리 토끼를 모두 잡을 수 있을 것이다.



※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다

저작자 표시
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

[통계청 기자단] 숫자 속 의미를 찾아라 : 빅데이터를 지배하는 통계의 힘



출처 : http://www.sketchpan.com


 점심 식사를 한 후 입가심이 필요할 때 아이스크림이나 커피를 마시길 바라는 A군과 A군의 친구들. 늘 그렇듯 공평한(?) 게임인 사다리 타기를 통해 한 사람이 디저트를 쏘는 내기를 합니다. 경제학과인 A군은 늘 꼭 먼저 선택을 합니다. 6번 혹은 1번. 다른 친구들은 공평한(?) 게임이니 아무 번호나 상관없이 선택을 합니다. 열 번을 디저트 내기를 하면서 한 번도 안 걸린 A군을 의아하게 여긴 친구들은 ‘Lucky Guy’라는 별명을 붙여주었는데요. 사실 A군은 통계학 수업을 들으면서 배운 사다리타기의 번호별 당첨 확률을 알고 당첨확률이 낮은 각 번호의 끝자리를 택했던 것 이었고 늘 디저트를 살 수 있는 영광(?)의 기회를 친구들에게 돌렸던 것이었죠.


 위의 예처럼 통계학은 실생활에서도 활용될 수 있으며 실생활 뿐 아니라 학문적인 분야에서도 통계학은 다양하게 활용할 수 있습니다. 하지만, 대부분의 사람들은 통계학은 어려운 학문, 수학적인 센스가 있어야 접근할 수 있는 학문이라 생각해 통계학적으로 문제가 있는 부분을 알아차리지 못하고 그냥 받아들일 때가 많습니다. 공평하다고 생각했던 게임이 사실 통계학적으로는 공평하지 못한 게임으로 판명되기도 하며 전문가가 제시한 통계해석이 알고 보면 엉터리일 때도 있습니다. 



 이처럼 통계학을 어렵게 생각하는 사람들에게 통계의 중요성을 강조하고 통계학 전반을 이해하는 데 도움을 주기 위해 많은 책들이 발간되는데요. 그 중에서도 최근 ‘빅데이터’라는 용어가 화두가 되면서 데이터의 의미를 읽어내는 중요성이 필요하다고 생각해 <빅데이터를 지배하는 통계의 힘>을 읽어보았습니다. 구글 수석 경제학자인 할 배리언은 “I keep saying the sexy job in the next ten years will be statisticians”이라고 말할 정도로 통계학의 중요성을 강조하였는데요. 빅데이터 시대를 맞이하는 우리에게 있어 이 책은 어떤 내용을 담고 있는지 한번 알아볼까요?


 1. 데이터가 넘쳐나는 시대를 살아가는 방법론 제시

 ‘정보의 홍수’라는 말을 한 번쯤은 들어본 적이 있을 겁니다. 정보혁명이라는 신조어가 생겨날 만큼 인터넷이 발달하면서 다양한 정보가 생겨나고 있는데요. 홍수처럼 쏟아지는 무수히 많은 정보를 예전에는 감당하기 벅차 유익한 정보만 취합하자는 시각이 일반적이었습니다. 하지만 이제는 무수히 많은 데이터를 가려내지 않고 모두 저장해 다양한 산업에서 데이터를 활용하고 있습니다. 바로 빅데이터의 시대가 도래 한 것이지요.


출처 : http://zton.livejournal.com


 세계에서 가장 많은 데이터를 확보하고 있다는 구글 데이터 센터를 따로 건립할 정도로 데이터를 모으고 있습니다. 의미 있는 데이터만 모으는 것이 낫지 않을까라는 시선에 아랑곳하지 않고 수많은 데이터를 모아 알고리즘을 형성해 검색엔진 1위를 차지하였고 아직은 완성도가 떨어지지만 전 세계 각국의 언어 데이터를 모아 세계에서 가장 정확도가 높은 구글 번역을 제공하고 있습니다. 최근에는 음성 데이터를 모아 음성 번역까지 확장한다고 하니 데이터가 얼마나 중요시 여기는지 알 수 있습니다.


 하지만, 개개인들에게 있어 무작위한 데이터의 나열은 의미가 없습니다. 데이터 간의 의미를 파악하고 올바른 정보를 정확하게 파악하는 분별력이 중요합니다. 이러한 점에서 이 책은 빅데이터 시대에 실제로 응용 가능한 방법을 제시하고 통계의 중요성을 일깨워 줍니다. 실 사례를 토대로 일반적으로 통계를 잘못 해석하는 것과 올바르게 해석하는 것을 비교 설명해 일반인이 쉽게 이해할 수 있도록 설명하고 있는데요. 특히, 이 책이 제시하는 통계학적 방법론은 데이터의 의미를 파악하고 올바른 통계와 그렇지 못한 통계를 분별할 수 있는 방법을 제시합니다. 과학적이고 객관적인 통계를 통해 주관적이고 편향적인 의사를 지양하도록 돕는 것이죠.


 2. 통계학의 여러 가지 구체적인 기법 제시

 사실 경제학을 전공하면서 기초적인 통계학을 배웠지만 책을 읽어나가는 중간 중간에 쉽게 이해가 되지 않는 부분도 있었습니다. 통계학을 배우지 않은 일반인들에게는 더욱 생소할 수 있을 수도 있는데요. 각각의 단어의 의미를 따로 용어정리를 통해 알려주고 있지만 생각을 해보면서 읽어야할 부분도 있습니다. 왜냐하면 쉽고 단순한 통계방법만 알려주는 것이 아닌 통계학의 여러 가지 구체적인 기법에 대해서 다루고 있기 때문입니다. 다양한 통계 기법을 통해 통계를 더 포괄적으로 이해시키고자 하는 저자의 의도가 느껴지지만 다소 어렵게 느껴지는 건 사실입니다. 하지만, 학문적으로 다 이해하려고 하기 보다는 직관적인 의미로만 이해하면서 서서히 익혀나가신다면 다양한 통계기법을 통해 데이터를 해석할 수 있는 능력을 서서히 체득 할 수 있을 겁니다. 


 인터넷 검색은 누구나 할 수 있는 시대입니다. 일반적인 자료라면 문제가 되지 않겠지만, 다양한 숫자가 나타나 있는 그래프와 표로 나타난 자료는 자료에 대한 올바른 해석을 필요로 합니다. 단순한 자료 해석보다 숫자가 함의하고 있는 것을 올바르게 파악할 때 정보의 홍수 속에서 올바른 정보가 그렇지 못한 정보를 분별할 수 있는데요. <빅데이터를 지배하는 통계의 힘>은 바로 그러한 분별력을 키워주는 책이라고 할 수 있습니다. 운동경기를 이해하기 위해선 운동 경기의 룰에 대한 전반적인 지식을 갖추고 있어야 하듯이 데이터가 범람하는 시대에선 데이터를 올바르게 해석할 수 있는 통계를 이해하고 있어야 한다고 할 수 있습니다. 빅데이터 시대, 최강의 무기 통계학으로 무장할 준비 되셨나요?



※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다

저작자 표시
신고
트랙백 TRACKBACK :1 개, 댓글 COMMENT :0 개가 달렸습니다.

티스토리 툴바