hot topic

 

두 남녀가 소개팅에서 만났다어색함 반 기대감 반으로 두 사람은 소개팅에 집중 할 것이다소소한 이야기부터 진지한 연애관까지 두 남녀는 이야기를 나눌 것이다이야기를 통해 이 사람은 어떤 생각을 가진 사람인지 궁금해 한다몇 번에 만남을 통해 서로는 자신에게 호감이 있는지 알고 싶어한다하지만 직접적으로 이야기 하는 사람은 많이 없다이런 궁금증은 어떻게 해결할까바로 그 사람이 말하는 말과 행동분위기를 통해서 은근하게 알아간다.


우리가 소위 마케팅이라고 부르는 것도 다르지 않다. 기업은 설레는 마음으로 소비자들을 만나서 그들이 누군지 궁금해 하고, 그들의 마음을 사고 싶어하고, 어떤 것을 원하는지 궁금해 한다. 이런 것을 어떻게 알아낼 수 있을까? 과거에는 경영자로 대표되는 결정권자가 경험에 의해서 판단했다. '아 내가 예전해 해본 사업인데, 이렇게 하면 돼' , '아 그거 다 내가 해봤어.' 식의 의사결정을 했다. 그래서 개인의 능력에 따라 사업의 성패가 갈렸다. 하지만 최근, 좀 더 과학적인 방법으로 소비자들의 마음을 알아 볼 수 있는 방법이 생겼다. 이것이 바로 소셜미디어를 통한 빅데이터 분석이다.

소셜미디어에는 엄청난 양의 정보들이 쏟아져 나오고 있다. 하루에 2억 건이 넘는 트윗들이 세상을 오고간다. 하루에 구글에 검색되는 횟수는 15억 건에 달한다. 엄청난 양의 다양한 모양으로 된 정보가 순식간에 만들어진다. 이런 소셜미디어는 전체를 보여주고 진짜의 날 것의 정보라는 점, 그것도 실시간으로 이뤄진다는 점에서 매우 트렌드를 읽기에 좋은 정보라고 한다. 바로 여기서 이 흐름을 통계적 방법으로 찾을 수 있는 것이다. 거기서 그치지 않고 미래를 예측하는 일. 저자는 그것을 대중들의 마음과 욕망이라는 '원석'을 넓은 광산과도 같은 소셜미디어 속 수많은 데이터에서 캐내는 광부(mining)에 비유한다. 소셜미디어 속 정보는 통찰력을 통해 해석하고, 반짝이는 다이아몬드가 될 수 있는 정보를 캐낸다. 

주류시장에는 데이터를 활용한 재밌는 사례가 있다. 소설미디어 분석을 해보면 술 종류에 따라 연상되는 감정이 각기 다른데, 이를 마케팅에 활용하는 것이다. 예를 들어, 사람들은 소주를 생각하면 '추운', '슬픈이미지가, 맥주는 '더운', '즐거운감정이 들 때 마시는 술로 인식하는 반면, 막걸리는 '몸에 좋은', '아픈' 이미지를 떠올린다고 한다. 2009년, 한 막걸리 기업이 빅데이터 분석 결과를 믿고 막걸리 시장에 뛰어든 뒤, 막걸리 호황을 맞아 인기 있는 브랜드로 자리잡았다2009년 이전, 막걸리에 대해 '농업인이나 노인이 마시는 술, 20대 여성들은 좋아하지 않는 술'이라는 인식이 자리잡고 있었는데, 이 기업은 빅데이터 분석을 통해 2008년부터 막걸리에 대한 블로그 포스팅 등 언급 수가 꾸준히 증가하고 있는 것을 발견했다. 이를 통해 막걸리가 떠오르는 트렌드가 될 것임을 미리 알 수 있었고, 막걸리 시장에 뛰어든 것이다. 데이터를 통해 소비자를 파악하고, 분석 결과를 마케팅에 활용하는데 성공한 것이다.


이처럼 어떤 새로운 시장을 만들어질지, 위험을 예측하고, 문제의 방향을 알려줄 무언가가 필요할 것이다. 가까운 미래에 사람들이 어떤 것을 욕망할지, 소비하는지, 어떤 문화를 향유하는지 우리는 궁금하다. 그러면 우리는 어디서 미래에 대한 답을 찾아야 할까? 저자는 말한다. 미래는 이미 현재에 존재한다.’

     

※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식 입장과 관계가 없습니다.


저작자 표시 비영리 변경 금지
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

'오늘은 좀 쌀쌀했는데 내일도 추울까?'

'내가 응원하는 야구 팀이 오늘 이길까?' 

'이번 학기에 듣게될 강의는 재미있을까?' 

'지금 나가면 지하철에서 앉아서 갈 수 있을까?'


누구나 앞으로 다가올 일들에 대해 생각을 하게 됩니다. 통통 기자에게는 앉아서 가는 통학 길, 오늘의 날씨,  새 학기에 신청할 수업에 대해 적절한 예측을 하는 것은 매우 중요한(!) 문제이지만, 이러한 예측을 하는 데에 깊은 고민을 쏟지는 않습니다. 하지만 경제, 선거, 기상, 테러 등 국가적으로 보다 중요한 문제들의 경우엔 최고 수준의 전문가들이 오랜 기간의 연구 끝에 예측을 하게됩니다. 하지만 아쉬운 점은 그들도 항상 예측에 성공하지는 않는다는 거지요. 가끔 언론을 보면 계속 정확한 예측을 해나가며 유명세를 타는 이들도 있는데 정확한 예측을 하기 위해서 필요한 자질은 무엇일까요?


메이저리그의 선수 성적, 카지노와 포커의 도박판, 美 총선과 대선의 정치판을 넘나들며 일관되게 뛰어난 예측력을 보여주고 있는 '네이트 실버'는 전 세계에서 손꼽히는 데이터 분석가입니다. 그는 『신호와 소음』 에서 경제, 정치, 美 메이저리그, 날씨예보, 지진, 포커, 주식, 테러 등에 이르기까지 그는 다양한 소재와 사례를 통해 그는 많은 데이터와 통계 속에서 무의미한 '소음'의 함정에 빠지지 않고 중요한 '신호'를 포착하는 방법에 대해 소개합니다.

《뉴욕 타임즈》 선정 '전 세계에서 영향력 있는 100인' 네이트 실버와 그의 저서 『신호와 소음』

하지만, 그가 전하는 메시지는 "새로운 정보가 나타날 때마다 기존의 예측을 수정해나가라"는 것입니다. 통계학의 큰 기둥인 '베이즈 정리'를 이용해 저자는 시행착오를 반복하며 예측의 오차를 줄여나가는 것이 무엇보다 중요하다고 말합니다. 그는 이것에 관해 예측가들을 '여우'와 '고슴도치'로 나누어 설명합니다.


『신호와 소음』 中, 그림 출처 : freepik


고슴도치형 예측가 결론을 정해놓은채, 새로운 정보들을 활용해 자신의 결론을 강화시킵니다. 그는 핵심적인 이론과 원리에 주목하고, 그것을 추적하는 데에 모든 관심을 쏟습니다. 그리고 자신의 모델이 이러한 원리를 반영하고 있기 때문에 혹시 틀리더라도 예외적인 상황이거나 운이 좋지 않았다고 생각합니다.  

반면, 여우형 예측가 새로운 정보를 활용해 자신의 결론을 계속 수정하고 문제가 생기면 그것을 폐기합니다. 현실은 매우 복잡하고 예측하기 어렵기 때문에 일반 원리를 추론하는 것이 어렵다고 생각하고, 관찰을 통해 다음 장면을 예측하고자 합니다. 또한 확률과 단서를 통해 조심스러운 예측을 자주하고, 설혹 자신의 예측이 틀리더라도 그 과정의 실수와 비판에 대해 겸허하게 받아들입니다. 

네이트 실버는 보다 단정적이고 간결한 예측이 더 쉽게 다가오기 때문에 '고슴도치'들의 예측에 귀를 기울이기 쉽다고 이야기합니다. 하지만 그들의 이야기는 예측이라기보다는 '자신의 생각'을 포장해 놓은 것과 다를 바가 없고 '소음'에 불과합니다. 저자는 훌륭한 예측자가 되기 위해서 보다 겸손하게 정보들을 수집하고 조심스럽게 예측해야 된다고 말합니다. 또한 '여우형 예측가'들의 이야기에 귀를 기울여야 한다고 이야기합니다.

어느 때보다 많은 정보와 자료에 노출되어 있고, 예측의 중요성을 절감하는 요즈음입니다. 빅데이터, 통계학, 미래 예측에 관심이 있으시다면 이 책에 소개된 다양한 사례들을 접하며 '베이즈주의적 추론'에 도전해보시는 걸 추천합니다! (네이트 실버는 최근 美 대선에 대해 힐러리 클린턴 전 국무장관의 우세를 예측했다고 하는데요. 이 예측이 얼마나 정확한지도 지켜보면 재미있을 듯 합니다.)

                              

     

※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식 입장과 관계가 없습니다.

저작자 표시 비영리 변경 금지
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

대학생이 되어 자취를 준비하기 위해 마트에 들어선 여러분은 통계에 둘러싸이기 시작한다. 99.9%의 살균효과가 있다는 세제들과 78%의 구취를 제거해준다는 치약 그리고 뛰어난 영양보충 기능으로 많은 주부들의 선택을 받고 있다는 식품들까지! 마침 어머니의 잔소리에 버금가는 현명한 조언이 필요했던 여러분에게 통계는 누구보다 진실한 조력자가 아닐 수 없다. 하지만 이런 통계들이 모두 진실만을 말하고 있다고 생각하면 큰 오산이다. 

사실 논리와 신뢰로 똘똘 뭉친 통계에 의문을 제기하기란 쉽지 않은 일이다. 게다가 소수점과 저명한 기관의 출처까지 더해진다면 그 엄청난 설득력에 우리는 고개를 수차례 끄덕일지도 모른다. 하지만 이 책은 통계가 거짓말이라며, 그것도 ‘새빨간 거짓말’이라며 일침을 가하고 있다. 그뿐만 아니라 통계로 사람을 속일 수 있는 방법까지 일러주겠다는 대담함까지 보인다. 백번 양보해서 저자의 말이 사실이라면 통계는 왜 우리를 속이고 있던 걸까?


저자는 그 이유가 ‘이익 추구’에 있다고 지적한다. 통계로 저마다의 이익을 추구하기 위해 과정 혹은 결과를 조금씩 조작하기 때문이다. 그들의 필요에 따라 평범한 그래프를 매력적으로 편집하는가 하면 ‘평균’의 의미가 궁색하게 세 가지 계산 방법을 통해 세 개의 평균을 도출해내기도 한다. 만약 그렇지 않더라도 통계를 둘러싼 수많은 환경적 요인들은 다시 수많은 왜곡을 만들어낸다. 그렇기 때문에 여론조사는 그 요인들과의 끊임없는 싸움이라고 저자는 이야기한다.

이쯤 되면 우리가 알고 있던 정보들에 대해 의구심이 들기 시작한다. 
통계는 우리를 어떻게 속이고 있던 걸까? 책에서는 우리가 일상 속에서 흔히 보아왔지만 쉽게 놓쳐버렸던 통계의 허점을 날카롭게 지적한다. 예를 들어 우리의 정보습득에 커다란 영향을 미치고 있는 그림도표를 제시할 수 있다. 쉽고 재미있는 그림도표를 통해서 우리는 어려운 정보도 보다 수월하게 이해할 수 있지만, 이 그림도표의 허점은 ‘허풍’에 있다. 만약 어떤 제품을 사용하지 않은 사람보다 사용한 사람이 2배 많다면, 그림 도표에서는 4배까지도 이들의 차이를 부풀릴 수 있기 때문이다. 자세히 살펴보면 2배 커진 키뿐만 아니라 옆으로 불어난 몸집과 그에 상응하는 그림자가 어느새 다윗과 골리앗을 그려내고 있기 때문이다. 이 밖에도 책에서는 아주 미묘하고 치밀한 방법으로 우리의 눈길을 끄는 통계의 속임수를 다수 소개하고 있다.

이 말이 사실이라면 우리의 일상에는 여러 문제가 발생하기 시작한다. 32.2%의 환자가 질병을 털어냈다는 약을 오늘 아침 복용했고, 78.2%의 직장인이 가진 생활습관을 바탕으로 다음 달 공모전을 준비 중이기 때문이다. 32.2%의 환자가 사실은 10명 중 3명이고 이것조차 거듭 실험하여 도출된 결과라면? 믿음직스럽게만 보였던 약이 갑자기 무기력하고 무능력해 보이는 것 같다.

이와 같이 
통계의 맹신으로부터 오는 피해를 막기 위해 저자는 다음과 같은 해결책을 제시한다. 가장 먼저 ‘출처’를 따져야 한다. 이는 저명한 기관인지 아닌지를 가려야 한다는 의미가 아니다. 출처의 이익과 그가 속한 집단이 결과를 왜곡시키지 않았는지 따져보아야 한다는 말이다. 다음으로 이 결과가 어떤 방법으로 도출되었는지, 이들의 표본 크기와 선출 방법의 공정성을 잘 살펴보아야 한다. 다음으로 숨겨진 데이터는 없는지, 있다면 왜 생략되었는지 알아볼 필요가 있다. 처음과는 전혀 다른 내용을 이야기하거나 처음부터 아예 믿을 수 없는 말을 하는 통계도 주의해야 한다. 숫자에 대한 맹신을 버리고 처음부터 차근차근 다시 따져보는 것이다.

제품을 구매할 때 뿐만 아니라 공모전을 준비하고 레포트를 작성할 때도 대학생들은 수 많은 통계 자료들을 접하게 된다. 원하는 물건 혹은 정보들을 스스로 고를 수 있기 때문에 우리는 현명한 소비자 혹은 정직한 레포트를 작성했다고 자부할지도 모른다. 하지만 새빨간 거짓말을 하고 있는 통계에 속아 넘어간다면 여러분이 그저 자유롭고 올바른 선택을 했다고 말할 수 없게 된다.

하지만 숫자에 뛰어난 능력을 가지고 있거나 통계를 전문적으로 다루지 않는 사람이 아니고서야 여러 매체에서 앞다투어 발표하는 통계수치들을 의심하기란 어려운 일이다. 그 숫자들은 매우 명료하고 지적이며 자신감 있어 보이기 때문이다. 하지만 앞서 언급했던 바와 같이 통계의 속임수는 매우 치밀하고 그 피해는 꽤 치명적이다. 그렇기 때문에 이 책은 여러분에게 그러한 믿음들을 아주 매력적이고 과감하게 배반하는 방법을 일러주고자 한다.

마지막으로 책을 다 읽고 나서 혹은 책을 다 읽은 후, 이 글을 다시 접하는 여러분께 당부하고 싶은 말이 있다. 여러분도 이미 알다시피 통계는 우리 생활에 너무나 밀접하고 또 깊숙히 들어와 있어 그가 거짓말을 한다는 이유로 완전하게 떼어내거나 내칠 수 없는 것이 사실이다. 그렇기 때문에 '가장 정직한 통계'를 찾는 일이 여러분이 이 책의 독자로서, 시장의 소비자로서 또한 공부하는 학생으로서 바람직하게 통계를 대하는 방법이라고 할 수 있겠다. 인용할 예정이거나 이미 사용했던 통계라도 다시 한 번 출처를 살피며 그의 정직함을 가려내보도록 하자.

                              

     

※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식 입장과 관계가 없습니다.


저작자 표시 비영리 변경 금지
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

평범한 대학생의 하루를 구성해보자. 아침에 집을 나서기 전, 오늘의 날씨를 검색해본다. 지하철에서는 20대를 대상으로 대학 생활에 대해 조사한 흥미로운 설문 결과를 읽는다. 점심시간에는 친구들과 야구에 관해 잡담을 하며, 좋아하는 야구팀의 올해 실적을 작년 기록과 비교해본다. 집에 가는 길엔 영화 앱을 통해 재미있을만한 영화를 추천받는데, 수많은 사람들이 매긴 별점과, 내가 유사한 장르의 영화에 부여한 별점을 분석해 내 취향의 영화를 찾아주는 것이다.

하루 동안 이 대학생은 통계에 둘러싸여 있었다고 해도 과언이 아니다. 날씨 정보, 설문 조사, 통계 자료, 빅데이터를 현명하게 사용하는 앱. 이 모든 것은 통계와 긴밀하게 관련되어 있고, 현대 사회에서 통계는 마치 산소와 같이 우리 생활을 지배하고 있다. 그런데 왜 우리는 통계를 어렵다고, 난해하다고 생각하는 것일까? 나 역시 통계를 복잡하고 까다로운 학문이라는 선입견을 가지고 있었다. 그 이유는 역시 고등학교 시절에 배운, 어렵기 그지없는 통계학 때문이었을 것이다. 조건부확률, 순열과 조합, 중심극한정리 등을 배우며 이런 지식을 어디에 쓸까 의문이 생긴 나는, 슬프게도 통계에 흥미를 잃었었다. 대학에 입학하고 나서도 마찬가지였다. 경제학을 전공하는 까닭에 필수적으로 이수해야 하는 통계 과목이 있었고, 반 억지로 수강신청을 해야만 했다. 그렇지만 통계가 지루하다는 생각을 고수하고 있던 나에게도, 교수님께서 해주시는 초창기 통계학자들의 일화나 통계와 관련된 이야기들은 흥미롭게 다가왔다.

그중 많은 이야기가 이 책 <천재들의 주사위>에도 담겨 있는데, 하나는 차 마시는 여인에 관한 일화이다. 여러 사람이 모여 있는 자리에서, 한 부인이 말했다. 

저는 차에 우유를 부어 마실 때와
우유에 차를 부어 마실 때의 맛을 구별할 수 있어요.

사람들은 흥미를 가지고 이를 시험해보기로 했다. 평범한 사람이 한 차례 홍차의 맛을 구별해 낼 확률은 1/2이고, 두 번 구별해 낼 확률은 1/4이다. 물론 이 부인이 맛을 구별할 능력이 없는데도 운이 좋게 시험을 통과할 수 있다. 그러나 세 번, 네 번 연이어 시험을 통과한다면? 만약 열 번 시험을 통과한다면 부인이 능력을 가지고 있다고 봐야 하는가? 열 번 중 여섯 번, 혹은 일곱 번만 통과한다면? 이 재미있는 이야기는 저명한 통계학자 피셔(R. A. Fisher)의 저서 <실험설계>에 담겨 있는 예시이다.

데이터를 수집하기 위해서 실험은 필수적이다. 그렇지만 좋은 데이터, 진실에 가까운 데이터를 수집하기 위해서 실험은 반드시 설계되어야 한다. 부인이 정말 차 맛을 구별하는 능력이 있더라도 차의 온도에 따라, 차와 우유가 섞인 정도에 따라, 당일 코가 막혔느냐 막히지 않았느냐에 따라 결과가 달라질 수 있기 때문이다. 피셔는 더 나아가 귀무가설(null hypothesis)과 대립가설(alternative hypothesis)이라는 개념을 통해 통계적인 방법으로 가설-이 경우, 부인이 차 맛을 구별하는 능력이 있다-을 검정하려는 방법을 도입했다.

이처럼 이 책에서는 저명한 통계학자들의 일화와 배경을 설명함으로써 딱딱한 통계적 지식에 대한 반감을 없애고 흥미를 돋우고 있다. 아버지의 키가 크면 아들의 키가 조금 더 작고, 아버지의 키가 매우 작으면 아들은 그보다 더 크다는 보편적인 사례를 종합해 인류의 키가 평균으로의 회귀(regression to the mean)’를 보이고 있다는 것을 알아낸 골턴의 사례를 통해 독자들은 상관계수(coefficient of correlation)와 상관관계(correlation)에 대해 통계학적으로 쉽게 이해할 수 있을 것이다. 또한 이 책에선 피어슨과 피셔의 대립구도 등 위대한 통계학자들의 경쟁의식에 대해서도 재미있게 묘사하고 있는데, 독자들은 그들의 인간적인 면모를 접하며 심리적인 장벽을 허물고 통계를 받아들일 수 있을 것이다.

이 책의 제목인 <천재들의 주사위>, 아인슈타인의 유명한 경구인 신은 주사위를 던지지 않는다에서 따온 것이다. 아인슈타인은 신은 주사위를 던지지 않는다고 말했지만, 실제 세상에선 지금 이 시간에도 무한히 많은 주사위가 구르고 있다. 우리 주위를 구르는 주사위의 흐름을 포착하고 싶은 독자들, 주사위의 흐름을 즐기고 싶은 독자들에게 이 책을 추천한다.

                              

     

※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식 입장과 관계가 없습니다.


저작자 표시 비영리 변경 금지
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

티스토리 툴바