hot topic



여러분은, '리터러시'라는 말을 아시나요? 리터러시(literacy)는 글을 읽고 쓰는 능력을 뜻하는 영어 단어입니다. 나아가 읽고 쓰는 것을 통해 변화하는 사회에서의 적응 및 대처하는 능력으로 정의할 수 있습니다. 21세기인 지금은 어떤 종류의 리터러시가 필요할까요? 그 답은 바로 여기에 있었습니다. 

지난 11월 7일, 성남시에 있는 네이버 그린팩토리에서 네이버 빅데이터 리터러시 컨퍼런스가 열렸습니다. 통통 기자가 이런 중요한 컨퍼런스에 빠질 수 없겠죠? 지금부터 통통 기자와 함께 어떤 이야기가 있었는지 확인해보시죠!!


비가 부슬부슬 내리는 날씨임에도 불구하고, 컨퍼런스 현장은 300여 명의 사람들이 가득 차 자리가 부족할 정도로 열기가 뜨거웠는데요. 네이버, 통계청, 카드회사, 스타트업 기업 등 다양한 연사들이 컨퍼런스를 풍부하게 채워주셨습니다. 약 4시간이 넘게 진행된 컨퍼런스는 크게 '데이터 기반 라이프 스타일', '데이터 활용 교육', '데이터 기반 비즈니스 세 개의 주제를 중심으로, 14 팀의 발표로 진행되었습니다. 발표가 진행되면서 정말 신기하고 재밌는 얘기들이 많았었는데요. 그중 몇 가지를 소개해 드리도록 하겠습니다.


로봇 저널리즘이라는 말을 들어보신 적 있나요? 로봇이 데이터를 기반으로 만든 알고리즘을 통해 기사를 작성하는 시스템을 말하는데요. 사실, 로봇과 저널은 다소 거리가 있어 보이죠. 특히, 글 중에서도 정확도와 신뢰성이 중요한 기사 같은 경우에는 로봇이 처리하기에는 힘들어 보입니다. 그래서 한 기관에서 실험을 해봤는데요. 야구 경기 결과를 보고 로봇이 쓴 기사와 기자가 쓴 글을 보고 어떤 것이 기계인지 구별할 수 있는지를 확인하는 실험이었습니다.

결과가 어땠을까요? 놀랍게도, 로봇과 기자의 글을 구분할 수 없다는 응답이 많았습니다. 심지어 어떤 독자들은 로봇이 작성한 기사의 신뢰성이 더 높다고 응답하기도 했습니다. 데이터와 관련 없다고 생각한 저널 산업에서도 데이터가 필요한 세상이 온 것입니다. 이처럼 우리의 삶 구석구석은 데이터와 관련될 것입니다. 해당 내용의 발표자는 "데이터와 그 구조를 모른 채 사는 것은 까막눈과 같다"고 표현하기도 하셨는데요. 빅데이터 시대에서 까막눈이 되지 않기 위해서는 데이터 자체의 속성과 구조의 이해를 하는 능력, 즉 데이터 리터러시가 꼭 필요할 것입니다.

빅데이터는 21세기의 원유라고 표현을 많이 하죠. 하지만, 원유만으로는 아무것도 할 수 없고, 어떻게 정제해서 활용할지를 결정해야 합니다. 얼마나 유용하게 활용되는지는 이 원유를 다루는 사람이 얼마나 통찰력과 능력이 있는지에 달렸겠지요. 이처럼 이 원유를 뽑아낼 수 있는 과학기술지식에 어떤 기계를 만들지 상상해내는 인문사회적 상상력, 거기에 완성도를 높일 비판적 사고력이 있으면 이 데이터라는 원유를 잘 개발해 낼 수 있다고 합니다. 여러분도 도전해 보세요!



여러분도 카드 많이 쓰시죠? 우리나라는 가처분소득의 절반 이상을 카드로 사용하기 때문에 카드 회사들은 우리의 소비 형태를 누구보다 잘 파악할 수 있는데요. 우리의 소비 형태 데이터를 통해서 지자체나 관광산업, 창업 등의 컨설팅 서비스를 제공할 수 있다고 합니다. 소비 데이터 패턴 분석을 통해서 지역 경제 활성화나 축제 효과 분석에 활용할 수 있는 것이지요. 

예를 들어볼까요? 포켓몬 고를 통해 각광을 받았던 속초에 관광객 증가를 어떻게 유추했을까요? 바로 편의점 담배 판매량을 활용했는데요. 흡연자가 갑자기 증가·감소하는 일은 흔치 않은 현상인데, 속초 편의점들의 판매량이 해당 기간 동안 급증한 것이지요. 바로 이것을 토대로 관광 효과를 측정했습니다

또한, 중국인 관광객, 유커에 대한 사례도 있는데요. 발표를 진행했던 A카드사는 최근, 중국인 관광객의 카드 소비 데이터를 분석해 유커의 선호지역과 동선을 체크할 수 있었다고 밝혔습니다. 유커는 서울을 가장 많이 방문하고, 그다음은 인천, 제주 순으로 비중이 컸는데요. 서울 어느 지역에서 소비를 많이 하는지, 강남과 강북 관광객의 소비 패턴을 시간 별로 분석하는 등 데이터를 다양한 방법으로 분석한 것이 참 인상 깊었습니다. 관광객을 대상으로 하는 기업들에게는 정말 좋은 정보가 될 것 같네요 :)



항상 전기 요금을 받아보면 왜 이렇게 나오는지 궁금한데요. 항상 써놓고도 얼마가 나오는지 예측하기 힘든 것이 전기 요금입니다. 거기에다가 전기 요금이 만만치 않은 요즘, 어떻게 하면 에너지 절약을 효율적으로 할 수 있을까요?


그것에 대한 답으로 '인코어드'라는 기업이 IOT 기계를 통해 데이터를 받아서 에너지를 절약하는 방법을 소개했습니다. IOT(Internet of Things)는 가전제품, 전자기기 등 사물들을 네트워크로 연결해서 정보를 공유할 수 있는 시스템을 말하는데요. IOT에서 받은 정보를 통해 어떤 이유에서 에너지가 사용이 많이 되었는지 확인할 수 있다고 합니다. 한 사례로 어떤 집은 냉장고가 결선이 되어 에너지가 계속 낭비되고 있었는데, 이것을 IOT를 통해 발견하고 이를 바로잡아 전기비를 아낀 것이죠. 또한, 에너지 사용량이 누진세를 넘어가게 되면 자동으로 푸시 알람을 하는 등 너지 절약을 지속 가능한 행동 변화로 이끌어 내는 것을 목표로 하고 있다고 합니다. 이처럼 모두들 궁금할 수 있는 것을 데이터로 풀어낼 수 있는 시야와 안목이 중요하다고 강조했습니다. 

 중간 쉬는 시간에 맛있는 빵과 다양한 데이터 기반 스타트업 기업들의 홍보 부스까지 정말 알찬 컨퍼런스였습니다. 미처 다 소개 하진 못했지만 네이버의 데이터 랩 소개, 통계청의 고령화 통계, 테이블의 개인화 추천 시스템까지 소재가 다양하고 풍부했습니다. 실생활에서 멀지 않은 주제를 중심으로 진행된 것 같아서 듣기 어렵지도 않았고요. 통통 기자도 언젠가는 저기 단상에 서서 발표할 수 있는 날이 왔으면 좋겠습니다 :) 


                              

    

※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식 입장과 관계가 없습니다.


저작자 표시 비영리 변경 금지
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.


최근 대만에서 중국과의 무역자유화에 반대하기 위해 수십만 명이 참가한 해바라기 운동’을 알고 계시나요? 이 시위의 숨은 기여자로 평가받았던 것이 거브제로(g0v)’였습니다. 거브제로는 그동안 정부가 가진 데이터나 자료를 투명하게 공개하지 않은 태도에 분노해 만든 오픈소스 온라인 플랫폼입니다. 해바라기 운동 당시 국회를 점령하여 매일 일어나는 일을 거브제로에 올리면서 시민들의 직접 참여를 유도할 수 있었습니다. 이후 대만 정부는 선진화된 민주주의로 발돋움했다고 평가받았습니다. 이처럼 올바르고 유능한 정부가 되기 위한 첫 단계는 바로 투명성이 아닌가 싶습니다. 2013년 대한민국 정부는 투명성을 확보하기 위해 정부 3.0’이라는 새로운 패러다임을 제시한 바 있는데요. 이번 정부 3.0은 이전과 다르게 시민들에게 맞춤형 정보를 제공한다는 점에서 특별한 의미가 있었습니다. 이번에는 그중에서 창업에 필요한 정부 3.0의 기능을 살펴보고자 합니다.


<출처 - www.gov30.go.kr>

PC, 스마트폰 소프트웨어(SW)를 업데이트할 때면, 숫자가 하나씩 올라갑니다. 이처럼 정부의 SW도 시대에 걸맞게 하나씩 발전해 왔는데요. 과거 '정부 1.0'은 정부가 중심이 된 일방적 소통 시스템에 그쳤다면, 이번 '정부 3.0'은 양방향 정보소통과 더불어 맞춤형으로 서비스를 제공한다는 점에서 큰 변화가 있었습니다. 정부 3.0은 수요자가 원하는 서비스를 정부가 제공하고 이를 이용해 국민 모두가 행복한 대한민국이 되기를 바라는 비전을 가지고 있는데요. 비전만큼이나 유용한 정부 3.0 플랫폼은 아직까지 많은 시민들이 사용하지 않아 아직까지 그 유용성을 판단하기가 어려운 실정입니다.


정부 3.0이 유용한 가장 큰 이유는 정보에 있습니다. 스마트폰 보급률이 급격히 증가하면서 우리는 다양한 정보를 쉽게 얻을 수 있습니다. 하지만 수많은 정보 속에서 어떤 정보를 습득하고 활용하느냐에 따라 취업이나 창업시장에서 경쟁력을 갖출 수 있습니다. 특히, 창업은 산업 전반적으로 다양한 정보가 수반되어야 하기 때문에 정보 싸움이 관건인데요. 정부 3.0은 창업에 필요한 애플리케이션(이하 앱)을 다채롭게 구비하여 창업자에게 꼭 필요한 엄선된 정보를 제공한다는 점에서 아주 유용하게 사용할 수 있습니다. 이제, 그 유용한 정부 3.0 기능을 하나씩 살펴보도록 하겠습니다.


<출처 - www.k-startup.go.kr>

창업은 여러 가지 요인을 고려해야 하기 때문에 어렵습니다. 아이디어를 생각해야 하는 것은 물론 자본조달시장조사수요 발굴제품 제작네트워크 구축 등 이 복잡한 과정을 모두 스스로 해내야 하는데요. 이렇게 어려운 창업을 보다 쉽게 하기 위해서 정부가 창업에 관련된 정보와 기능들을 제공하고 있습니다. 대표적인 사이트가 'K-Startup'입니다. 정부 3.0 공식 홈페이지에 있는 관심분야 별 서비스 중에서 창업 관련 항목에 있습니다. 이곳에선 정부 창업 지원 사업 공고 및 신청 정보를 안내하고 창업역량 자가진단 및 창업 상담 서비스를 제공하는 등 창업을 시작하기에 앞서 필요한 정보를 제공하고 있습니다. 또한 창업교육과 공간 대여, 창업 멘토링 및 컨설팅, 정책 자금 지원 등 실질적으로 창업에 도움이 될만한 것들을 제공하기도 합니다. 


<출처 - www.gmap.go.kr>

사업을 시작할 때 고민되는 것 중 하나는 바로 규제입니다. 따라서 사전에 자신이 하려는 사업이 법령에 따른 규제에 걸리지 않는지 파악하는 것은 굉장히 중요합니다. 인허가 자가진단 앱은 사업을 시행하기에 앞서 규제에 해당되는지 아닌지를 자가진단할 수 있습니다. 크게 인허가 자가진단, 주요 규제지역 조회, 인허가 규제지역 조회 등으로 구분하여 간편하게 민원 인허가를 사전에 확인할 수 있습니다. 인허가 자가진단은 정확한 행정 정보를 활용해 본인이 선택한 위치의 규제정보를 위의 그림처럼 지도로 보여줍니다. 등록된 규제정보를 바탕으로 민원 허가가 가능한지 미리 판단이 가능하고 민원신청에 필요한 요건이 무엇인지 사전에 안내해주는 기능을 제공하고 있습니다.

또한 주요 규제지역 조회는 전국 지역에 대한 주요 규제 내역을 한눈에 확인할 수 있고 관련 대상 민원에 대한 행정 정보 서비스를 조회할 수 있습니다. 인허가 규제지역 조회 서비스는 궁금해하는 민원을 조해하거나 이에 해당하는 규제 내역을 지도를 통해 조회할 수 있습니다.


<출처 - www.hometax.go.kr>

창업 시 세금과 그와 관련된 법률에 대해 아는 것도 꼭 필요한 요건이죠. 하지만 많은 법령을 단기간에 습득하는 것은 어렵기 때문에 관련 전문가들의 도움이 절실한데요. 정부 3.0 서비스에는 세금 및 법률 서비스가 있습니다. 국세청과 연계된 홈택스는 세금신고 및 납부, 과세자료 제출, 전자세금계산서 관리, 세금 관련 상담과 제보에 대한 정보를 제공합니다. 또한 '마을세무사'는 무료 세무 상담을 지원하고 있는데요. 자신의 상권에 있는 마을세무사를 소개하거나 검색하는 기능을 제공하고 있습니다. 정부 3.0 서비스로는 이외에도 '찾기 쉬운 생활법령 정보', '무료법률구조서비스', '마을변호사' 등의 법률서비스 또한 제공하고 있습니다.


<출처 - www.data.go.kr>

위에서 언급했던 정부 3.0의 중요한 기능은 많은 데이터를 얻을 수 있다는 점인데요. 그 기능을 수행하도록 만든 것이 바로 공공데이터 포털(www.data.go.kr)입니다. 공공데이터 포털에서는 파일 데이터, 오픈 API, 표준 데이터를 얻을 수 있는데요. 특히 공공데이터 활용 사례와 공공데이터 시각화 자료를 제공하여 수요자로 하여금 어떻게 자료를 수집하고 시각화하는지에 대한 샘플을 얻을 수 있습니다. 만약 포털에 내가 원하는 데이터가 없을 경우에는 공공데이터 제공 신청을 통해 데이터를 요청할 수 있습니다. 이외에도 개발자들 간 각종 문제 해결을 위한 네트워크 공간도 마련되어 있고 다양한 정보를 공유하는 플랫폼도 구축하고 있어 이를 통해 공공데이터를 활용하는 방안에 대해 얻을 수 있습니다. 

공공데이터 법이 생기고 난 후 2013년 5000여 개에 불과했던 개방 데이터 수는 2015년 1만 5천 개로 세배 증가했으며, 데이터 이용건수는 2013년 1만 4천여 건에서 2015년 78만 4천여 건으로 무려 56배나 증가하였습니다. 현재 공공데이터를 개방하는 기관은 2016년 10월 10일을 기준으로 663개이며, 파일 데이터는 17,236개, 오픈 API는 2,059개, 표준 데이터는 17개입니다. 


<출처 - 레드테이블(RED TABLE), 데이트팝>

정부가 제공하는 공공데이터를 이용해 창업에 성공한 사례가 상당수 있는데요. 지금까지 홈페이지에 등록된 개발된 어플만 국내는 984건, 해외는 178건으로 총 1,162개의 어플이 존재합니다. 이 중에서 사용자들에게 많은 인기를 얻고 있는 사례도 있었습니다. 식당 예약 어플로 유명한 '레드 테이블(RED TABLE)'은 한국관광공사 데이터베이스를 활용해 창업에 성공한 케이스인데요. 레드 테이블은 2014년 공공데이터 활용 창업경진대회에서 대통령상을 수상하기도 했습니다. 또한 같은 한국관광공사의 데이터베이스를 이용해 데이트 코스와 맛 집을 접목하여 만든 '데이트 팝'은 연인들의 데이트 정보 앱으로 유명합니다. 최근 카카오에서 약 600억 원을 주고 인수한 내비게이션 앱 '김기사' 또한 공공데이터를 활용해서 개발한 앱입니다. 

창업에 필요한 정보와 기능을 수행하는 사이트를 간단하게 알아보았는데요. 지금까지 살펴본 기능들은 사실 정부 3.0이 제공하는 서비스 중에서 아주 일부에 불과합니다. 게다가 공공데이터를 통해 활용하는 것을 포함한다면 정부 3.0이 제공하는 서비스를 통한 창업의 길은 무한하다고 볼 수 있습니다. 정부 3.0에서 제공하는 공공데이터 및 각종 자료들은 이제 여러분의 것입니다. 정부 3.0은 어렵고 복잡한 것이 아니라 관심이 있다면 누구나 쉽게 정보를 취득할 수 있는 아주 유용한 플랫폼입니다. 그동안 창업에 필요한 정보가 부족했거나 어떻게 시작해야 할지 갈피를 잡지 못 했던 분들이라면 정부 3.0을 통해 시작하는 것은 어떨까요?

                           

     

※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식 입장과 관계가 없습니다.

저작자 표시 비영리 변경 금지
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

 


메르스 공포에 휩싸여 있던 지난 여름을 기억하시나요? 전국 곳곳에서는 메르스 환자가 발생하고 있었고, 사람들은 언제 주변에서 메르스에 옮지는 않을지 걱정하고 있었습니다. 하지만 몇몇 사람들은 지금이야말로 학문을 실생활에 적용할 수 있는 시기라며 의욕을 불태웠습니다. 그 사람들은 바로 빅데이터 분야 종사자들이었습니다. 여러 빅데이터 전문과들과 페이스북 친구를 맺고 있던 저는 그분들이 메르스 관련 데이터로 사람들에게 어떻게 도움을 줄 수 있을지 고민하는 모습을 보았습니다. 



빅데이터 전문가들에게 메르스 사태는 학문을 실생활에 적용할 기회로 여겨졌습니다 



이런 모습에 이제는 사람들이 데이터를 주고 받는 수준을 넘어, 주어진 데이터를 재가공하고 다시 사람들에게 전파하는 시대에 들어섰다는 것을 느꼈습니다. 그리고 이를 한 단어로 표현한 것이 바로 ‘데이터 저널리즘’입니다. 데이터(Data)와 저널리즘(journalism)이 결합된 단어인 데이터 저널리즘, 이 생소한 용어가 이번 기사의 주제입니다. 통계와 빅데이터에 관심을 갖고, 사방의 데이터를 가공해 자신의 이야기를 만들어가고 싶은 분이라면 이번 기사를 통해 새로운 지식을 알아갈 수 있을 것입니다. 


데이터 저널리즘이란?


저널리즘이란 매스미디어를 활용하여 공공적인 사실이나 사건에 관한 정보를 보도하고 논평하는 활동(매일경제 출처)입니다. 그렇다면 데이터 저널리즘이란, 데이터를 통해 사실이나 사건을 보도하는 활동이라 할 수 있겠죠? 풀어 말한다면, 데이터 저널리즘이란 데이터를 깊이 파내어 모으고, 정제하고, 구축하고, 솎아 내어 보기 좋은 이야기로 만드는 일련의 작업 과정입니다. 위에서 말씀드렸던 메르스 사태를 통해 이를 자세히 들여다보도록 하겠습니다

KBS의 데이터 저널리즘 팀은 메르스 발생 현황을 각종 오픈 데이터와 결합해 제공하고 있습니다.
(http://dj.kbs.co.kr/resources/2015-06-04/
 

KBS는 메르스로 한창 떠들썩했던 6월 초, 각종 통계자료를 기반으로 한눈에 파악하기 쉽도록 데이터를 시각화하여 공개했습니다. 각 사람들의 감염 실태, 구글 지도를 기반으로 한 감염자 이동경로 등, 통계치로만 주어졌을 때 알기 힘든 정보를 여러 방식으로 보여주었습니다.

 

이러한 작업은 쉽게 보이지만, 사실 상당히 복잡한 과정이 요구됩니다. 우선 데이터를 확보해야 합니다. 정부에서 발표하는 데이터 외에 인터넷에 떠돌고 있는 오픈데이터까지도 추출하여 통계화할 수 있어야 합니다. 지금은 인터넷을 통해 누구든 데이터를 올릴 수 있는 시대이며, 데이터 저널리즘은 이러한 양방향 소통을 특징으로 갖고 있습니다. 다음으로는 공공 데이터를 디자이너와 프로그래머가 협력해 결과물을 만들 수 있어야 합니다. 위 KBS의 데이터 저널리즘은 오픈데이터를 토대로 디자이너와 프로그래머가 합작해 새로운 결과물을 만들어낸 것입니다. 디자이너는 어떻게 하면 사람들이 직관적으로 이해할 수 있을지 고민하며, 프로그래머는 데이터를 수집하고, 디자이너의 생각에 맞게 데이터를 표현합니다. 이를 통해 독자는 더 복잡한 통계수치 없이 현상을 이해할 수 있습니다.




이제는 누구나 데이터를 활용할 수 있는 시대가 되었습니다. 
하지만 Java와 같은 프로그래밍을 이해하지 못하고는 데이터를 활용하기란 쉽지 않은 일입니다. 


이것이 기존의 저널리즘과 다른 점은 무엇일까요? 기존에도 많은 보도자료는 통계청 자료처럼 여러 통계자료를 근거로 글을 썼습니다. 하지만 숫자나 단순한 그래프로 제공되는 것과 이를 지도나 데이터와 관련된 시각자료와 통합하여 보여주는 것은 다릅니다. 특히, 데이터 저널리즘의 특징은 데이터를 스토리화하여 보여준다는 점입니다. 단순한 통계자료를 넘어 데이터의 스토리를 보여주는 것이 데이터 저널리즘의 핵심입니다. 

또한 데이터 저널리즘은 기술적인 영역이 혼합된 분야입니다. 데이터를 스토리화한다는 점은 곧 데이터마다 다른 스토리를 가진다는 말입니다. KBS에서 만든 메르스의 데이터 저널리즘은 전염병이 아닌 다른 스토리에서는 활용하기 어렵습니다. 게다가 신종플루와 같이 많은 사람들에게 걸리는 질병에도 활용할 수가 없습니다. 결국 매 데이터마다 새로운 디자인과 개발이 필요하게 됩니다. 따라서 데이터 저널리즘이란 통계학, 디자인, 프로그래밍, 마지막으로 이를 스토리화할 수 있는 통찰력이 융합된 종합 학문의 영역이라 할 수 있습니다.

 

데이터 저널리즘의 역사

 

데이터 저널리즘의 역사는, 용어가 2010년부터 쓰인 것에 비해 상당히 오래되었습니다. 가장 유명한 데이터 저널리즘의 예는 나이팅게일의 보고서입니다. 나이팅게일은 1854년 크림전쟁 당시 위생 상태에 의해 사망하는 사람이 많다는 점을 알아냈고, 이를 설득하기 위해 여러 시각자료를 활용하였습니다. 위생을 개선하여 42%의 사망률을 2%까지 줄일 수 있다는 점을 장미 모양의 도표로 표현하였고, 800장의 복잡한 보고서를 단순한 시각자료로 축약해 보여줄 수 있었습니다. 19세기 최고의 통계그래픽으로 손꼽히는 이 그래프는 데이터 저널리즘의 효시가 되었습니다. 이후 많은 세계의 많은 언론은 통계의 시각적 표현에 큰 관심을 보여왔고, 뉴욕 타임즈와 가디언 지는 데이터 저널리즘 팀을 운영하며 각종 이슈를 시각화하여 보여주고 있습니다.


나이팅 게일의 통계 그래프. 왼쪽 데이터는 개선 이후, 오른쪽 데이터는 개선 이전의 것입니다. 
각 달별 사망 원인을 그래프화하여 보여주며 통계 그래프 역사의 한 획을 그었습니다. (출처: Wiki백과) 


그렇다면 우리나라는 어떨까요? 우리나라 최초의 데이터 저널리즘은 제민일보의 4.3사건 보도로 알려져 있습니다. 아직 컴퓨터가 보급되기 전 1990년대 초 제민일보는 4.3사건의 증거자료를 데이터베이스화 하여 대량의 데이터를 저장하고 분석해 4.3특별법까지 제정시키며 데이터 저널리즘의 힘을 보여주었습니다. 이후 많은 언론들이 데이터의 중요성을 깨달았고, 자신들만의 데이터베이스를 구축해나갔습니다.

최근에는 메이저 언론사와 지역 언론사들도 데이터 저널리즘에 관심을 보이고 있고, 다양한 보도를 해오고 있습니다. 부산일보는 작년 지역 언론사 최초로 ‘석면 쇼크, 부산이 아프다’라는 제목으로 데이터 저널리즘을 보여주었습니다. 부산일보는 30여년간 지속된 환경질환의 실태를 누적 데이터와 인터뷰로 집대성해 보여주고 있습니다. 석면에 관한 모든 컨텐츠를 웹에 갖추어 놈으로서 독자는 자신의 동네 현황을 확인함은 물론 다양한 컨텐츠를 마치 잡지를 읽듯 흥미롭게 살펴볼 수 있습니다.


(http://shock.busan.com)


부산일보의 '석면 쇼크, 부산이 아프다' 보도는 지난 30년간 석면이 우리에게 

어떤 영향을 끼쳤는지 다양한 자료를 통해 보여주고 있습니다.


 

단순히 보고 듣고 느끼는 정도를 넘어, 독자가 자신의 데이터를 입력하며 실제 자신의 이야기처럼 느낄 수 있도록 만든 이 보도는 두 달간의 노력의 산물이라고 합니다. 부경대학교 IT융합응용공학과 송하주 교수팀과 협업해 만들어진 이 컨텐츠는, 이제는 언론 보도가 단순한 텍스트와 수치의 나열에서 벗어나고 있다는 것을 보여주고 있습니다.

 

 

 인터뷰 : 국내 데이터 저널리즘의 현재와 미래

 

 

지금까지 데이터 저널리즘의 역사를 알아봤다면, 이번에는 국내 데이터 저널리즘의 현황과 그 한계는 무엇일지, 그리고 어떤 방향으로 나아가는 것이 좋을지 살펴보도록 하겠습니다. 이 부분은 국내 데이터 저널리즘 분야의 권위자이신 신동희 성균관대 인터렉션사이언스학과 교수님의 도움을 받았습니다. UI/UX 분야와 인간-컴퓨터 상호작용을 연구하시는 교수님께서는 최근 빅데이터가 언론 영역에 접목된 데이터 저널리즘과 컴퓨테이셔널 저널리즘까지 연구를 확장하며 많은 글과 기사를 작성하고 계십니다. 그럼 교수님과 함께 데이터 저널리즘에 대해 더 깊게 들어가볼까요?


1. 안녕하세요 신동희 교수님, 교수님께서 데이터 저널리즘에 관심을 갖게 된 배경이 있나요? 

데이터 저널리즘을 처음 알게 된 것은 빅데이터가 관심을 받기 시작한 시기와 일

치합니다. 빅데이터의 중요성이 높아지며 의료, 과학, 경영, 문화의 분야에 적용이 되는데, 언론분야에는 어떻게 응용이 되는지 궁금해 하면서 데이터 저널리즘에 관심을 가지게 되었습니다. 저널리즘적 가치를 추구하는 언론과 데이터로부터 가치를 추출하고 분석하는 빅데이터가 융합되는 데이터 저널리즘은 분명 흥미로운 주제였습니다.


2. 최근 국내에서도 데이터 저널리즘 교육이 진행되는 등 데이터 저널리즘이 뜨고 있습니다. 최근 국내의 데이터 저널리즘에 대해 어떻게 생각하시나요?

국내에선 데이터 저널리즘을 강화해야 한다는 여러 지적에도 불구하고 언론사들 사이에서는 데이터 저널리즘을 텍스트 기사 작성을 기반으로 하는 전통 저널리즘 행위의 보조 수단으로 인식하는 경향이 많이 존재했습니다. 여전히 한국의 저널리즘은 자사가 가지고 있는 기사 자료에 이미지 혹은 플래시 등의 그래픽 정보를 연결하는 초보 수준에 머물고 있는 경우가 많습니다. 뿐만 아니라 제한적인 데이터의 사용, 다양성이 결여된 퍼블리싱(publishing) 형태, 사용자들의 참여와 소통의 부재 등은 국내 데이터 저널리즘의 현재 수준을 가늠하게 해 주고 있습니다. 최근 인포그래픽을 강화하려는 언론사들이 늘고는 있지만, 저널리즘 성격보다는 디자인과 소프트웨어에 중점을 두는 경향을 보이고 있습니다. 이렇게 될 수밖에 없는 데에는 데이터의 중요성에 대한 인식의 부재도 있지만 정부와 언론사 자체의 구조적인 문제가 존재하고 있기 때문입니다.

 


3. 데이터 저널리즘에 대해 알아가다 보니 데이터 시각화와 분명한 구분이 쉽지 않은데, 데이터 시각화와 데이터 저널리즘의 차이는 무엇일까요?

 

국내 언론사는 데이터 저널리즘을 데이터의 시각화로만 인식하는 것이 한계입니다. 즉, 데이터 저널리즘을 데이터에 대한 창의적이고 유연한 소프트웨어로 보는 접근이 아닌, 시스템과 기술적 문제의 하드웨어로 보는 경향에 매몰되어 있는 것입니다. 데이터 저널리즘은 단순한 기술의 적용 문제를 넘어 인식과 철학의 범주가 보다 결정적인 부분입니다. 아직 데이터를 다루는 부서나 종사자는 뉴스 룸 안에서 주변부에 불과해 역량과 명성을 가진 기자나 전문가들과는 거리가 먼 부서로 인식되고 있습니다. 뉴스 룸의 의사결정자들이 대부분 구세대로 디지털의 숙련도가 떨어지고, 그 중요성을 제대로 인식하지 못하는 점이 문제입니다. 대부분의 뉴스 룸이 데이터를 왜 최적화해야 하는지, 그리고 그것이 궁극적으로 어떻게 다뤄져야 하는지에 대해 이해하지 못하고 있습니다.


4. 국내 데이터 저널리즘의 미래가 어떻게 될 것이라 보시나요?

데이터 저널리즘이 미국과 유럽에서 유래한 모델인데, 과연 국내의 상황에 맞는 한국적 모델로서의 데이터 저널리즘이 도출되어 안정적으로 적용될 수 있을지가 관건입니다. 최근의 스마트 정부(smart government)’ 또는 ‘정부 3.0(government 3.0)’ 등의 정책은 데이터 저널리즘의 활로를 개척할 수 있는 기반이 되고 있습니다. 정부가 보유하고 있는 공공 데이터의 과감한 공개를 통해 국민 개개인의 요구를 찾아낼 수 있는 모델을 개발하고, 이것을 바탕으로 국민이 요구하기 전에 먼저 개인화한 정부 서비스를 제공하는 것이 핵심입니다.

데이터 저널리즘의 비전은 언론이 지난 수백 년간 쌓아온 고유의 문화가 데이터베이스의 활성화라는 기술적 변화상과 어떤 형태의 조화를 이뤄 내느냐에 달려 있습니다. 비록 그 모습을 단정적으로 예측하는 것은 어렵겠지만, 결국 저널리스트들의 전문가적 윤리의식이 그 핵심에 있을 것임을 기대하는 것은 어렵지 않습니다. 즉, 아무리 기술과 시스템, 데이터베이스가 발전하더라도 그 기술적 가공물을 다루고 최종적 판단을 하는 것은 바로 인간의 판단이라는 고전적 진리가 데이터 저널리즘에도 적용될 것입니다. 

 

빅데이터 시대, 그리고 데이터 저널리즘


이 기사는 빅데이터 주제로 잡은 세번째 기사입니다. 
데이터 사이언티스트(http://me2.do/GNA3R88B), R 프로그래밍(http://me2.do/FMUHTRq7)에 관한 기사를 쓰고, 대학원에서 인턴으로1년 넘게 공부하며 깨달은 점 중 하나는 빅데이터란 인문학과 공학의 접점에 있다는 점입니다. 데이터 저널리즘은 그러한 흐름의 중심에 위치하고 있었기에, 저는 이를 빅데이터의 세번째 기사로 쓰기로 결심했습니다.

 

빅데이터 시대가 가져다준 것 중 가장 확실한건, 데이터가 축적될 요건이 마련됐다는 점입니다. 사람들은 이 데이터를 어떻게 쓸지 고민했고, 언론은 보도에 데이터를 활용할 방법을 고민하기 시작했습니다. 각 언론사에는 데이터 저널리즘 팀이 만들어졌고, 뉴스젤리는 최근 데이터 저널리즘을 주제로 강의를 진행하고 있습니다. 

그럼에도 아직은 데이터 저널리즘이 대중에게 익숙한 용어가 아니며, 언론에 정보기술을 활용한다는 점도 낯선 이야기입니다. 인문학과 공학이라는 두 문화는 여전히 다른 세상의 이야기로만 받아들여지는 듯합니다.

지금의 시대는 흔히 융합의 시대라고 말합니다. 초등학생이 프로그래밍을 배우고 있고 공대생이 한국사를 배우고 디자인을 배우는 시대가 되었습니다. 데이터 저널리즘은 이러한 시대를 반영하고 있습니다. '글'이 '통계'와 '컴퓨터'를 만났을 때 어떤 효과가 발생할 수 있는지를 데이터 저널리즘은 보여주고 있습니다. 지금의 시대가 필요로 하는 것은 이처럼 인문학과 공학이라는 두 문화 사이의 구분보다는 두 문화가 융합된 하나의 문화일 것이며, 타 분야에 대한 열린 태도는 데이터 저널리즘은 물론 다양한 신 학문이 발달하는 토양이 될 것입니다.




   글은 '통계청블로그기자단' 기사로 통계청의 공식입장과 관계가 없습니다. 



 

신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.


빅데이터와 R프로그래밍의 만남, R 유저 컨퍼런스(R User Conference)를 다녀오다


최근 IT계의 가장 큰 화두는 빅데이터입니다. 2011년 즈음부터 쓰이기 시작한 빅데이터라는 용어는 어느새 사회 전반에서도 자주 쓰이고 있으며, 예능에서조차 심심치 않게 발견되고는 합니다. 그리고 빅데이터가 부상하며 함께 떠오른 언어가 있으니, 영어도 아닌 한글도 아닌 그 언어는 바로 프로그래밍 언어인 “R”입니다.


본래 수학적, 통계적 수단으로서 좁은 범위에서 쓰이던 R은 빅데이터 하면 빼놓을 수 없는 프로그래밍 언어가 되었고, 빅데이터를 활용함에 있어 무척 유용한 수단이 되었습니다.


지난 6월 세종대학교에서는 R 유저들이 모여 지식을 공유하는 R 유저 컨퍼런스(R User Conference)가 열렸고, 그 열기는 어느 때보다도 뜨거웠습니다. 통계청 기자단으로서 통계의 마지막 끝판왕이라 할 수 있는 빅데이터를 좀 더 깊게 들여다보고, 프로그래밍 언어 R과 이 둘의 만남인 R 유저 컨퍼런스에 다녀온 일을 이번 기사를 통해 전해드리도록 하겠습니다.


빅데이터 시대의 도래


빅데이터는 보통 대량의(Volume), 다양한(Variety), 빠른 속도로 생성되는(Velocity) 데이터를 뜻합니다. 2011년 즈음부터 본격적으로 쓰이기 시작한 이 용어의 등장엔 구글의 역할이 무척 컸습니다. 구글은 독감 검색 데이터를 분석하여 미국 보건 당국보다 2주 앞서 독감을 예측하는데 성공했고, 이러한 소식은 세계 곳곳에 빠르게 퍼져나갔습니다. 빅데이터의 위력을 실감한 여러 기업과 정부부처들은 앞 다투어 빅데이터 분야를 연구하고, 기존의 기술을 개선하여, 다양한 성과를 내게 됩니다.


우리나라 또한 삼성, LG, 포스코 등 내로라하는 기업들이 데이터 센터를 구축하며 빅데이터 시대를 맞이하고 있습니다. 이들은 SNS 데이터를 획득하여 자사 제품의 불만이나 문제점을 파악하거나, 생산 로그 분석을 통해 생산 공정의 문제점을 실시간으로 파악하는 등 다양하게 빅데이터를 이용하고 있습니다. 심지어 TV 뉴스나 예능에서도 빅데이터를 확용하는 모습이 점차 많아지고 있는데, MBC의 무한도전은 SNS 분석을 통해 식스맨 후보를 선정하기도 했습니다. 



(출처 : MBC 무한도전)


7월 3일 하루동안 빅데이터를 언급한 뉴스는 네이버 기준 192개나 되며, 이러한 열기는 당분간 식지 않을 것처럼 보입니다. 더군다나 사물인터넷의 등장은 빅데이터 시장을 더욱 더 뜨겁게 만들어주었습니다. 시계, 안경, 신발 등 우리가 주변에서 볼 수 있는 사물에 인터넷을 연동한다는 사물인터넷(IOT)은 사용자에 대한 데이터를 축적시켜나갈 것이기에 빅데이터와 곧잘 연관되고는 합니다. 예를 들어 인터넷이 연동된 신발이 제 이동 패턴을 분석한다면 기업은 이를 활용하여 제가 자주 가는 거리에 있는 상점의 쿠폰을 발행해 줄 수 있습니다


하지만 이러한 빅데이터 열풍에는 회의론적 시각도 존재하는데요, 사실 빅데이터는 기존에 존재하던 데이터마이닝 기술에 ‘빅’ 자만 붙였을 뿐 원래 존재하던 기술이었다는 주장도 많고, 현재 말하는 빅데이터 기술이 실제로 실효성 있게 쓰이고 있는가도 여전한 논란거리입니다. 금융권에서 활발하게 빅데이터 기술을 사용하는 곳 중 한 곳인 현대카드의 정태영 부사장은 작년 “빅데이터는 그럴 듯 해 보이나 실체는 없다”는 빅데이터 무용론을 내놓기도 하였습니다.

 

데이터와 통계의 마술사 R

R은 통계 계산과 시각화에 특화된 프로그래밍 언어입니다. 빅데이터가 뜨기 전만 해도 수학과나 통계학과 등 소수의 이용자들 사이에서 이용되던 R은 최근 어떤 언어보다도 HOT한 프로그래밍 언어가 되었습니다. R의 가장 큰 특징은 C나 자바같은 프로그래밍 언어보다 사용하기도, 접근하기도 쉽다는 것과 오픈소스라 무료로 사용할 수 있다는 점입니다. 또한 패키지를 통해 타 사용자가 짜 놓은 소스를 손쉽게 사용할 수 있습니다. 그렇기 때문에 초보자부터 전문가, 그리고 기업들까지도 R을 사용하는 빈도가 높아지고 있는 추세입니다.



'R 프로그래밍'에 대한 네이버 검색량. 2013년을 기점으로 R을 찾는 사람들이 늘어나는 추세이다

R을 사용하기 위해서는 소프트웨어만 설치하면 됩니다. http://cran.nexr.com/ 에서 무료로 배포하고 있는 소프트웨어를 깔고, 실행을 하면 바로 코드를 입력할 수 있는 창이 뜨게 됩니다. 여기서 원하는 패키지나 함수를 입력하여 사용하시면 되는데, 사실 흔히 쓰이는 워드클라우드같은 경우 정말로 하나하나 이해하며 접근하려면 다소 많은 시간이 걸릴 수도 있지만, 남들이 짜놓은 코드를 참고한다면 하루 이틀 사이에도 작성이 가능합니다. 요즘은 네이버나 다음에서도 쉽게 코드를 구할 수 있고, 시중에도 많은 책이 나와 있으므로 이를 조금만 참고하시면 남 부끄럽지 않은 결과를 만들 수 있습니다.



이전 기사 21세기의 가장 섹시한 직업, '데이터 사이언티스트'에서 만든 통계청 블로그의 워드클라우드

 

R User Conference 2015


2015년 6월 26일 세종대에서는 R 유저들이 모여 지식을 공유하는 'R User Conference 2015'가 열렸습니다. 데이터 사이언티스트를 꿈꾸는 학생들부터 기업에서 실제로 데이터를 다루고 있는 여러 전문가, 그리고 교수분들이 모여 지식을 나눌 수 있던 이 자리는 빅데이터를 주제로 강연이 이뤄지는 1부와 R의 다양한 활용을 이야기한 2부로 나뉘어 진행됐습니다. 사람들이 메고 있는 명찰에는 우리나라 모든 대학교와 기업이 다 모인 듯 다양한 사람들이 참가하였고, 모두 하나라도 놓치지 않겠다는 듯 배움에 임했습니다.


1부 : 데이터 분석의 철학, 그리고 기업에서의 데이터 사이언스


첫 강연은 고려대학교 통계학과의 허명회 교수님이 맡았습니다. 데이터 분석에 있어 가져야 하는 철학과, 빠지기 쉬운 함정들을 설명했습니다. 데이터 분석은 데이터 자체를 탐구하는 EDA(Exploratory Data Analysis)와 가설을 세우고 실험을 통해 가설을 확인하는 CDA(Confirmatory Data Analysis)로 나뉘는데, 이를 혼동하지 않고 분석해야 한다고 말씀했습니다. 예를 들면, 빅데이터는 보통 현재 존재하는 무수한 데이터에서 의미를 찾아내는 EDA인데, 단순히 여기서 그치지 않고 실험을 세워 데이터를 수집하여 가설을 검정해 그 의미를 과학으로 끄집어내는 CDA를 실시해야 합니다. 이는 과학으로 인정받기 위해서는 반드시 다음에도 똑같이 일어난다는 재현성이 존재해야 하기 때문입니다. 또한 모델을 세울 때에는 모델은 현실을 모방한 가짜라는 것을 명심해야 하고, 연관성과 인과성을 헷갈리지 않는 등의 실수를 범해서는 안된다고 말씀했습니다.



데이터 분석의 철학과 과학성을 강의하신 고려대학교 허명회 교수님


SKT 빅데이터 인사이트 팀의 정도희 팀장은 실제 기업에서의 데이터 사이언스와 그 현실을 적나라하게 보여줬습니다. 대부분이 오프더레코드의, 여기 기사에서 보이기엔 위험해 보이는 말이 많았는데, 인상깊던 부분을 몇 가지 적어보면 우선 최근의 빅데이터 붐의 이유를 빅데이터라는 용어 그 자체에서 찾아내었습니다. 모호하면서도 있어보이는 ‘빅데이터’라는 용어가 여기저기 쓰이기 시작하며 다른 기업이나 국가도 기술을 도입하기 시작했다는 말이었는데요, 그만큼 용어 자체에는 다소 회의적인 모습을 보이셨습니다. 과거 IT 붐 당시 '인터넷'이라는 단어가 여기저기 뜬금없이 쓰이던 것처럼 빅데이터도 모호한 의미로 여기저기 쓰이고 있다는 말이었습니다. 


그러나 빅데이터가 아무리 거품이고, 허구라고 하더라도 이러한 기술 트렌드는 결과적으로 ‘데이터’가 더 이상 버려지지 않고 저장되게 하였으며 ‘데이터 분석 기술’이 발전하게 되는 현상을 낳았습니다. 그렇기 때문에 접시가 준비가 되지 않았을 뿐, 접시만 준비되면 매우 빠른 속도의 혁신이 가능한 토대가 마련되어 있습니다. 기업들이 그저 트렌드를 따라 빅데이터를 도입하고, 생각보다 별로인 결과에 실망하지만 매일의 일상 속에서 반복되는 끊임없는 개선은 언젠가 커다란 혁신으로 바뀌고, 새로운 세상을 열어가는 토대가 된다는 것입니다. 마지막으로 데이터 분석의 목적에 대해 말씀하였는데, 데이터 사이언스의 역할은 현장에 인사이트를 제공해주는 것입니다. 그렇기에 데이터 사이언스는 기업의, 사회의 변화를 위한 뿌리가 되며, 데이터 사이언티스트를 꿈꾸는 학생, 그리고 현업에 뛰는 분들이 성공을 해야 세상이 바뀔 수 있다는 말씀은 상당히 깊은 인상을 남겼습니다.



SKT의 정도희 팀장은 직관적인 언어로 실제 빅데이터 현실에 대해 재밌는 발표를 진행하였다  

 

2부 : R의 다양한 활용


2부에서는 R이 어떻게 활용될 수 있는지를 여러 전문가 분들께서 설명을 하였습니다. 총 9개의 섹션에서 R의 다양한 활용방법들을 배울 수 있었는데, 공간과 시간의 제약 상 모두 듣지 못한 것은 다소 아쉬운 부분이었습니다. 이번 기사에서는 섹션 중 두 가지인 '분석플랫폼으로서의 클라우드와 R, 그리고 machine learning'과 '뉴럴 네트워크의 변천사를 통해 바라본 R에서 딥 뉴럴 네트워크 활용'을 다뤄보도록 하겠습니다.


우선 윈도우로 유명한 MS(마이크로 소프트)는 이번 컨퍼런스에서 상당히 자주 모습을 드러냈는데, MS가 얼마나 빅데이터와 데이터 사이언스에 관심이 많은지 볼 수 있는 대목입니다. 최근 R 사용화 버전 판매 및 데이터 컨설팅 업체인 레볼루션 R을 인수한 MS는 다양한 서비스를 제공하고 있습니다. 대표적인 서비스로 데이터 분석과 시각화를 프로그램을 설치하지 않고 단순히 MS의 웹 페이지에서 수행할 수 있는 클라우딩 서비스 MS azure가 있는데, 이는 개인 컴퓨터에서 프로그램을 돌리는게 아니라 웹을 통해 MS의 중앙 컴퓨터에 접속해 별도의 설치 없이 분석을 가능하게 해주는 서비스입니다. 또한, 기존에 코딩을 통해서 가능하던 다양한 작업을 간단한 조작으로도 가능하게 지원하고, R을 연동하여 직접 코딩 또한 할 수 있도록 여러 기능을 지원하고 있었습니다. 데이터 분석을 좀 더 손쉽게 지원해주는 기능은 SAS, SPSS의 최신 버전에서도 봐왔기에 그리 놀랍진 않았지만, 설치 없이 실행 가능한 클라우딩 서비스에는 세상이 변하고 있다는 것을 느꼈습니다.



모바일 폰을 갖고 슈퍼컴퓨터를 통제하며 작업을 하는 날이 코 앞으로 다가왔다
(출처 : 마이크로 소프트) 

포스코 ICT의 이태영님은 현재 다양한 영역에서 쓰이고 있는 딥러닝의 원조격인 인공신경망에 대해 강의하였습니다. 인공신경망은 시냅스-수상돌기 등을 통해 생물의 신경세포가 작동하는 것을 모방하여 알고리즘을 만들어놓은 것입니다. 입력 뉴런과 출력 뉴런이 있고, 중간에 수많은 히든 뉴런이 존재하여, 그 사이에서 데이터를 조정하며 가중치 값을 만들어내 계산을 해나가는 방식입니다.


우선 이를 설명하기 앞서 머신 러닝에 대해 알아보겠습니다. 머신 러닝이란 컴퓨터에게 학습 데이터를 주어 학습을 시켜, 우리가 어떤 데이터를 줬을 때 학습 모델을 바탕으로 결과를 내도록 하는 것을 일컫습니다. 예를 들어 X=1,2,3,...,10, Y=1,4,9,...,100 인 데이터를 학습시켰다면 컴퓨터에게 X= 100을 주었을 때 Y=10000이 나오게 하는 것입니다.


인공신경망은 머신러닝을 통해 수많은 데이터를 학습해 패턴을 찾아내는 모델을 만들고, 내부 뉴런 간의 가중치를 설정합니다. 이러한 인공신경망은 블랙박스라 하여, 중간의 계산 과정이 복잡하여 추론 과정을 이해하기가 힘들다는 단점도 갖고 있습니다. 그렇게 모델을 만들고 Input 값을 집어넣으면, 학습한 모델을 토대로 Output을 만들게 됩니다. 아래는 이를 활용한 예제입니다. R을 설치했다면, 다음 코드를 복사, 붙여넣기 하여 테스트를 해볼 수 있습니다.


install.packages("neuralnet")  # 인공신경망 패키지 설치
library(neuralnet) # 패키지 불러오기
traininginput <-  as.data.frame(runif(50, min=0, max=100))
trainingoutput <- sqrt(traininginput) # 학습 데이터 생성
trainingdata <- cbind(traininginput,trainingoutput)
colnames(trainingdata) <- c("Input","Output")
trainingdata[1:3,] # 학습 데이터 확인
net.sqrt <- neuralnet(Output~Input,trainingdata, hidden=3, threshold=0.01) # 모델 만들기
print(net.sqrt)
plot(net.sqrt) # 모델 확인
testdata <- as.data.frame((1:10)^2) # 테스트 데이터 만들기
net.results <- compute(net.sqrt, testdata) # 테스트 데이터 계산
print(net.results$net.result) # 테스트 데이터 결과
cleanoutput <- cbind(testdata,sqrt(testdata),
                     as.data.frame(net.results$net.result))
colnames(cleanoutput) <- c("Input","Expected Output","Neural Net Output")
print(cleanoutput) # 실제 데이터와 테스트 데이터 비교

 



인공신경망은 좌측의 그림과 같은 모양을 띄고 있습니다. 내부의 hidden 뉴런은 가중치 값을 통해 Input 값을 Output 값으로 바꿔냅니다. 우측은 1부터 100까지의 숫자에 루트를 씌운 값을 신경망을 통해 예측한 결과입니다. 다소 오차가 있긴 하지만 실제와 비슷한 값을 예측해낸 것을 알 수 있습니다. 현재 이 기술은 수많은 발전을 거듭하여 '딥 러닝'기술로 이어졌고, 이는 페이스북의 얼굴 인식 등에서 활용되고 있습니다. 


빅데이터의 시대, 그 미래는?

빅데이터가 과연 많은 언론 매체의 보도처럼 만능의 기술인지에 대해서는 수많은 회의론이 존재합니다. 페이스 북의 빅데이터 분석 강의 공고에서 "현장에서는 보이지도 않던 전문가들이 대체 어디서 생겨났는지 모르겠다"라는 댓글을 본 적도 있습니다. 사실 지금 이 글을 쓰는 저조차 빅데이터라는 단어에 다소 거부감을 느끼고, 오히려 데이터 마이닝이나 데이터 분석 등 다른 용어를 사용하고는 합니다. 하지만 우리가 알아야 하는 것은, 이제 빅데이터라는 단어가 나온지 5년이 채 되지 않았다는 사실입니다. 그리고 아무리 빅데이터 기술의 효용성을 의심한다 해도 결국 데이터는 남았습니다. 그리고 가장 중요한 사람도 남았습니다.


이번 R 유저 컨퍼런스를 다녀오고 느낀 점이 있다면 새로운 지식을 배우고자 노력하는 사람들이 무척이나 많다는 사실입니다. 성별직업, 나이 상관없이 지식을 공유하고자 수백 명이 한 자리에 모여 학습하는 모습은 저도 더욱 열심히 노력해야겠다는 교훈을 남겼습니다. 그리고 한편으로는 이렇게 열정적인 사람들이 많다면 빅데이터의 미래도 역시 밝을 것이라는 생각을 가질 수 있었습니다. 제가 데이터 마이닝을 접하고 배우게 된지 이제 2년이 되어가는데 그 2년간 상당히 많은 변화가 있었습니다. 당시에는 R을 검색해도 쓸만한 정보가 거의 나오지 않았고 R과 관련된 한글 책도 몇 권 안되었지만, 이제는 책을 사지 않고 블로그만 봐도 공부가 가능한 정도가 되었습니다. 사람들은 단순히 정보를 습득하는 것에 그치지 않고 다른 사람들과 공유하고, 토의하며 새로운 시대를 맞이할 준비를 해나가고 있습니다. 그렇기에 빅데이터의 시대, 또는 빅데이터가 만들어낼 또다 른 시대는 분명 우리 삶을 더욱 윤택하게 만들어줄 것입니다.  





  글은 '통계청블로그기자단' 기사로 통계청의 공식입장과 관계가 없습니다.



통계청에서 2015년 생활 속 통계 활용 수기공모전을 진행하고 있습니다. 

관심있는 여러분들의 많은 참여 기다리겠습니다.   

신고
트랙백 TRACKBACK :0 개, 댓글 4 개가 달렸습니다.
  • BlogIcon 7기 박효진 2015.07.06 00:41 신고 ADDR EDIT/DEL REPLY

    마지막에 윤택 융택으로 오타 났어요~!

    • BlogIcon 7기 이용훈 2015.07.06 12:47 신고 EDIT/DEL

      고맙고맙 ㅋㅋ 오늘 다시읽으니 다듬을 부분이 많다

  • BlogIcon 이권식 2015.07.07 00:46 신고 ADDR EDIT/DEL REPLY

    저번에 한국은행에서 연세대학교 통계학과 교수님의 빅데이터 강의를 들었었는데 ㅎㅎㅎ
    그 분은 빅데이터에 대해 너무 낙관적이고, 긍정적으로만 생각하는 것 같다고 우려의 목소리를 표명해주셨어요

    • BlogIcon 이권식 2015.07.07 00:47 신고 EDIT/DEL

      단순히 데이터 마이닝에서 그치는 것에서만 그치기에, 이를 보다 유용하게 해석하기 위해선 각 분야의 융합이 필요하며, 특히 통계학을 배울 것을 강조해주셨네요 ㅋㅋㅋㅋ



빅데이터부터 인포그래픽까지! 어느 것 하나 통계와 관련되지 않은 것이 없는데요, 통계의 시대를 살고 있다고 해도 과언이 아닐 정도로 통계는 우리 생활 곳곳에서 많은 영향을 미치고 있습니다. 그런데 오히려 너무 많은 통계정보들이 때론 전체적인 조망을 어렵게 만들거나 정보를 파악하는 데에 혼란스러움을 가중시키기도 합니다. 




이런 불편함을 해소하고자 핵심지표만 선별해 종합적이고 쉽게 국정 현황과 국가 발전단계를 파악할 수 있도록 통계청에서 '국가주요지표체계' 서비스를 구축했다고 하니 통통이와 함께 자세히 살펴볼까요?




■ 국가주요지표 체계가 무엇인가요?


국가주요지표체계는 단일지표인 GDP와 달리 경제, 사회, 환경 등의 다양한 지표로 구성된 지표체계를 통해 국가 발전상황을 균형있게 판단하려는 세계적 움직임에 맞춰 국가 발전상황을 한눈에 파악할 수 있는 서비스입니다.




국민의 웰빙과 국가 발전의 주요상황을 쉽고 체계적으로 알 수 있도록 되어 있으며, 경제·사회·환경의 3개 부문으로 구성되어 있답니다.




그래프 형태로 되어 있어 보기 쉬울 뿐 아니라 지표의 정의와 측정방법, 해설, 상세통계표가 함께 나와있어 심도깊은 이해가 가능하다는 사실! >.<




■ 국가주요지표 체계 어떻게 이용하나요?


이렇게 좋은 서비스, 써보지 않을 수 없겠죠^_^? 통통이가 국가주요지표체계 이용방법을 알려드릴게요-! 


① 먼저 국가주요지표체계(http://www.index.go.kr) 사이트에 접속합니다.




② 국가주요지표 - 부문별 지표에서 원하는 주제를 선택합니다.



국가주요지표체계 서비스 페이지에서 원하는 주제를 선택하기만 하면 관련통계를 바로 볼 수 있답니다. 별도의 회원가입 절차가 필요하지 않아서 더 간단하죠!



통통이는 따뜻해지는 날씨만큼 얇아지는 옷차림에 대비하기 위해 사회-건강-건강결정요인-신체활동실천율을 클릭했는데요, 그래프를 통해 신체활동실천율이 점점 낮아지고 있는 현상이 한 눈에 들어오네요^_^!




그래프 뿐 아니라 통계에 대한 해설과 의의까지 한 번에 알 수 있어 별도의 검색 없이도 충분한 정보를 습득할 수 있답니다. 국가주요지표체계를 보며 그동안 운동과는 담을 쌓고 살았던 통통이는 스스로를 반성해봅니다 ㅠ^ㅠ


국가 발전상황을 한 눈에 볼 수 있는 국가주요지표체계 서비스! 국민들이 국가주요지표체계 서비스를 통해 원하는 정보를 쉽고 빠르게 파악할 수 있도록 지속적으로 업데이트할 예정입니다. 앞으로도 통계청과 국가주요지표체계 서비스에 더 많은 관심과 이용 부탁드려요! :-)





저작자 표시
신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

- 미래를 여는 열쇠, 빅데이터



▶ 기계가 인간을 지배하다


'노모포비아', '이딕션', '자연결핍장애', '크랙베리', '쿼터리즘', '팝콘브레인', '디지털 단식', '디지털 치매', '스마느폰 노안', '트통령', '엄지족', '디지털 코쿤족', '미포머족', '스마트폰 과부(홀아비)'라는 단어들에 대해 들어본 적이 있나요? 이 단어들은 스마트폰 중독의 심각성이 대두되면서 함께 등장한 신조어들인데요. 최근에 얼마나 스마트폰이 우리의 일상생활에 영향을 미치고 있는지 알 수 있습니다.


한국정보화진흥원의 '2012년 인터넷중독 실태조사보고서'에 따르면, 2012년 스마트폰 중독률은 11.1%로 전년(8.4%) 대비 2.7%p가 증가하였고, 특히 청소년 스마트폰 중독률은 18.4%로 전년(11.4%) 대비 7.0%p 증가하여 성인(9.1%)의 2배 수준에 이른다고 하는데요.



<출처 : 2012년 인터넷중독 실태조사, 한국정보화진흥원>


우리는 아침에 스마트폰 알람소리로 하루를 시작하고, 등굣길이나 출근길에 스마트폰을 통해 뉴스나 날씨 등을 확인하죠. 점심이나 저녁을 먹을 때 각종 어플들을 통해 맛집을 검색하기도 하고, 심지어 사람들과의 모임에서도 모두 스마트폰만 바라볼 때도 있는데요. 이처럼 우리는 온종일 스마트폰과 함께 하면서 엄청난 양의 정보를 접하게 됩니다. 하지만, SNS를 통해 유용한 정보들이 유통되더라도 인간이 그것을 활용하는 방법을 몰라서 가치를 찾아내지 못한다면 우리는 그것이 중요한 정보인 줄도 모른채 흘려보낼 것입니다.


아인슈타인은 다음과 같이 예언했다고 합니다. "과학기술이 인간 사이의 소통을 뛰어넘을 날이 두렵다. 세상은 바보천치들의 세대가 될 것이다."



<출처 : 온라인 커뮤니티>


또한, 한 온라인 커뮤니티 게시판에는 '지구 멸망 2초 전'이라는 제목으로 다음과 같은 사진이 게재되었습니다. 지구가 멸망하고 있는 와중에 사람들이 스마트폰으로 인증샷을 찍고 있는 모습입니다. 아인슈타인의 예언이 적중하는 것같아 씁쓸한 기분이 드네요. 



<출처 : 온라인 커뮤니티>


그렇다면, 인간이 기술을 지배하기 위한 방법은 무엇일까요? 2012년에 '빅데이터'라는 단어가 처음 등장한 이후로, 최근에 들어 점점 '빅데이터'에 대한 중요성이 강조되고 있습니다.



▶ 빅데이터란 무엇인가


빅데이터란, 데이터의 생성·양·주기·형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집·저장·검색·분석이 어려운 방대한 데이터를 말합니다. 빅데이터는 인터넷과 SNS의 발달로 데이터의 양이 급격하게 증가하면서 나타났습니다. 빅데이터는 빠른 생성 속도(Velocity), 초대용량의 데이터 양(Volume), 다양한 형태(Variety)라는 뜻에서 3V라고도 불리며, 네 번째 특징으로 가치(Value)를 더해 4V라고 정의하기도 합니다. 빅데이터의 대부분은 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변함에 따라 그 전체를 파악하고 일정한 패턴을 발견하기가 어렵기 때문에 가치(Valu)의 중요성이 강조되고 있습니다.



▶ 빅데이터의 장점과 단점


1) 빅데이터의 장점

첫째, 의사결정의 정확도를 높일 수 있습니다. 기족에 기록된 빅데이터를 분석하여 주관적인 의사결정이 아닌 객관적인 의사결정을 함에 따라 오류로 인해 발생할 수 있는 손실들을 사전에 예방할 수 있습니다.

둘째, 가까운 미래를 예측하고 새로운 기회를 창출할 수 있습니다. 통계적인 분석방법을 이용하여 빅데이터를 활용한다면 과거의 데이터뿐만 아니라 현재의 데이터도 빠르게 분석할 수 있습니다. 예를 들면, 마트에서 시간대별 소비자들의 행동 패턴에 대한 데이터를 바탕으로 이를 분석하여 앞으로의 소비자들의 행동 패턴에 대해서 예측할 수 있습니다.

셋째, 고객에 관한 통찰력을 향상시킬 수 있습니다. 잠재적인 소비자나 특정 집단의 생각을 실시간으로 파악할 수 있으므로 다양하고 빠르게 변화하는 고객의 의도를 정확히 이해할 수 있습니다. 따라서, 빅데이터를 활용한다면 고객의 니즈에 맞는, 보다 정확도 높은 서비스를 제공할 수 있겠죠.


2) 빅데이터의 단점

SNS에 올린 글이나 사진, 인터넷 사용기록 등이 모두 데이터베이스에 남으므로 사생활 침해문제가 있습니다. 



▶ 빅데이터 시장의 현황 및 전망


한국과학기술정보연구원(KISTI)이 올해 4월에 발표한 2015년~2020년 국내 빅데이터 시장 전망에 따르면, 국내 빅데이터 시장규모는 2015년 2억 6300만달러에서 2020년 8억 9380달러로 증가할 전망이다. 빅데이터의 중요성이 증가함에 따라 빅데이터와 관련된 신규일자리 창출도 기대되고 있는데요. 한국정보화진흥원(NIA)에 따르면, 국내 빅데이터 산업은 2013년부터 2017년까지 약 52만개의 추가 일자리를 발생시킬 것으로 예상된다고 합니다.

 

<출처 : (좌)빅데이터 관련 정책추진 연혁, 관계 부처, 

(우)2015년~2020년 국내 빅데이터 시장 전망, 한국과학기술정보연구원>


 

▶ 빅데이터 전문가, 데이터 사이언티스트


단순히 빅데이터를 가지고 있다고 좋은 것만은 아닙니다. 빅데이터를 활용해야 의미있는 정보가 되는 것이죠. 최근에 빅데이터가 화두가 되면서 데이터 사이언티스트에 대한 수요가 증가하고 있는데요. 그렇다면 데이터 사이언티스트는 어떠한 일을 하는 직업일까요? 빅데이터 전문가인 데이터 사이언티스트는 통계학, 컴퓨터과학, 머신러닝 등 기본적인 데이터 분석에 대한 이해뿐만 아니라 프로그래밍 실력과 특정 도메인에 대한 비즈니스 지식을 가지고 있는 사람을 말합니다.


대표적인 데이터 사이언티스트로 알려진 존 라우저 아마존 수석 엔지니어는 2011년 포브스 인터뷰인 '데이터사이언티스트란 무엇인가'라는 인터뷰에서 다음과 같이 말했다고 합니다.



▶ 빅데이터에 대해 더 자세히 알고싶다면


1) 2013 빅데이터 국내 사례집

미래창조과학부와 한국정보화진흥원(NIA)의 빅데이터 전략센터가 2014년 3월 21일 '창조경제 실현을 위한 2013 빅데이터 국내 사례집'을 발간했다고 밝혔습니다. 이 사례집은 공공 및 민간에서 빅데이터 서비스를 기획 및 발굴시 참조하도록 돕기 위해 글로벌 선진사례를 비롯해 공공 및 민간에서 시행한 30여개의 국내 빅데이터 관련 사업의 주요 사례를 수록하였습니다. 주요 사례로는 소상공인을 위한 상권분석 및 점포평가 서비스와 기상 빅데이터 분석을 통한 위험기상 예측 서비스, 통합형 재난-안전 정보 네트워크, 맞춤형 여행 컨설팅 서비스 등입니다. '2013 빅데이터 국내 사례집'은 빅데이터 전략센터 홈페이지(www.kbig.kr)와 빅데이터 국가전략포럼 홈페이지(www.bigdataforum.or.kr)를 통해 볼 수 있습니다.


2) 빅데이터에 대해 알기 쉽게 설명한 책들

- 니시우치 히로무 저, 빅데이터를 지배하는 통계의 힘 : 통계학이 최강의 학문이다

- 함유근, 채승병 저, 빅데이터 경영을 바꾸다 : 데이터는 답을 알고 있다


 

<출처 : 네이버 책>

 

 

 


※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다


 

신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

[통계청 기자단] 숫자 속 의미를 찾아라 : 빅데이터를 지배하는 통계의 힘



출처 : http://www.sketchpan.com


 점심 식사를 한 후 입가심이 필요할 때 아이스크림이나 커피를 마시길 바라는 A군과 A군의 친구들. 늘 그렇듯 공평한(?) 게임인 사다리 타기를 통해 한 사람이 디저트를 쏘는 내기를 합니다. 경제학과인 A군은 늘 꼭 먼저 선택을 합니다. 6번 혹은 1번. 다른 친구들은 공평한(?) 게임이니 아무 번호나 상관없이 선택을 합니다. 열 번을 디저트 내기를 하면서 한 번도 안 걸린 A군을 의아하게 여긴 친구들은 ‘Lucky Guy’라는 별명을 붙여주었는데요. 사실 A군은 통계학 수업을 들으면서 배운 사다리타기의 번호별 당첨 확률을 알고 당첨확률이 낮은 각 번호의 끝자리를 택했던 것 이었고 늘 디저트를 살 수 있는 영광(?)의 기회를 친구들에게 돌렸던 것이었죠.


 위의 예처럼 통계학은 실생활에서도 활용될 수 있으며 실생활 뿐 아니라 학문적인 분야에서도 통계학은 다양하게 활용할 수 있습니다. 하지만, 대부분의 사람들은 통계학은 어려운 학문, 수학적인 센스가 있어야 접근할 수 있는 학문이라 생각해 통계학적으로 문제가 있는 부분을 알아차리지 못하고 그냥 받아들일 때가 많습니다. 공평하다고 생각했던 게임이 사실 통계학적으로는 공평하지 못한 게임으로 판명되기도 하며 전문가가 제시한 통계해석이 알고 보면 엉터리일 때도 있습니다. 



 이처럼 통계학을 어렵게 생각하는 사람들에게 통계의 중요성을 강조하고 통계학 전반을 이해하는 데 도움을 주기 위해 많은 책들이 발간되는데요. 그 중에서도 최근 ‘빅데이터’라는 용어가 화두가 되면서 데이터의 의미를 읽어내는 중요성이 필요하다고 생각해 <빅데이터를 지배하는 통계의 힘>을 읽어보았습니다. 구글 수석 경제학자인 할 배리언은 “I keep saying the sexy job in the next ten years will be statisticians”이라고 말할 정도로 통계학의 중요성을 강조하였는데요. 빅데이터 시대를 맞이하는 우리에게 있어 이 책은 어떤 내용을 담고 있는지 한번 알아볼까요?


 1. 데이터가 넘쳐나는 시대를 살아가는 방법론 제시

 ‘정보의 홍수’라는 말을 한 번쯤은 들어본 적이 있을 겁니다. 정보혁명이라는 신조어가 생겨날 만큼 인터넷이 발달하면서 다양한 정보가 생겨나고 있는데요. 홍수처럼 쏟아지는 무수히 많은 정보를 예전에는 감당하기 벅차 유익한 정보만 취합하자는 시각이 일반적이었습니다. 하지만 이제는 무수히 많은 데이터를 가려내지 않고 모두 저장해 다양한 산업에서 데이터를 활용하고 있습니다. 바로 빅데이터의 시대가 도래 한 것이지요.


출처 : http://zton.livejournal.com


 세계에서 가장 많은 데이터를 확보하고 있다는 구글 데이터 센터를 따로 건립할 정도로 데이터를 모으고 있습니다. 의미 있는 데이터만 모으는 것이 낫지 않을까라는 시선에 아랑곳하지 않고 수많은 데이터를 모아 알고리즘을 형성해 검색엔진 1위를 차지하였고 아직은 완성도가 떨어지지만 전 세계 각국의 언어 데이터를 모아 세계에서 가장 정확도가 높은 구글 번역을 제공하고 있습니다. 최근에는 음성 데이터를 모아 음성 번역까지 확장한다고 하니 데이터가 얼마나 중요시 여기는지 알 수 있습니다.


 하지만, 개개인들에게 있어 무작위한 데이터의 나열은 의미가 없습니다. 데이터 간의 의미를 파악하고 올바른 정보를 정확하게 파악하는 분별력이 중요합니다. 이러한 점에서 이 책은 빅데이터 시대에 실제로 응용 가능한 방법을 제시하고 통계의 중요성을 일깨워 줍니다. 실 사례를 토대로 일반적으로 통계를 잘못 해석하는 것과 올바르게 해석하는 것을 비교 설명해 일반인이 쉽게 이해할 수 있도록 설명하고 있는데요. 특히, 이 책이 제시하는 통계학적 방법론은 데이터의 의미를 파악하고 올바른 통계와 그렇지 못한 통계를 분별할 수 있는 방법을 제시합니다. 과학적이고 객관적인 통계를 통해 주관적이고 편향적인 의사를 지양하도록 돕는 것이죠.


 2. 통계학의 여러 가지 구체적인 기법 제시

 사실 경제학을 전공하면서 기초적인 통계학을 배웠지만 책을 읽어나가는 중간 중간에 쉽게 이해가 되지 않는 부분도 있었습니다. 통계학을 배우지 않은 일반인들에게는 더욱 생소할 수 있을 수도 있는데요. 각각의 단어의 의미를 따로 용어정리를 통해 알려주고 있지만 생각을 해보면서 읽어야할 부분도 있습니다. 왜냐하면 쉽고 단순한 통계방법만 알려주는 것이 아닌 통계학의 여러 가지 구체적인 기법에 대해서 다루고 있기 때문입니다. 다양한 통계 기법을 통해 통계를 더 포괄적으로 이해시키고자 하는 저자의 의도가 느껴지지만 다소 어렵게 느껴지는 건 사실입니다. 하지만, 학문적으로 다 이해하려고 하기 보다는 직관적인 의미로만 이해하면서 서서히 익혀나가신다면 다양한 통계기법을 통해 데이터를 해석할 수 있는 능력을 서서히 체득 할 수 있을 겁니다. 


 인터넷 검색은 누구나 할 수 있는 시대입니다. 일반적인 자료라면 문제가 되지 않겠지만, 다양한 숫자가 나타나 있는 그래프와 표로 나타난 자료는 자료에 대한 올바른 해석을 필요로 합니다. 단순한 자료 해석보다 숫자가 함의하고 있는 것을 올바르게 파악할 때 정보의 홍수 속에서 올바른 정보가 그렇지 못한 정보를 분별할 수 있는데요. <빅데이터를 지배하는 통계의 힘>은 바로 그러한 분별력을 키워주는 책이라고 할 수 있습니다. 운동경기를 이해하기 위해선 운동 경기의 룰에 대한 전반적인 지식을 갖추고 있어야 하듯이 데이터가 범람하는 시대에선 데이터를 올바르게 해석할 수 있는 통계를 이해하고 있어야 한다고 할 수 있습니다. 빅데이터 시대, 최강의 무기 통계학으로 무장할 준비 되셨나요?



※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다

저작자 표시
신고
트랙백 TRACKBACK :1 개, 댓글 COMMENT :0 개가 달렸습니다.

티스토리 툴바