hot topic


미국의 하버드 비즈니스 리뷰 21세기의 가장 섹시한 직업으로 Data Scientist를 뽑았습니다. 포브스 미래 최고의 직업으로 뽑은 바 있는 Data Scientist,우리나라 또한 '데이터 과학자'라는 국가공인 자격증을 검토하며 新 직종으로 떠오르고 있는 있는데요, 과연 이들은 누구이며 무슨 일을 하는 사람들일까요?  이번 기사에서는 통계와 데이터를 자유자재로 다루고, 새로운 세상을 창조하고 있는 데이터 사이언티스트를 살펴보는 자리를 가져보겠습니다!




출처 : Havard Business Review

 

데이터 사이언티스트 = 통계 + 컴퓨터 + 통찰력


데이터 사이언티스트컴퓨터 공학수학적 지식을 동원해 수많은 데이터 속에서 가치를 발견하여 의사 결정 지원하는 사람을 일컫습니다. 이전의 데이터 분석가가 단순히 과거의 정보를 분석, 확률을 제시하는 역할이었다면, 데이터 사이언티스트는 보다 종합적인 분석과 통찰력으로 새로운 가치를 창출해내는 역할 합니다.

한편, 데이터 사이언티스트가 하는 것처럼 데이터에서 숨겨진 패턴과 의미를 찾아내는 것은 ‘데이터마이닝’이라고 부릅니다. 이는 ‘data’와 채굴을 뜻하는 ‘mining’의 합성어로, 광석에서 금을 캐내듯, 데이터에서도 의미를 추출할 수 있다는 것을 나타냅니다.

 


Data Scientist는 데이터 분석 능력 뿐만 아니라 다양한 통찰력까지 요구됩니다


인터넷의 발달로 인류가 축적하는 데이터는 기하급수적으로 늘어났습니다. IBM에 따르면 날마다 전 세계에 25억 기가바이트의 데이터가 쏟아져 나오는데, 이게 얼마나 많은 양인지 짐작이 가시나요? 이는 2년간 생성되는 데이터 양이 인류 탄생부터 2년 전까지 생성된 데이터 양과 비슷할 정도의 수준이랍니다! 그러다보니 이를 전문적으로 다룰 사람이 필요할 수밖에 없었고, 데이터 사이언티스트에 대한 수요는 점차 늘어났습니다. 맥킨지 보고서는 2008년에는 데이터 사이언티스트에 대한 공급이 수요보다 3만명이 많았지만 2018년에는 수요가 공급을 초과하여 14만명 이상의 공급 부족 있을 것으로 내다봤습니다. 이는 데이터 사이언티스트가 되기 위해서는 석사 수준 이상의 통계 실력, 프로그래밍 실력과 각종 산업에 대한 통찰력까지 요구되기 때문입니다. 더불어 협업이 필수적인 영역인 만큼 다양한 사람들과의 커뮤니케이션 스킬까지 필수요건으로 여겨지기도 합니다.


데이터 사이언티스트 공급, 수요 현황 및 예측
출처 : 맥킨지 보고서

 

데이터마이닝의 사례


그럼 데이터 사이언티스트는 어떤 일을 하고 있을까요? 최근 빅데이터가 유행처럼 번지면서 각종 뉴스에서 데이터마이닝이 만들어내는 다양한 사례들을 쉽게 볼 수 있습니다. 특히 일반 시민들에게도 많이 알려진 사례로 서울의 심야버스 노선이 있습니다. 서울시는 심야 택시 승하차 500만 데이터와 KT의 30억건의 통화량 데이터를 결합, 심야시간 유동인구를 파악하여 효율적인 심야버스 노선을 짤 수 있었습니다. 그냥 짐작으로 만들었을 듯한 버스 노선에도 수많은 데이터 분석이 숨겨져 있다니 참 신기하지 않나요?

이외에도 주변에서 쉽게 볼 수 있는 예는 페이스북의 사진 태그 기술 있답니다. 페이스북에 사진을 올릴 때 저절로 얼굴을 인식하고, 심지어 이름까지 맞추어내는 것을 본 적이 있으신가요? 간단해 보이는 이 기술은 cctv만으로 누군지 알아맞추던 영화 장면을 떠오르게 합니다. 이것이 가능하기 위해선 사진을 올린 사람의 모든 친구목록과 사진목록을 뒤져내고, 사진을 픽셀단위로 비교해 사람을 맞춰내야만 합니다. 친구가 200명, 각 친구마다 사진이 10개라면 2000개의 사진을 가져다가, 또다시 사진을 미세단위로 쪼개 분석해야 하니 생각보다 훨씬 어려운 기술이겠죠?

이처럼 많은 지자체나 기업들은 데이터를 활용해 서비스를 개선하고, 이익을 창출하기 위해 연구를 하고 있습니다. 우리가 인터넷 서핑을 하면서 보는 광고들도 사실은 저희가 방문했던 페이지 분석을 통해 나온 것일 때도 많답니다.

 


페이스북은 사진을 올리면 사람 얼굴의 위치를 잡아내고, 몇 명은 이름까지도 맞춰냅니다


직접 해보는 데이터마이닝


데이터마이닝을 직접 보여드리기 위해, 지금 방문하고 계신 통계청 블로그 분석해 보았습니다. 지난달에 제가 기사를 처음 쓰려고 하니 이전 기자분들은 무슨 글을 썼는지가 궁금했습니다. 그래서 1,200여개의 기사 제목을 추출하여 어떤 단어가 주로 쓰였는지를 확인해볼 수 있었는데요, 그 결과를 보여드리도록 하겠습니다!

우선 10번 이상 나온 단어들을 추출해보자 왼쪽 아래처럼 많은 단어들이 나타났습니다. 통계청 블로그이므로 통계가 가장 많이 나온 단어인건 당연하겠죠? 여기서 저는 글들의 소재가 궁금했기 때문에 ‘통계청’, ‘블로그’와 같은 단어들은 제외시켜보았습니다. 그렇게 오른쪽과 같은 워드클라우드를 그려내어, 지난 6년간 통계청 블로그에 주로 어떤 글이 올라왔는지를 확인할 수 있었답니다


통계 소프트웨어인 R을 이용해 만든 워드클라우드

통계청 글이면 주로 이론적인 글이 많을 것 같지만 오히려 ‘사랑’, ‘행복’처럼 부드러운 글이 더 많은 것 같죠? 저는 이러한 분석을 통해 굳이 딱딱한 소재보다는 사람들이 다가가기 쉽고 재밌는 글을 써야겠다고 생각할 수 있었답니다.

좀 더 심화적으로 나가면 어떤 단어들이 함께 쓰이고 있었는지를 확인하여, 아래 그림처럼 단어들 간의 관계를 나타내는 네트워크도를 확인할 수 있답니다. 저는 지금 보여드린 워드클라우드네트워크도를 무척 자주 그리는 편입니다. SNS에서부터 시작해서 자기소개서까지 이를 활용해보면 누가 어떤 글을 자주 올리고 무엇을 좋아하는지, 심지어 그 사람의 취향까지도 짐작해볼 수 있습니다. 이처럼 데이터마이닝은 방향만 잘 설정한다면 평소에는 알지 못했던 사실을 객관적인 데이터를 이용해 드러내도록 할 수 있답니다


네트워크도를 이용하면 어떤 단어가 함께 쓰이고 있는지 알 수 있습니다

 

데이터 사이언티스트가 되려면?


데이터 사이언티스트는 상당히 넓은 의미를 가지고 있습니다. 데이터를 얼마나 기술적으로 다룰 것인지, 응용에 무게를 둘 것인지, 다양한 학문과의 융합에 치중할 것인지 등 다양한 길을 갖고 있습니다. 보통 대학교에서는 컴퓨터공학과, 통계학과, 산업공학과가 주로 이 분야를 다루고 있으며, 각 과가 나아가는 방향은 조금씩 다릅니다. 하지만 분명한 건, 데이터 사이언티스트까지 가는 길이 쉽지 않은 길이란 겁니다. 계속 진화하는 학문이며 다양한 학문이 융합돼야만 하기에 지속적인 학습이 필수적입니다. 게다가 데이터마이닝의 본질은 데이터 자체이기에, 너무 수치에 집중하게 되면 데이터의 근본을 놓쳐버리는 우를 범하기도 합니다. 즉, 나무를 깊게 들여다보면서 동시에 숲을 고려할 수 있어야 한다는 말입니다. 분명 어려워 보이는 일이지만 한편으로는 무척 재밌어 보이지 않나요?

최근 대중들을 대상으로도 데이터마이닝에 대해 쉽게 설명하는 책이 많이 나오고 있습니다. 또한 통계 소프트웨어인 R은 타 프로그래밍 언어보다 쉽게 접근할 수 있기도 합니다. 블로그에 검색만 해도 많은 정보들이 나오니 관심만 가지면 얼마든지 데이터마이닝을 접하고 데이터 사이언티스트의 꿈을 키워나갈 수 있습니다. 하지만 무엇보다도 중요한건, 지금의 생활, 그리고 주변 환경에서 어떤 데이터를 추출할 수 있고 어떻게 이용하면 더 나은 방식이 될지 고민하는 사고방식입니다. 이러한 노력과 지속적인 학습을 해낼 수 있다면, 분명 그 누구보다 섹시한 직업을 가질 수 있을 것입니다.

 

 

※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다.

신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :1 개가 달렸습니다.

- 미래를 여는 열쇠, 빅데이터



▶ 기계가 인간을 지배하다


'노모포비아', '이딕션', '자연결핍장애', '크랙베리', '쿼터리즘', '팝콘브레인', '디지털 단식', '디지털 치매', '스마느폰 노안', '트통령', '엄지족', '디지털 코쿤족', '미포머족', '스마트폰 과부(홀아비)'라는 단어들에 대해 들어본 적이 있나요? 이 단어들은 스마트폰 중독의 심각성이 대두되면서 함께 등장한 신조어들인데요. 최근에 얼마나 스마트폰이 우리의 일상생활에 영향을 미치고 있는지 알 수 있습니다.


한국정보화진흥원의 '2012년 인터넷중독 실태조사보고서'에 따르면, 2012년 스마트폰 중독률은 11.1%로 전년(8.4%) 대비 2.7%p가 증가하였고, 특히 청소년 스마트폰 중독률은 18.4%로 전년(11.4%) 대비 7.0%p 증가하여 성인(9.1%)의 2배 수준에 이른다고 하는데요.



<출처 : 2012년 인터넷중독 실태조사, 한국정보화진흥원>


우리는 아침에 스마트폰 알람소리로 하루를 시작하고, 등굣길이나 출근길에 스마트폰을 통해 뉴스나 날씨 등을 확인하죠. 점심이나 저녁을 먹을 때 각종 어플들을 통해 맛집을 검색하기도 하고, 심지어 사람들과의 모임에서도 모두 스마트폰만 바라볼 때도 있는데요. 이처럼 우리는 온종일 스마트폰과 함께 하면서 엄청난 양의 정보를 접하게 됩니다. 하지만, SNS를 통해 유용한 정보들이 유통되더라도 인간이 그것을 활용하는 방법을 몰라서 가치를 찾아내지 못한다면 우리는 그것이 중요한 정보인 줄도 모른채 흘려보낼 것입니다.


아인슈타인은 다음과 같이 예언했다고 합니다. "과학기술이 인간 사이의 소통을 뛰어넘을 날이 두렵다. 세상은 바보천치들의 세대가 될 것이다."



<출처 : 온라인 커뮤니티>


또한, 한 온라인 커뮤니티 게시판에는 '지구 멸망 2초 전'이라는 제목으로 다음과 같은 사진이 게재되었습니다. 지구가 멸망하고 있는 와중에 사람들이 스마트폰으로 인증샷을 찍고 있는 모습입니다. 아인슈타인의 예언이 적중하는 것같아 씁쓸한 기분이 드네요. 



<출처 : 온라인 커뮤니티>


그렇다면, 인간이 기술을 지배하기 위한 방법은 무엇일까요? 2012년에 '빅데이터'라는 단어가 처음 등장한 이후로, 최근에 들어 점점 '빅데이터'에 대한 중요성이 강조되고 있습니다.



▶ 빅데이터란 무엇인가


빅데이터란, 데이터의 생성·양·주기·형식 등이 기존 데이터에 비해 너무 크기 때문에, 종래의 방법으로는 수집·저장·검색·분석이 어려운 방대한 데이터를 말합니다. 빅데이터는 인터넷과 SNS의 발달로 데이터의 양이 급격하게 증가하면서 나타났습니다. 빅데이터는 빠른 생성 속도(Velocity), 초대용량의 데이터 양(Volume), 다양한 형태(Variety)라는 뜻에서 3V라고도 불리며, 네 번째 특징으로 가치(Value)를 더해 4V라고 정의하기도 합니다. 빅데이터의 대부분은 비정형적인 텍스트와 이미지 등으로 이루어져 있고, 이러한 데이터들은 시간이 지나면서 매우 빠르게 전파하며 변함에 따라 그 전체를 파악하고 일정한 패턴을 발견하기가 어렵기 때문에 가치(Valu)의 중요성이 강조되고 있습니다.



▶ 빅데이터의 장점과 단점


1) 빅데이터의 장점

첫째, 의사결정의 정확도를 높일 수 있습니다. 기족에 기록된 빅데이터를 분석하여 주관적인 의사결정이 아닌 객관적인 의사결정을 함에 따라 오류로 인해 발생할 수 있는 손실들을 사전에 예방할 수 있습니다.

둘째, 가까운 미래를 예측하고 새로운 기회를 창출할 수 있습니다. 통계적인 분석방법을 이용하여 빅데이터를 활용한다면 과거의 데이터뿐만 아니라 현재의 데이터도 빠르게 분석할 수 있습니다. 예를 들면, 마트에서 시간대별 소비자들의 행동 패턴에 대한 데이터를 바탕으로 이를 분석하여 앞으로의 소비자들의 행동 패턴에 대해서 예측할 수 있습니다.

셋째, 고객에 관한 통찰력을 향상시킬 수 있습니다. 잠재적인 소비자나 특정 집단의 생각을 실시간으로 파악할 수 있으므로 다양하고 빠르게 변화하는 고객의 의도를 정확히 이해할 수 있습니다. 따라서, 빅데이터를 활용한다면 고객의 니즈에 맞는, 보다 정확도 높은 서비스를 제공할 수 있겠죠.


2) 빅데이터의 단점

SNS에 올린 글이나 사진, 인터넷 사용기록 등이 모두 데이터베이스에 남으므로 사생활 침해문제가 있습니다. 



▶ 빅데이터 시장의 현황 및 전망


한국과학기술정보연구원(KISTI)이 올해 4월에 발표한 2015년~2020년 국내 빅데이터 시장 전망에 따르면, 국내 빅데이터 시장규모는 2015년 2억 6300만달러에서 2020년 8억 9380달러로 증가할 전망이다. 빅데이터의 중요성이 증가함에 따라 빅데이터와 관련된 신규일자리 창출도 기대되고 있는데요. 한국정보화진흥원(NIA)에 따르면, 국내 빅데이터 산업은 2013년부터 2017년까지 약 52만개의 추가 일자리를 발생시킬 것으로 예상된다고 합니다.

 

<출처 : (좌)빅데이터 관련 정책추진 연혁, 관계 부처, 

(우)2015년~2020년 국내 빅데이터 시장 전망, 한국과학기술정보연구원>


 

▶ 빅데이터 전문가, 데이터 사이언티스트


단순히 빅데이터를 가지고 있다고 좋은 것만은 아닙니다. 빅데이터를 활용해야 의미있는 정보가 되는 것이죠. 최근에 빅데이터가 화두가 되면서 데이터 사이언티스트에 대한 수요가 증가하고 있는데요. 그렇다면 데이터 사이언티스트는 어떠한 일을 하는 직업일까요? 빅데이터 전문가인 데이터 사이언티스트는 통계학, 컴퓨터과학, 머신러닝 등 기본적인 데이터 분석에 대한 이해뿐만 아니라 프로그래밍 실력과 특정 도메인에 대한 비즈니스 지식을 가지고 있는 사람을 말합니다.


대표적인 데이터 사이언티스트로 알려진 존 라우저 아마존 수석 엔지니어는 2011년 포브스 인터뷰인 '데이터사이언티스트란 무엇인가'라는 인터뷰에서 다음과 같이 말했다고 합니다.



▶ 빅데이터에 대해 더 자세히 알고싶다면


1) 2013 빅데이터 국내 사례집

미래창조과학부와 한국정보화진흥원(NIA)의 빅데이터 전략센터가 2014년 3월 21일 '창조경제 실현을 위한 2013 빅데이터 국내 사례집'을 발간했다고 밝혔습니다. 이 사례집은 공공 및 민간에서 빅데이터 서비스를 기획 및 발굴시 참조하도록 돕기 위해 글로벌 선진사례를 비롯해 공공 및 민간에서 시행한 30여개의 국내 빅데이터 관련 사업의 주요 사례를 수록하였습니다. 주요 사례로는 소상공인을 위한 상권분석 및 점포평가 서비스와 기상 빅데이터 분석을 통한 위험기상 예측 서비스, 통합형 재난-안전 정보 네트워크, 맞춤형 여행 컨설팅 서비스 등입니다. '2013 빅데이터 국내 사례집'은 빅데이터 전략센터 홈페이지(www.kbig.kr)와 빅데이터 국가전략포럼 홈페이지(www.bigdataforum.or.kr)를 통해 볼 수 있습니다.


2) 빅데이터에 대해 알기 쉽게 설명한 책들

- 니시우치 히로무 저, 빅데이터를 지배하는 통계의 힘 : 통계학이 최강의 학문이다

- 함유근, 채승병 저, 빅데이터 경영을 바꾸다 : 데이터는 답을 알고 있다


 

<출처 : 네이버 책>

 

 

 


※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다


 

신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

티스토리 툴바