hot topic


미국의 하버드 비즈니스 리뷰 21세기의 가장 섹시한 직업으로 Data Scientist를 뽑았습니다. 포브스 미래 최고의 직업으로 뽑은 바 있는 Data Scientist,우리나라 또한 '데이터 과학자'라는 국가공인 자격증을 검토하며 新 직종으로 떠오르고 있는 있는데요, 과연 이들은 누구이며 무슨 일을 하는 사람들일까요?  이번 기사에서는 통계와 데이터를 자유자재로 다루고, 새로운 세상을 창조하고 있는 데이터 사이언티스트를 살펴보는 자리를 가져보겠습니다!




출처 : Havard Business Review

 

데이터 사이언티스트 = 통계 + 컴퓨터 + 통찰력


데이터 사이언티스트컴퓨터 공학수학적 지식을 동원해 수많은 데이터 속에서 가치를 발견하여 의사 결정 지원하는 사람을 일컫습니다. 이전의 데이터 분석가가 단순히 과거의 정보를 분석, 확률을 제시하는 역할이었다면, 데이터 사이언티스트는 보다 종합적인 분석과 통찰력으로 새로운 가치를 창출해내는 역할 합니다.

한편, 데이터 사이언티스트가 하는 것처럼 데이터에서 숨겨진 패턴과 의미를 찾아내는 것은 ‘데이터마이닝’이라고 부릅니다. 이는 ‘data’와 채굴을 뜻하는 ‘mining’의 합성어로, 광석에서 금을 캐내듯, 데이터에서도 의미를 추출할 수 있다는 것을 나타냅니다.

 


Data Scientist는 데이터 분석 능력 뿐만 아니라 다양한 통찰력까지 요구됩니다


인터넷의 발달로 인류가 축적하는 데이터는 기하급수적으로 늘어났습니다. IBM에 따르면 날마다 전 세계에 25억 기가바이트의 데이터가 쏟아져 나오는데, 이게 얼마나 많은 양인지 짐작이 가시나요? 이는 2년간 생성되는 데이터 양이 인류 탄생부터 2년 전까지 생성된 데이터 양과 비슷할 정도의 수준이랍니다! 그러다보니 이를 전문적으로 다룰 사람이 필요할 수밖에 없었고, 데이터 사이언티스트에 대한 수요는 점차 늘어났습니다. 맥킨지 보고서는 2008년에는 데이터 사이언티스트에 대한 공급이 수요보다 3만명이 많았지만 2018년에는 수요가 공급을 초과하여 14만명 이상의 공급 부족 있을 것으로 내다봤습니다. 이는 데이터 사이언티스트가 되기 위해서는 석사 수준 이상의 통계 실력, 프로그래밍 실력과 각종 산업에 대한 통찰력까지 요구되기 때문입니다. 더불어 협업이 필수적인 영역인 만큼 다양한 사람들과의 커뮤니케이션 스킬까지 필수요건으로 여겨지기도 합니다.


데이터 사이언티스트 공급, 수요 현황 및 예측
출처 : 맥킨지 보고서

 

데이터마이닝의 사례


그럼 데이터 사이언티스트는 어떤 일을 하고 있을까요? 최근 빅데이터가 유행처럼 번지면서 각종 뉴스에서 데이터마이닝이 만들어내는 다양한 사례들을 쉽게 볼 수 있습니다. 특히 일반 시민들에게도 많이 알려진 사례로 서울의 심야버스 노선이 있습니다. 서울시는 심야 택시 승하차 500만 데이터와 KT의 30억건의 통화량 데이터를 결합, 심야시간 유동인구를 파악하여 효율적인 심야버스 노선을 짤 수 있었습니다. 그냥 짐작으로 만들었을 듯한 버스 노선에도 수많은 데이터 분석이 숨겨져 있다니 참 신기하지 않나요?

이외에도 주변에서 쉽게 볼 수 있는 예는 페이스북의 사진 태그 기술 있답니다. 페이스북에 사진을 올릴 때 저절로 얼굴을 인식하고, 심지어 이름까지 맞추어내는 것을 본 적이 있으신가요? 간단해 보이는 이 기술은 cctv만으로 누군지 알아맞추던 영화 장면을 떠오르게 합니다. 이것이 가능하기 위해선 사진을 올린 사람의 모든 친구목록과 사진목록을 뒤져내고, 사진을 픽셀단위로 비교해 사람을 맞춰내야만 합니다. 친구가 200명, 각 친구마다 사진이 10개라면 2000개의 사진을 가져다가, 또다시 사진을 미세단위로 쪼개 분석해야 하니 생각보다 훨씬 어려운 기술이겠죠?

이처럼 많은 지자체나 기업들은 데이터를 활용해 서비스를 개선하고, 이익을 창출하기 위해 연구를 하고 있습니다. 우리가 인터넷 서핑을 하면서 보는 광고들도 사실은 저희가 방문했던 페이지 분석을 통해 나온 것일 때도 많답니다.

 


페이스북은 사진을 올리면 사람 얼굴의 위치를 잡아내고, 몇 명은 이름까지도 맞춰냅니다


직접 해보는 데이터마이닝


데이터마이닝을 직접 보여드리기 위해, 지금 방문하고 계신 통계청 블로그 분석해 보았습니다. 지난달에 제가 기사를 처음 쓰려고 하니 이전 기자분들은 무슨 글을 썼는지가 궁금했습니다. 그래서 1,200여개의 기사 제목을 추출하여 어떤 단어가 주로 쓰였는지를 확인해볼 수 있었는데요, 그 결과를 보여드리도록 하겠습니다!

우선 10번 이상 나온 단어들을 추출해보자 왼쪽 아래처럼 많은 단어들이 나타났습니다. 통계청 블로그이므로 통계가 가장 많이 나온 단어인건 당연하겠죠? 여기서 저는 글들의 소재가 궁금했기 때문에 ‘통계청’, ‘블로그’와 같은 단어들은 제외시켜보았습니다. 그렇게 오른쪽과 같은 워드클라우드를 그려내어, 지난 6년간 통계청 블로그에 주로 어떤 글이 올라왔는지를 확인할 수 있었답니다


통계 소프트웨어인 R을 이용해 만든 워드클라우드

통계청 글이면 주로 이론적인 글이 많을 것 같지만 오히려 ‘사랑’, ‘행복’처럼 부드러운 글이 더 많은 것 같죠? 저는 이러한 분석을 통해 굳이 딱딱한 소재보다는 사람들이 다가가기 쉽고 재밌는 글을 써야겠다고 생각할 수 있었답니다.

좀 더 심화적으로 나가면 어떤 단어들이 함께 쓰이고 있었는지를 확인하여, 아래 그림처럼 단어들 간의 관계를 나타내는 네트워크도를 확인할 수 있답니다. 저는 지금 보여드린 워드클라우드네트워크도를 무척 자주 그리는 편입니다. SNS에서부터 시작해서 자기소개서까지 이를 활용해보면 누가 어떤 글을 자주 올리고 무엇을 좋아하는지, 심지어 그 사람의 취향까지도 짐작해볼 수 있습니다. 이처럼 데이터마이닝은 방향만 잘 설정한다면 평소에는 알지 못했던 사실을 객관적인 데이터를 이용해 드러내도록 할 수 있답니다


네트워크도를 이용하면 어떤 단어가 함께 쓰이고 있는지 알 수 있습니다

 

데이터 사이언티스트가 되려면?


데이터 사이언티스트는 상당히 넓은 의미를 가지고 있습니다. 데이터를 얼마나 기술적으로 다룰 것인지, 응용에 무게를 둘 것인지, 다양한 학문과의 융합에 치중할 것인지 등 다양한 길을 갖고 있습니다. 보통 대학교에서는 컴퓨터공학과, 통계학과, 산업공학과가 주로 이 분야를 다루고 있으며, 각 과가 나아가는 방향은 조금씩 다릅니다. 하지만 분명한 건, 데이터 사이언티스트까지 가는 길이 쉽지 않은 길이란 겁니다. 계속 진화하는 학문이며 다양한 학문이 융합돼야만 하기에 지속적인 학습이 필수적입니다. 게다가 데이터마이닝의 본질은 데이터 자체이기에, 너무 수치에 집중하게 되면 데이터의 근본을 놓쳐버리는 우를 범하기도 합니다. 즉, 나무를 깊게 들여다보면서 동시에 숲을 고려할 수 있어야 한다는 말입니다. 분명 어려워 보이는 일이지만 한편으로는 무척 재밌어 보이지 않나요?

최근 대중들을 대상으로도 데이터마이닝에 대해 쉽게 설명하는 책이 많이 나오고 있습니다. 또한 통계 소프트웨어인 R은 타 프로그래밍 언어보다 쉽게 접근할 수 있기도 합니다. 블로그에 검색만 해도 많은 정보들이 나오니 관심만 가지면 얼마든지 데이터마이닝을 접하고 데이터 사이언티스트의 꿈을 키워나갈 수 있습니다. 하지만 무엇보다도 중요한건, 지금의 생활, 그리고 주변 환경에서 어떤 데이터를 추출할 수 있고 어떻게 이용하면 더 나은 방식이 될지 고민하는 사고방식입니다. 이러한 노력과 지속적인 학습을 해낼 수 있다면, 분명 그 누구보다 섹시한 직업을 가질 수 있을 것입니다.

 

 

※ 본 글은 '통계청블로그기자단'의 기사로 통계청의 공식입장과 관계가 없습니다.

신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :1 개가 달렸습니다.

통계청장이 말하는 대한민국 통계청 이야기!


통계청이 하는 일은 어렵고 고리타분하다고 느낄 수 있겠지만 사실은 그렇지 않습니다!


여러분의 실생활과 매우 밀접한 통계를 만들어내는 전문기관이 바로 통계청이거든요^_^ 


정말 그러냐고요? 박형수 통계청장님이 직접 여러분께 대한민국 통계청을 소개합니다~!!










신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

티스토리 툴바