hot topic


올해도 어김없이 수많은 화제거리를 만들었던 가을야구! 정규리그 5연패를 달성한 삼성 라이온즈가 한국시리즈까지 5연패를 달성할지, '미라클' 두산 베어스가 왕좌를 탈환할지 초미의 관심사가 되었는데요. 5번의 접전에서 두산이 좋은 경기력을 보여주며 14년만에 한국시리즈 우승을 차지했습니다!

여러분은 두산이 한국시리즈에서 우승하리라 생각하셨나요? 전문가들은 통계적인 접근법을 활용하여 해당 경기의 키플레이어는 누구인지, 승부의 분수령이 어디서 나올지를 예측하곤 합니다! 그럼 지금부터 전문가들처럼 통계학을 활용한 스포츠의 세계에 대해 한번 알아보자구요~


    통계를 믿을 지어라, 세이버 매트릭스

주말에 있는 LG vs 두산의 경기를 친구와 같이 직접 관람하기 위해 예매해놓은 A군. 큰맘 먹고 가는 거 이왕이면 자기가 응원하는 팀인 LG가 이겼으면 좋겠는데, 요새 팀이 3연패 중이라 이번에도 질까봐 걱정됩니다. 이걸 취소해야해, 말아야해? 미리 결과를 알고 이기는 경기를 보러 갔으면 좋겠건만... 어디 결과를 예측할 수 잇는 방법 없을까? A군은 계속해서 고민을 하게 됩니다. 여러분이 A군이라면 어떤 결정을 내려야 할까요?

A군 뿐만 아니라 여러분들도 통계를 활용한다면 얼마든지 유의미한 예측을 해볼 수 있습니다! 세이버 매트릭스(Sabermatrics)라는 접근법이 있는데, 세이버 매트릭스란 시즌동안 누적된 기록들을 바탕으로 선수의 기량을 평가하는 통계기법을 의미합니다. 이 방법은 ‘머니볼’로도 유명한 미국의 빌리 빈이란 사람이 처음 도입하여, 만년 하위팀이었던 오클랜드 어슬레틱스를 매년 포스트시즌에 진출하는 강팀으로 변모시키면서 선풍적인 인기를 끌게 됩니다.


<사진 출처 - 네이버 영화>


역사가 그리 길지는 않지만, 세이버 매트릭스에는 타자의 출루율과 장타율의 합으로 이뤄진 OPS, 투수의 성적을 평가하는 방법 중 하나인 WHIP(이닝당 안타·볼넷 허용률) 등 여러 지표들이 있습니다. 최근에는 투수, 타자 가릴 것 없이 한 선수가 다른 선수들에 비해 팀의 승리에 얼마나 많이 기여했는지를 평가하는 WAR(Wins Above Replacement)이라는 수치를 가장 각광받는 지표로 뽑을 수 있는데요. 그동안 축적된 여러 기록들을 통해 통계치를 추론해내고, 이를 바탕으로 야구 경기의 승리팀을 예측할 수 있기 때문에 야구를 ‘통계의 스포츠’라고 부르기도 합니다.

 

 

    세이버 매트릭스를 활용한 선수 분석

세이버 매트릭스는 현재 미국 메이저리그 대다수의 구단이 선수의 영입/방출을 결정할 때 적극 활용되고 있으며, 일반 사람들에게도 공개되어 시즌마다 선수가 쌓은 스텟에 대한 평가를 내리는 데에도 쓰이고 있습니다.


<사진 출처 - www.baseball-reference.com>


그럼 올해 메이저리그에 진출한 강정호 선수의 시즌 기록을 같이 한번 살펴볼까요? 베이스볼레퍼런스 사이트 기준으로 강정호 선수의 2015시즌 WAR은 4.0으로, 강정호 선수 덕분에 피츠버그가 4승을 더 따냈다고 평가하고 있습니다. 메이저리그에서는 1승을 추가할 때마다 평균 600~700만 달러 정도의 가치를 더 벌수 있다고 알려져 있는데, 이번 시즌 강정호 선수의 연봉이 250만 달러로 알려져 있으니 몸값 이상의 활약을 해냈다고도 할 수 있겠군요!!

<사진 출처 - www.kbreport.com>


이처럼 세이버 매트릭스 기법들이 대중들에게도 널리 알려지면서 경기 결과를 예측하는 데에도 널리 사용되고 있습니다. KBReport라는 인터넷 사이트에서는 한국 프로야구가 처음 생긴 1982년부터 현재까지 모든 기록을 총망라하여 정리해놓았는데요. 선수 기록을 살펴보면 40-40 대기록을 달성하며 맹활약한 NC의 테임즈 선수, 올시즌 53개의 홈런을 기록하며 타점 1위에 등극한 박병호 선수 등 뛰어난 활약을 보여준 선수들이 WAR 순위의 상위권을 차지하고 있었습니다~

 

    두산의 우승을 아무도 예측 못했다? 세이버 메트릭스의 함정

세이버 메트릭스는 분명 통계치를 바탕으로 선수를 분석함으로써 객관적인 평가를 해볼 수 있는 좋은 수단입니다. 하지만 스포츠에는 예기치 못한 다양한 변수들이 도사리고 있었는데...!!

2015 프로야구 시즌이 시작되기 전부터 어느 팀이 우승할지 물어보면 단연 삼성이라는 의견이 압도적이었습니다. 불과 포스트 시즌이 시작하기 전만 해도 삼성이 한국시리즈도 우승할 것이라 내다보는 사람들이 많았고, 전문가들도 삼성의 독주를 막기란 어려운 일이라 설명했습니다. 하지만... 불의의 사건이 터져서 주전급 선수 몇몇이 나오지 못했으며, 그 결과 특별한 전력 누수가 없었던 두산이 우승을 차지할 수 있었습니다!

<사진 출처 - 네이버 뉴스>

 

실제로 많은 전문가들은 두산의 14년만의 한국시리즈 우승을 '미라클'이라 부르고 있습니다. 우승의 원동력으로 다양한 이유를 설명하지만, 가장 크게 작용했던 것은 삼성의 주전급 선수들의 결장 등 '운'이라고 한 입을 모아 이야기합니다. 심지어 두산 베어스의 김태형 감독조차 우승을 차지한 비결을 '운'이 좋았다고 하는데, 안타깝게도 이런 부분은 통계적으로도 예측이 불가능하겠죠. 즉 스포츠 세계에서 세이버 메트릭스를 필두로 한 통계적인 접근법은 완벽하지 않다는 말이죠..ㅠㅠ

 

 

    축구 역시 통계적인 예측이 불가능하다!

전세계에서 가장 인기가 많은 스포츠 종목인 축구의 경우는 어떨까요? 세계인의 축제 월드컵을 비롯하여 UEFA 챔피언스 리그, EURO 선수권 대회 등 널리 알려진 대회들이 많습니다~ 하지만 축구는 특히나 통계적인 수치로 접근하기가 힘든 스포츠로 널리 알려져 있습니다. 지금부터 왜 그런지를 같이 살펴볼까요? :D

여러분은 '미네이랑의 비극'이란 말을 들어보셨나요? 이 말은 에스타디우 미네이랑이란 축구장에서 펼쳐진 2014 브라질 월드컵 준결승전에서 홈팀 브라질이 전차군단 독일에게 1:7로 참패를 당한 경기에서 비롯되었습니다.

브라질 대표팀은 월드컵 통산 우승횟수 5회로 가장 많이 우승컵을 들어 올렸으며, 개최 전부터 강력한 우승후보로 꼽혔습니다. 독일과의 경기에서 스타플레이어 네이마르와 수비의 핵심 티아고 실바 선수가 각각 부상과 징계로 출전이 불가한 상태라 어려움이 예상되긴 했지만, 홈그라운드의 이점과 독일에게 역대 전적 12승 5무 4패로 압도적인 우위를 점하고 있었기에 어느 팀이 이길지 쉽게 예측할 수 없는 상황이었습니다. 도박꾼들의 예상도 별반 다르지 않았는데요. 대부분이 0:0 무승부 혹은 1점차 승부가 날것이라 예상했습니다.


<사진 출처 - www.sportstoto.co.kr>


하지만 경기 결과는 브라질 국민들을 충격에 빠트리기에 충분했습니다. 자국에서 열린 경기에서, 그것도 브라질 대표팀 월드컵 역사상 최다 점수차 패배라는 불명예스런 기록을 남기자 브라질 영토 각지에서는 소요사태와 폭력시비가 벌어지는 등 국가적인 혼란을 겪었습니다. 도박사들도 혼란에 빠지기는 마찬가지였는데요. 국내에서 발행되는 스포츠 토토에서 7:1이란 스코어를 맞춘 사람은 19,237배의 배당률을 챙길 수 있었습니다. 쉽게 말해서 100원을 투자하면 약 192만원을 챙길 수 있는 엄청난 배당률이었습니다!

이처럼 우리가 재미로 예상해보는 스포츠 경기의 결과는 때때로 모두의 예상을 빗나간 결과가 나오기도 하는데요. 최근 유로 예선에서는 브라질 월드컵에서 3위를 차지했던 '오렌지 군단' 네덜란드가 체코와 아이슬란드, 터키에 밀려 본선 진출에 실패하는 등 실망스러운 성적을 보여주었습니다(더구나 이 팀을 이끌었던 감독은 히딩크였다는 사실!). 이처럼 축구 경기에서 유독 충격적인 결과가 자주 일어나는 이유는 무엇일까요?

 

    도박사들도 오류를 범한다! 축구경기 예측 성공확률은 단 53%

축구에서도 세이버 매트릭스와 같은 통계적인 요소를 도입하려고 한 시도가 없었던 것은 아닙니다. 일부 축구 전문가들은 슈팅수 기록을 활용한 TSR(Total Shot Ratio) 수치나, 팀별 득점 및 실점에 대한 포아송 분포를 활용하여 과거의 경기들은 분석하고 미래의 경기 결과를 예측하곤 하는데요. 문제는 예측에 대한 신뢰도가 다른 종목들에 비해서도 굉장히 낮다는 점입니다.


위의 그래프는 2010/2011 시즌 스포츠 종목별로 도박사들이 이기리라 점찍은 팀이 실제 경기에서 승리할 확률을 조사한 데이터입니다. 다른 종목들은 승부 예측에 60% 이상의 확률로 성공한 반면 축구는 53%밖에 되지 않는 것을 확인할 수 있습니다.


종목별 배당률의 편차도 눈에 띕니다. 배당률이 1.0에 가깝다는 것은 그만큼 많은 사람들이 해당 팀의 전력이 우세하다고 느껴서 이길 확률을 더 높게 평가한다는 뜻입니다. 반대로 배당률이 크면 팀이 질 확률이 크다고 생각하는 것인데요. 핸드볼의 경우 강팀의 우세가 뚜렷해서 배당률의 중위수가 1.28인 반면, 축구는 배당률의 중위수가 1.95에 달했습니다. 다시 말해서 축구에서는 배당률의 편차가 굉장히 큰 편인데, 이는 도박사들도 축구 경기에서 강팀과 약팀이 맞붙는 경기라 하더라도 승패를 쉽게 예측하지 못한다는 뜻입니다.

왜 똑같은 스포츠면서 경기 예측에 대한 신뢰도는 크게 다른 것일까요? 축구는 야구보다도 ‘팀’으로서의 시너지 효과가 크게 작용합니다. 다시 말하면, 야구에서는 투수와 타자의 1:1 승부이기 때문에 다른 변수들이 영향을 덜미친다고 볼 수 있겠죠. 하지만 축구는 그라운드 내에서 11명의 선수들이 유기적으로 움직이면서 공을 주고받는 스포츠이기 때문에 그만큼 더 많은 변수가 작용하는 것입니다.

승패에 영향을 미치는 평균 득점수의 차이도 간과해서는 안됩니다. 축구에서는 한 경기당 평균 2~3골이 터지는데, 골이 다른 종목들에 비해 드물게 나오기 때문에 약팀이 강팀을 만나더라도 1골을 넣고 잘 버티면 이변을 낳을 확률이 커집니다. 이에 반해 핸드볼은 경기당 50~60점의 점수가 나오며, 야구의 경우에도 홈팀과 원정팀을 합하여 경기당 평균 10점 정도의 득점을 하므로 축구에 비해 강팀이 득점을 할 기회가 많이 생기게 되는 것이죠.


    스포츠는 스포츠일 뿐, 통계를 맹신하면 안된다

지금까지 스포츠 경기에서 통계학의 적용사례, 특히 야구와 축구를 중점적으로 살펴보았는데요. 야구에서는 통계를 바탕으로 한 세이버 메트릭스라는 접근법이 이미 대중화되었습니다. 축구에서도 통계 기법을 적용하기 위해 수차례 시도했으나, 아직까지 공신력 있는 통합적인 지표를 찾아내지 못한 실정이네요.ㅠㅠ

세이버 매트릭스는 분명 스포츠 경기의 결과를 예측하는 데 좋은 도구로써 활용되고 있습니다. 하지만 우리 모두 유념해야할 점은, 당장 내일 시합 때 누가 이길지는 아무도 모른다는 것! 스포츠 경기에는 항상 예측 불가능한 변수들이 도사리고 있고, 쉽사리 승부를 예측하지 못하기에 경기를 더 흥미진진하게 지켜볼 수 있는 것은 아닐까요~




   글은 '통계청블로그기자단' 기사로 통계청의 공식입장과 관계가 없습니다. 


신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.





4월 7일 개막한 프로야구. 10여 일 만에 벌써 60만 명이나 야구장을 찾을 정도로 대박행진을 이어나가고 있는데요. 그래선지 요즘 국내외를 안 가리고 대박난 야구영화가 많았던 거 같아요. 고 최동원 VS 선동열이란 한국야구 역사상 최고의 대결을 그린 ‘퍼펙트게임’뿐 아니라, 브래드 피트가 직접 내한하여 한국 팬들을 만났던 ‘머니볼’까지 여러 야구영화가 히트를 쳤었지요.
 
 
야구는 통계다. 브래드 피트의 '머니볼'
 
그중에서도 머니볼은 좀 특이한 영화였어요. 미국 메이저리그의 프로야구팀 올랜도 애틀레틱스의 빌리 빈 단장의 실화를 그린 작품이었는데요. 열혈, 노력, 땀과 눈물을 그린 여느 야구영화와는 달리, 과학적인 통계로 가득 찬 야구라는 스포츠를 그렸거든요. 만년 하위에 예산도 부족한 올랜도 애틀레틱스가 감에 의존한 낡은 방식을 혁파하고, OPS(쉽게 말해 출루율+장타율)라는 과학적 통계지표를 적극적으로 활용한 야구를 추구해 마침내 메이저리그 최다기록인 20연승을 달성한다는 내용이었습니다.
 


사용자 삽입 이미지


 
딱딱하고 연구실 안에서만 쓰일 것 같았던 통계가 가장 역동적인 인기 스포츠 야구의 대기록을 만드는데 결정적인 역할을 했던 거죠. 이처럼 역사 속에서 통계는 일상 전반에 걸쳐 큰 영향력을 끼치고 있습니다. 함께 몇몇 예를 좀 더 살펴보실까요?
 


멘델의 유전법칙에도 통계가?!
 
생물을 배운 사람이라면 모를 수가 없는 멘델의 유전법칙에도 통계가 쓰였다는 사실, 알고 계셨나요? 카톨릭 신부이자 식물학자였던 멘델은 자신이 정원에 기르면서 관찰하던 여러 완두를 서로 교배했습니다. 이 교배실험을 통해 멘델은 식물에서 눈으로 볼 수 있는 대립 형질이 변종과 그들의 자손에 계속 나타나는 것은 유전의 기본단위 때문이라는 이론을 세웠는데, 이 유전단위가 바로 유전자입니다. 실험결과에 대한 멘델의 해석은 사람을 포함한 생물 관찰을 통해 충분히 증명되었는데, 이는 유전단위가 간단한 통계법칙을 따른다는 것이었습니다. 멘델은 통계법칙을 통해 멘델의 제1법칙(분리의 법칙)을 발견했으며, 그가 뿌린 완두의 여러 변종들에서 이러한 원리를 통계적으로 검증해냈습니다.
 


 
사용자 삽입 이미지

▲유전학의 토대를 구축한 멘델 탄생 189주년을 기념하는 구글 로고, 완두콩 기호가 귀엽죠?
 


 
나이팅게일, 생명을 살리는 통계!
 
통계는 때론 죽음의 문턱에선 사람들의 생명을 구하기도 했습니다. 백의의 천사인 간호사의 효시 나이팅게일. 그녀는 영국 군대와 도시의 위생문제를 개선하기 위해 통계를 적극적으로 사용한 인물이기도 했답니다.


 
사용자 삽입 이미지


 


1854년 러시아와 연합국 간에 ‘크림전쟁’이 발발하여 많은 영국 군인이 부상과 질병으로 죽었습니다. 나이팅게일은 이 전쟁의 야전병원에서 간호활동을 했는데요. 당신에는 병원의 위생상태가 말이 아니었다고 하네요. 여기서부터 통계가 빛을 발하기 시작하는데요. 나이팅게일은 우선 야전병원의 위생을 개선하기 위해 숫자로 야전병원의 상황을 정확히 파악하는 노력부터 했다고 해요. 나이팅게일이 야전병원의 위생을 개선하기위해 숫자로 통계를 내기 전까지 아무도 크림전쟁에서 영국군 사망자 수를 제대로 알지 못했다죠. 동시에 입원, 부상, 질병, 사망 등의 통계 내역을 통일했습니다. 그리고 어려운 통계를 많은 사람들이 보기 쉽게 도표화하는 것도 잊지 않았어요. 그 결과, 이 개선사업을 시작한지 한 달만에 야전병원의 사망률이 급격하게 떨어졌습니다. 42%에 달하던 환자들의 사망률이 2%까지 떨어진 거죠. 이처럼 나이팅게일은 통계를 통해 깨끗한 위생이 사람을 살린다는 증거를 마련했고, 수도 없이 많은 사람들의 목숨을 구했습니다. 그녀는 1858년 영국왕립통계학회 최초의 여성 회원으로 선출된 명실상부한 통계학자입니다.
 
 
문학에까지 등장한 통계, 아이작 아시모프의 ‘파운데이션’
 
통계는 심지어 유명한 소설의 중요한 소재로 쓰이기도 했답니다. 세계 3대 SF 거장으로 일컬어지는 아이작 아시모프의 필생의 역작 ‘파운데이션’이 바로 그 작품인데요. 이 작품을 이해하기 위한 필수 요소인 역사심리학은 바로 통계수학과 집단심리학의 합이기 때문입니다. 주사위를 6번 던졌다고 1부터 6까지의 숫자가 한 번씩 나오는 게 아니듯, 보통 일상생활에서 확률과 통계가 맞지 않는 것처럼 보이기도 하는데요. 이건 그 표본수가 너무 적기 때문입니다. 하지만 그 표본수가 우주처럼 무한하다면 그때부터 통계는 통계가 아닌 예언이 됩니다. 주사위를 무한히 던지면 던질수록 1부터 6까지의 숫자는 각각 1/6이라는 동등한 확률에 무한히 가까워지는 거죠. 아이작 아시모프의 파운데이션은 바로 이 통계가 예언이 된 우주를 다루며 무한한 상상력을 사람들에게 책으로 선사했습니다. 


 
사용자 삽입 이미지





이처럼 스포츠에, 유전학, 간호 나아가 문학에 이르기까지 통계가 미치지 않는 영역이 없는데요. 이렇게 문과+이과적으로 실생활에 깊숙이 연관된 통계를 어떻게 하면 더 가깝게 느낄 수 있을까요? 뭐니뭐니해도 어렸을 때부터 꾸준히 접하는 게 최고 아닐까요? 통계청에서는 어린 청소년들에게 논리적이고 합리적인 사고를 키워주기 위해 매년 통계활용대회를 개최하고 있습니다. 2012년 올해도 어김없이 열리는 제14회 전국학생통계활용대회. 함께 살펴볼까요?^^
 
 
전국학생통계활용대회란?
 
통계청에서 개최하는 통계활용대회는 학생들의 합리적인 사고방식을 함양하고 통계적 지식을 증진시키고자 1998년부터 초등학생을 대상으로 시작된 대회입니다. 2002년부터는 중학생까지 그 대상이 확대되고 참여자수도 매년 늘어나는 등 그 관심이 확대되고 있어요. 이에 2012년 올해부터는 기존 시험 문제 풀이 방식에서 벗어나 창의력을 개발하고 탐구심과 커뮤니케이션 능력 배양을 목표로 한 통계 포스터 경진대회로 거듭나게 되었습니다.
 


 
[##_http://hinso.kr/owner/entry/1C%7Ccfile7.uf@2019A53D514C449E0FDFC8.jpg%7Cwidth=%22450%22%20height=%22615%22%20alt=%22%EC%82%AC%EC%9A%A9%EC%9E%90%20%EC%82%BD%EC%9E%85%20%EC%9D%B4%EB%AF%B8%EC%A7%80%22%7C_##]
 
2012년부터 새로 도입된 통계포스터는 하나 이상의 연관된 그래프를 사용해 자료를 요약하고, 여러 관점에서 문제에 접근하는 과정에서 문제의 해답을 찾고, 자료를 분석한 것을 시각적으로 보여주는 자료입니다. 기존 탐구보고서와 비숫하지만 문제해결과정에서 통계가 반드시 사용되어야 한다는 점과 여러 장이 아닌 커다란 종이 한 장에 만들어 주제(문제제기), 문제해결방법, 통계분석결과, 논의 사항, 결론 등의 논리적인 흐름을 따라가면서 한눈에 내용을 확인할 수 있도록 시각적으로 표현한다는 점이 다르죠. 통계포스터를 작성하는 방법과 예시는 공식 홈페이지를 참고해주세요.(☞통계포스터 작성방법 보러가기)






 ◆ 2012년 제14회 전국학생통계활용대회


신청서 접수 : 2012년 5월 7일~5월 18일
포스터 제출 : 2012년 7월 16일~7월 20일
시상식 : 2012년 9월 1일(통계의 날)
전국학생통계활용대회 공식 홈페이지 : 바로가기


 


통계가 우리의 생활을 개선시키는데 큰 힘을 발휘한다는 것을 알 수 있는 사례들을 살펴봤어요. 스포츠, 과학, 문학 등 정말 다양한 분야에서 활용되고 있는 통계! 이번 전국학생통계대회에도 많은 관심 가져주세요~



신고
트랙백 TRACKBACK :0 개, 댓글 COMMENT :0 개가 달렸습니다.

티스토리 툴바