3인 3색의 조화가 만들어낸 SAS 마이닝 챔피언십 우승팀

[caption id="attachment_2300" align="aligncenter" width="1024"]

왼쪽부터 중앙대 통계학과 박근우, 숙명여대 통계학과 손정은, 인하대 통계학과 오소은 학생[/caption]

"되도록이면 만나기 편한 곳에 사는 친구들이었으면 좋겠다고 생각이 들었어요. 물론 같은 과목을 배웠으면 했죠. 사이트에 올렸고 신청자들이 있길래 좀 선별을 해서 연락을 취하고 만났죠."


손정은 학생(숙명여대 통계학과 4학년)의 말을 듣고 나서 용기가 있는 건지 막무가내 정신인지 모르겠지만 젊음니까 해볼 수 있는 시도라는 생각이 들었다. 하지만 너무나 담담하게 이야기하는 모습에서는 20여년의 세대차이를 느끼지 않을 수 없었다. 저런 배포는 도대체 어디서 나온걸까?


도전하는 젊은 대학생들을 만날 때면 기자는 그 당시 왜 이런 재미난 도전을 생각지도 못했던걸까라고 자문해 본다. 물론 정신 팔린 일이 따로 있었지만.


이번에 만난 친구들은 지난 9월 말 열린 제 11회 SAS 마이닝 챔피언십 대회(www.sasmining.co.kr)에서 우승을 차지한 통계학도들이다. 두명의 당차고 풋풋한 미녀와 조용한 청년 한명. 박근우, 손정은, 오소은 학생이다. 이들은 학교도 다르고 이 대회가 열리기 전까지 일면식도 없던 사이다.


SAS코리아는 매년 이 대회를 개최해 왔고 올해로 11회를 맞이했다. 데이터 분석가, 미래 데이터 과학자를 선발하는 “SAS 마이닝 챔피언십” 행사는 전국 대학생과 대학원생 대상으로 한다. 모든 수상자들에게는 SAS코리아의 인턴십 선발 시 우선권과 함께 신입사원 채용 시 가산점이 부여된다.


올해 특징이라면 건강보험심사평가원(심평원)이 최근 화두가 되고 있는 공공 분야 데이터 개방과 관련해 데이터 세트 제공, 공모 주제 기획, 심사평가위원 참여 등으로 기획단계부터 공동으로 참여한 부분이다.


주제는



- 의료기관을 이용하는 환자의 명세서, 의료기간 속성 이용행태 등의 정보를 분석해 데이터 마이닝 방법이 적용된 예측 모형 개발 수행


- 진료과목을 고려한 의료기관의 진료비 청구 경향 사전 예측 및 이에 대한 적정성 평가


- 분석 수행 결과에 기반한 실제 활용방안까지 제안



올해는 빅데이터 관심에 힘입어 총 200개팀(600명)이 참가해, 1차 평가를 통해 7개팀을 선정했고, 이번 2차 PT(9월 26일)를 통해 최종 우승팀이 결정됐다.


앞서 밝힌대로 우승팀은 모두 다른 학교에 다니고 있고, 인터넷을 통해 팀이 꾸려졌다. 먼저 공개적으로 이 대회에 함께 하고 싶은 이를 찾은 건 숙명여대 손정은 학생이다. 그런데 재미있게도 오소은 인하대 학생도 손정은 학생처럼 비슷한 경험이 있었다. 11회 대회 이전에 같은 학교 같은 통계학과 친구들과 팀을 꾸려 도전해려고 시도했었던 것. 그런데 친구들끼리 하다보니 약속이 제대로 지켜지기도 쉽지 않았고 그러다보니 도전 자체를 할 수 없었다. 4학년 때 같이 해보려고 했지만 각자 목표로 하는 것들이 달라서 다시 팀을 구성하기는 불가능했다. 그래서 이번엔 정반대의 길을 선택했다. 하고 싶은 사람 중에 모르는 사람과 함께 과제에 도전해 보기로. 박근우 학생은 "잘하면 취업도 할 수 있을 것 같았습니다"라고 현실적인 동기도 숨기지 않았다.



7월 초 서로 첫인사를 나눠고 본격적인 작업은 7월 말부터 시작했다. 여름방학이 온다고 해서 모두가 방학이 아니다. 계절학기를 맞이하는 이들도 있다. 굳이 누군지 이자리에서는 밝히지 않겠다.  처음엔 중앙대에 모여서 스터디를 하려고 했지만 장소가 마땅치 않았다. 여학생들은 카페에서 일을 해도 잘 적응했지만 박 군은 그렇지 못했다. "쉽지 않았어요"라는 말만 했다.


우승을 했지만 도전의 이유는 서로 다르다. 오소은 학생은 "분석 관련해서 전문가에 대해 고민을 좀 하고 있어요. 정부나 공공기관, 기업들은 어떤 데이터를 가지고 있는 지 궁금했어요. 이번 도전을 통해서 심평원에서 하는 일도 알게되었습니다"라고 전했다.


손정은 학생은 "보험과 의료 정보에 대해서 이미 관심이 있었습니다. 보험료등을 산출하는 계리사 관련 시험도 준비했었고 한화생명에서 아르바이트를 하면서 실손보험 관련해 데이터를 가지고 분석하는 것도 봤습니다. 더 도전해보고 싶었던 이유도 관련 주제랑 밀접한 연관된 곳에서 참여하는 거라 더 해보고 싶었어요"라고 말했다.


박근우 군은 통계학과를 전공하고 있지만 컴퓨터 공학도 배우고 있다. 복수 전공자다. 요즘 시대에 딱 어울리는 인재라고 했더니 "정말인가요"라고 단답형으로 묻고 눈만 깜빡였다. ^.^


이해 관계로 모였지만 낯선 존재들과의 소통과 협력은 그리 만만한 일이 아니다. 역할은 전체적인 진행 방향이나 비즈니스 이해와 정리, 논문 찾기와 해석, 적용 사례, 모델링과 수식 계산과 프로그래밍, 발표 자료 수집 등으로 나눴지만 쉽지 않았다.


혹시 싸우지 않았느냐고 묻자 세명은 동시에 웃었다.


오소은 학생은 "발표 자료 만들 때가 최고조였죠. 아이디어를 공유한다고 했지만 서로 의사소통이 제대로 되지도 않는 것 같았어요.  대화하는 방식이 전혀 다르다보니 서로 오해가 쌓이고 서로 싫어하는 거 아니냐는 생각도 들었죠"라고 말했다. 소통이 잘 안되었던 대상은 누구였을까. 이것도 비밀이다. 그렇지만 생각해보라. 생판 처음 만난 친구들, 그것도 여자들과 대화가 아주 잘 되는 남자가 누가 있단 말인가?


손정은 학생은 "대화가 정말 중요하다고 생각이 들었어요. 장점도 있었어요. 같은 과 친구들과 함께 도전해보려고 했었을 때는 긴장감이 없었거든요. 친구니까요. 근데 전혀 모르는 친구들끼리 함께 모였으니 매순간이 살얼음판을 걷는 듯 했어요. 그렇게 일을 해 나갔죠"라고 웃으며 말했다. 지나간 기억은 추억이 된다. 상금까기 거머쥐었으니 좋은 추억이.



SAS코리아 측에 심사평에 대해서 물었다.


가장 큰 것은 역시 심평원 업무에 대한 높은 이해도와 관련 사업에 대해 지식도 풍부했다. 다른 팀들과 달리 단순한 데이터 분석뿐만 아니라 심평원의 비즈니스와 업계 정보에 대한 스터디를 많이 진행했고, 특히, 논문을 많이 보고 과제에 활용했으며, 실제 심평원에서 깜짝 놀랄 만큼 심평원 실제 업무 수준과 근접한 결과를 도출했다. 또 보건의료 서비스 활용 전략에 대한 고민이 많았던 만큼 현업에 바로 적용할 수 있는 정도로 완성도가 높았다고 한다.


또 개원 또는 폐원이 의료기관 청구 경향에 영향을 미칠 수 있다, 없다와 같이 모델링 기법도 우수했지만 데이터 속에서 숨겨진 가치를 발견하기 위해 ‘다양한 가설을 세우고 이를 검증하는 방식’으로 이야기를 전개했다는 점이 심사위원들에게 더욱 인상적이었다고.


다양한 국내외 논문을 인용하고 실제 심평원 자료를 조사해 가설을 세워 검증하는 방식이 통한 것 같았다고 오소은 학생은 웃었다.


멋진 도전 뒤에 얻은 우승과 부상으로 수여되는 상금은 도전을 더 의미있게 만든다. 오소은 학생은 "대학원 진학과 취직을 모두 고민하고 있어요. 아주 큰 경험이었어요. 정말 많은 걸 배웠죠. 진작에 이런 일을 해볼껄 하는 생각이 들어요. 인간적인 관계도 배우고 통계적인 지식도 배우구요. 해외 인턴도 해보고 싶고, 경험할 게 무척 많은 것 같습니다"라고 뿌듯해 했다.


두 동료를 끌어들인 손정은 학생은 "학과 교수님께서 이런 도전들을 많이 권장해 주셨어요. 통계적인 부분 이외에도 IT적인 요소도 공부해보라고 하셨구요. 툴도 중요하지만 산업 전반에 대한 이해도 무척 중요하다는 걸 다시 한번 깨달았어요. 학교 안에서는 의료봉사단, 점역 봉사단을 하고 대외 할동으로 한화생명, 알리안츠 서포터즈일을 했던 것들이 모두 도움이 되었습니다"라고 밝혔다. 저런 일을 다 하다니 정말 대단한 친구다.


홍일점 박근우 학생은 "우승하고 나니까 어머니가 가장 기뻐하셨어요. 처음 이야기할 때는 잘 모르시다가 우승하고 상금을 가져가니 방학 때 마다 도전하라고 기뻐하셨죠"라고 씩 웃었다.


학생들을 인터뷰 하고 나오면서 기자가 부러워 했던 건 도전 그 자체보다는 자기가 하고 싶은 일을 찾아 뭔가를 시도하는 그 모습이었다. 내가 정말 좋아하고 하고 싶은 게 무엇인지 찾는 데 아주 오래걸렸었던 장본인으로서 말이다. 연락처도 받았으니 올해가 가기전에 이 친구들과 가벼운 회포를 좀 풀어보고 싶다. 기사도 약속했던 것보다 너무 늦게 썼으니 말이다.