[book&talk]"빅데이터는 거품이다"...왜?
중앙대 김동환 교수가 쓴 '빅데이터는 거품이다.' 제목이 너무 눈에 확 들어와서 읽게 된 책이다. 제목에서 볼 수 있듯 빅데이터 이슈에 대한 비판적인 시선이 책 여기저기에서 엿보인다. 거품을 조장하는 이들의 카르텔에 대해서도 저자는 직격탄을 날린다.
저자는 빅데이터의 가치 자체는 부정하지 않는다. 그러나 빅데이터로 미래를 예측하는 이슈가 부각되는 것에 대해서는 사기극에 가깝다고 주장한다. 저자의 주요 메시지를 정리해봤다.
어라..그런데 저자는 행정학 교수다. 행정학 교수가 빅데이터를 비판한다? 저자는 할말이 많다는 표정이다.
"많은 사회과학자들이 통계 프로그램 사용법을 익히고 그것을 자랑스러워할 때 필자는 통계 소프트웨어를 만들었다. 그러니 빅데이터 분석의 바탕이 되는 통계학에 문외한은 아닌 것이다."
저자의 비판은 빅데이터로 미래를 예측하는 것이 과도하게 부풀려져 있다는데 초점이 맞춰져 있다.
"불행인지 다행인지 모르겠지만 아직까지 빅데이터를 활용해서 범죄를 예방하거나 범죄 현장에서 범인을 검거했다는 이야기를 들어본 적이 없다. 우리 솔직히 말해보자. 범죄가 발생하고 있다고 주민이 신고를 해도, 경찰이 신고마다 일일이 대응하기 벅찬게 현실이다. 그런데 신고가 들어오지 않음에도 불구하고 위험한 상황이 발생할 가능성이 있다고 해서 경찰이 출동할 수 있겠는가? 출동해야 하는가? 답답한 이야기다."
재난 예측도 마찬가지다.
"주민들이 위험하다고 신고할 때 적극적으로 반응하는 행정 체계만 유지되더라도 대단한 것이다. 4대강 건설로 인해서 강물이 썩고 있다고 주민들이 신고하고 인터넷뉴스에 보도가 나가도 대응을 제대로 못하고 있다. 호우가 쏟아지는 급박한 상황에서 빅데이터 분석을 통해서 재난 피해 지역을 예측하고 이에 대응할 수 있겠는가? 그저 평소에 침수 위험 지역을 꾸준히 관리하는 것만으로도 대단히 훌륭한 재난 행정이라고 할 수 있을 것이다. 빅데이터가 중요한 것이 아니라 스몰데이터일지라도 평소에 꾸준히 관리하는 것이 중요하다는 것이다."
저자는 빅데이터를 활용한 맞춤형 광고에도 거품이 끼어 있다는 입장이다. 이를 위해 오마바의 선거 운동 사례를 예로 들었다.
"빅데이터 분석을 통한 맞춤형 광고가 효과적이었는가에 대한 질문에 대해 오바마 선거팀의 일원이었던 아멜리아 쇼월터는 부정적인 답을 내놨다. 그녀는 맞춤형 이메일이 아니라 언제나 높은 효과를 지니는 이메일은 보편적인 내용이었다고 고백했다."
한때 구글은 검색 사용 트렌드를 분석해 독감이 퍼지는 것을 예측하는 것에 대한 논문으로 관심을 끌었다. 구글의 행보는 빅데이터의 위력을 보여주는 사례로도 유통됐다. 저자는 이것도 부풀려졌다고 지적한다.
그런데도 한국 정부가 빅데이터, 빅데이터 외치는 것에 대해 거품론을 주장하며 개탄한다.
"빅데이터의 판이 커지면 빅데이터 전문가를 자처하는 사람들이 많아지고 빅데이터 전문가들이 많아지면 그 판이 또 다시 커진다. 이러한 양의 피드백 루프는 빅데이터 옹호자들에게는 선순환으로 여겨지겠지만 사회 전체의 입장에서 보면 악순환이다. 이렇게 철의 삼각관계는 스스로 성장하는 메커니즘을 지닌다. 이렇게 자가 증식을 견제할 수 있는 비판적인 지식인들이 존재하지 않는다면 이 악순환은 고삐 풀린 암세포처럼 순식간에 사회 전체로 번져 나간다."
그의 쓴소리는 계속된다.
"애초에 기대했던 성과가 산출되지 않더라도 큰 문제는 없다. 앞서 지적한 바와 같이 프로젝트 성과에 대한 반성이나 비판은 별로 없기 때문이다. 프로젝트를 발주한 공무원은 빅데이터를 도입하고 확산시킨 공로로 승진한다. 프로젝트에 참여한 업체들은 큰 투자를 하지 않고서도 안정적인 수입을 창출할 수 있다. 빅데이터 옹호론자들은 프로젝트의 성과가 미흡한 원인으로 전문가의 부족을 든다. 그러면 업체는 빅데이터 전문가 교육으로 사업을 확장한다."
미국은 한국과는 다를까? 정도의 차이는 있겠지만 미국에 대해서도 저자의 비판적인 시선이 엿보인다.
"미국 정부의 대대적인 투자와 미국 특유의 기업 문화인 주주자본주의는 빅데이터 유행의 씨앗이 되었다. 미국 빅데이터 유행에 있어서 주도적익 역할을 해온 구글이다. 구글은 인터넷상의 데이터를 빠르게 검색해주는 알고리즘을 개발해서 성장한 기업이다. 빅데이터의 검색과 분석에 관한 구글의 역할을 부정할 수는 없다. 그런데 문제는 구글이 빅데이터 분석을 활용하여 서비스를 제공하는데 그치지 않고 빅데이터를 과도하게 유행시키는데 앞장서고 있다는 점이다. 왜 구글은 빅데이터 유행에 열성적인가? 최근 미국학자들이 제기하는 주주자본주의라는 개념을 눈여겨 볼 필요가 있다.
구글은 주주자본주의의 전형적인 형태를 보이는 기업이다. 구글은 정상적인 마인드로는 이해하기 어려운 행보를 보이곤 한다. 막대한 자금이 들어감에도 불구하고 독감 연구를 통해 빅데이터의 효율성을 보여주려고 노력하고 오지에 비행선을 띄워 무선인터넷을 제공하는 프로젝트를 수행했으며, 딥마인드를 인수하며 바둑을 두는 인공지능이 파워를 보여주었다. 이런 투자들은 직접적인 수익으로 연결되지 않는다. 그렇다면 구글의 수익에 마이너스 영향을 주었을까? 구글은 딥마인드 인수에 7천억원을 썼지만 주식 가격으로만 따져도 2년만에 투자금의 12배가 넘은 장사를 했다. 구글은 첨단 기술을 대대적으로 홍보함으로서 주가를 크게 상승시킬 수 있었다.
앞서 언급했듯 저자가 빅데이터에 대해 가장 비판하는 부분은 예측이다.
"빅데이터에 대한 가장 큰 망상은 빅데이터를 통해 미래를 예측할 수 있다는 주장이다. 근본적으로 빅데이터는 과거의 기록이다. 빅데이터를 분석해서 과거에 어떤 일이 있었는지를 자세히 알수 있다고 한다면, 어느 정도 수긍할 수 있다. 하지만 과거의 기록인 빅데이터를 가지고 미래를 예측할 수 있다는 주장과 기대는 난센스다.
그렇다면 빅데이터는 의미가 없는 것인가? 그렇지는 않다 저자는 책에서 몇가지 사례를 언급했다.
"가장 성공적인 빅데이터 프로젝트로 평가받는 것으로 빅데이터를 활용해 심야버스 운행노선을 결정한 서울시의 사례를 꼽을 수 있다. 2013년에 서울시는 KT와 양해각서를 맺고 KT고객의 통화 기지국 위치와 청구지 주소를 활용해 유동인구를 파악 및 분석했다고 한다. 이렇게 빅데이터를 활용해 선정한 심야버스 노선에 대해서 많은 서울 시민들이 만족해했다. 이러한 서울시의 빅데이터 활용은 과거 행태에 대한 이해와 평가에 초점을 맞춘 것이었다.
보건복지부 사례도 눈여겨 볼만 하다.
2016년 보건복지부는 10개 기관에서 수집한 19종의 정보를 빅데이터로 분석해서 사각지대에 놓인 복지대상자 1만8318명을 찾아냈다고 밝혔다. 이 역시 과거 이해 및 평가에 관한 빅데이터 능력을 활용한 좋은 사례이다."
사물인터넷(IoT)와 빅데이터의 융합도 잠재력이 크다.
"앞으로 사물인터넷 기기에 조단위가 넘는 센서가 설치되어 작동될 것이다. 이들 센서로부터 매순간 발생되는 데이터는 상상을 초월하는 양이 될 것이다. 빅데이터는 바로 이 방대한 데이터를 분석해야 하는 기술이다. 공개하고 싶어하지 않는 개인들의 정보를 강제로 공개할 필요가 없다. 빅데이터 기술을 가지고 미래를 예측할 수 이다는 허황된 이야기를 할 필요도 없다. 사물인터넷은 지금까지 보지 못했던 방대한 양의 데이터를 쏟아낼 것이다. 이것을 분석하는 것이 바로 빅데이터의 본질적인 역할인 것이다.