김태수 네오사피엔스 대표, "AI 성우 서비스 '타입캐스트', 진화는 계속된다"


[테크수다 기자 도안구 eyeball@techsuda.com] "저희 서비스를 간단히 정의하라고 하면 '인공지능 성우' 서비스라고 보시면 됩니다. 인공지능(AI)을 활용하는데 컴퓨팅 파워와 다양한 알고리듬을 만들고 적용하는데 수월해진 게 이전과는 달라진거죠. 경쟁이 치열해지는 영역일 거 같다는 말은 그만큼 저희가 선택한 이 길이 틀리지 않았다는 걸 보여주는 거 같아서 오히려 기뻐요. 앞서 달리는데 아무도 따라오지 않는 상황보다는 기쁜 일이니까요."


김태수 네오사피엔스 대표는 인공지능 성우와 가상 인물을 통해 음성과 영상 콘텐츠 제작을 돕는 타입캐스트(https://typecast.ai) 서비스에 대해서 이런 자신감을 드러냈다.


https://youtu.be/kXtDIwvsgwU


그는 대학원에서 머신러닝을 이용한 음성과 멀티미디어 신호처리를 전공했다. 사회 진출 시기 운도 좋았다고 겸손을 떤다. 구글 나우나 애플 시리 같은 음성 검색과 디지털 비서 서비스들이 등장하면서 음성 관련 연구원들에 대한 시장 수요가 치솟았다. 그렇게 LG전자에 합류했고 그 후 퀄컴으로 이직해 한국 연구소에서 제안한 내용을 기반으로 전세계 서비스하는 경험도 얻었다.


창업을 꿈꾼 건 아니지만 뭔가 도전하고 싶다는 생각은 계속해서 품었다. 갑자기 몸이 안좋아 졌고 입원했다가 퇴원하고 쉬면서 세상에 뭔가를 남겨놨는지 뒤돌아보다가 도전했다. 반려자는 3년이라는 시간을 허락했다.


김태수 대표는 "3년 안에 투자도 받고 했으니 그 시간이 연장되었습니다"라고 웃었다. 그는 2017년 창업했다.


다양한 인공지능 활용 영역 중 누구나 쓸 수 있는 서비스에 주목하면서 다양한 시도를 했다. 기술과 시장 여건이 맞아 떨어지는 영역이 '음성'이었다. 때마침 남북 정상회담도 있었다. 도널드 트럼프 미국 대통령 한국어 더빙을 넣기도 하고 문재인 대통령과 북한 김정은 위원장 목소리를 딴 영어 더빙도 넣었는데 반응이 뜨거웠다.



해당 기술을 확보하고 투자해 오면서 유튜브나 네이버TV, 인스타그램 릴스, 틱톡 같은 이미 글로벌 영상과 팟캐스트 플랫폼에 콘텐츠를 만드는 창작자들이 쓸 수 있는 도구를 제공하고 서비스할 수 있도록 웹과 안드로이드 앱 형태로 제공하기 시작했다.


반응은 뜨거웠다. 국내외 창작자들이 자신들이 관심 있거나 전문 분야의 콘텐츠를 글로벌 플랫폼에 쉽게 올릴 수 있는 서비스를 기다렸던 것. 연구개발하던 기술은 이제 수많은 사용자들의 피드백을 통해 지속적으로 개선되고 업그레이드 되고 있다.


김태수 대표는 "연구할 때와 실제 고객들의 피드백을 받아 서비스로 제공하는 건 많은 차이가 있습니다. 실제 활용하면서 개선 사항들을 문의하니 저희가 생각했던 기술 향상 로드뱁과는 별도로 빠르게 고객 요구를 수용하면서 시장 친화적인 서비스로 거듭나고 있습니다. 그게 가장 경쟁력이고 차별화 요소입니다"라고 웃었다.


음성을 활용하는 분야에서는 선발 주자지만 최근 디지털 휴먼을 활용한 콘텐츠 생성 시장에도 뛰어들고 있다. 그는 기술 못지 않게 사업 기회와 가치를 시장과 투자가들에게 보여줄 수 있는 게 서비스의 매력이라고 덧붙였다.


끝으로 그는 AI 분야 스타트업으로 인재 확보에도 집중하고 있다고 전했다. 다행스럽게 서비스를 제공하다보니 아예 기술만 연구하는 곳보다는 인재 확보에 조금은 덜 힘들다고 웃었다.


매출에 대해서는 정확한 금액은 밝히지 않았지만 개인과 B2B 대상으로 성장중이라고 밝혔다. 그는 "수십억 매출이고 매년 3~4배 늘고 있습니다. AI 인재들의 많은 도전을 기다리고 있습니다"라고 언제든 노크해달라고 말했다.


기자의 지인중에 모 대학교 학생 기자들 대상으로 미디어 교육을 하는 지인에게 타입캐스트를 소개해 준 적이 있다. 학생들이 자신들이 만든 텍스트 기사를 인공지능 성우를 통해 아주 쉽게 만들어 내면서 흥미있어 했다는 피드백을 받았다. 정작 기사를 쓰는 기자는 이 회사의 존재와 관련 서비스를 알았으면서 활용하지 않은 게 부끄럽다. 텍스트 만들기에만 익숙하고 창작자들의 파괴적혁신에 당하고 있으면서도 아직 정신을 못차린 거 같다. 말보다 행동이 필요한 시기다.


여러분들도 한번 타입캐스를 활용해 보시길.


다음은 김태수 대표와 나눈 일문 일답.


1.. 대표님 소개 부탁드립니다.


안녕하세요. 인공지능(AI) 가상 연기자를 활용하여 영상 콘텐츠와 음성 콘텐츠를 제작할 수 있도록 돕는 서비스, 타입캐스트의 개발사 네오사피엔스의 대표 김태수입니다. KAIST 대학원 연구원 시절부터 머신러닝을 이용한 음성 및 멀티미디어 신호처리를 전공하였고, LG전자, 퀄컴 등의 기업연구소에서 10년 이상 음성인식, 음질 향상, 소리 인식 등의 기술을 활용한 신제품을 상용화한 경력을 보유하고 있습니다. 이를 바탕으로 2017년 네오사피엔스를 창업하였습니다.


2. 타입캐스트에 대해 소개 부탁드립니다.


타입캐스트는 인공지능(AI) 가상 연기자를 활용하여 음성 및 영상 콘텐츠를 제작할 수 있도록 돕는 서비스입니다. 쉽게 말하면 기존에 스튜디오에서 하던 녹음/녹화 대신 타입캐스트에 대본을 입력하면 AI 성우가 연기한 녹음 파일을 받을 수 있고, 가상 인간이 연기한 입 모양과 얼굴 표정을 움직인 비디오를 다운로드 받을 수 있습니다.


요즘은 남녀노소 구분 없이 콘텐츠 크리에이터가 증가하는 추세이나 배우를 섭외하여 영상을 제작, 편집하고 성우를 섭외하여 콘텐츠를 업로드하기까지의 장벽은 너무나 높습니다. 타입캐스트를 이용하면 누구나 키보드로 글을 입력할 수만 있다면 가상인간이 출연한 영상 콘텐츠와 내 목소리 대신 다양한 캐릭터의 목소리로 더빙을 할 수 있는 인공지능 성우를 이용할 수 있습니다. 최근 AI가 스토리도 쓰며 그림도 그리고 심지어 영상까지 제작하는 것이 화제가 되면서 AI가 창의적인 활동을 돕는 분야가 더욱더 각광을 받을 것으로 예상하고 있습니다.


3. AI 기반 콘텐츠 솔루션 아이템을 주목하신 배경이 궁금합니다.


생각하는 어떤 새로운 것 즉, 사람과 같은 인공지능을 만든다고 할 때 보고, 듣고, 말하고, 행동하는 것이 가능해야 할 것이다. 그런데 창업을 할 당시에 봤을 때 보고 듣는 즉 인식 분야에 대해서는 이미 기술적으로도 상당히 성숙해가고 있었고, 성과를 내는 회사들이 있었다. 그런데 말하고 행동하는 즉 생성(Generative AI) 하는 분야는 이제 막 가능성이 보이는 단계였다고 봤다. 그렇게 봤을 때 음성을 생성해내는 기술이 먼저 성과가 나오지 않을까 싶었고, 이후에 행동 즉 영상을 생성해내는 분야가 중요해 질것으로 생각했다. 특히 음성은 사람들이 정보를 주고받는 가장 중요한 매체이고 이 부분은 가장 중요한 길목이 될 것이라고 생각해서 음성을 생성하는 즉 음성 합성 기술에 집중을 하였다.


그 후 이 기술을 기반으로 많은 사람들의 문제를 해결해주는 유용한 서비스를 시도를 했다. 2018년에는 몇가지 서비스를 출시를 했었고 모두 실패를 했다. 이 후 AI 보이스로 성우를 대신하는 기능에 대한 니즈를 확인하고 목소리가 좋은 AI 성우를 손쉽게 캐스팅 해 본인의 콘텐츠에 활용할 수 있는 서비스를 출시해 현재의 타입캐스트가 되었다.


4. AI 기반 콘텐츠 솔루션은 다양한 스타트업은 물론 대기업들도 관심이 있는 영역입니다. 어떻게 대응하고 계신가요?


저희는 시장과 고객에만 관심이 있고 집중을 하고 있습니다. 그래서 다른 스타트업이나 대기업이 어떻게 하고 있는지 구체적으로는 잘 모릅니다. 다만 여러 회사들이 관심을 가지고 있고 비슷한 기술을 개발한다는 것은 가능성이 큰 시장이라는 반증이라고 생각합니다. 그리고, 시장이 커나가고 있는 과정이라 다양한 방향성이 있을 수 있고 회사마다 그에 따라 제품과 전략이 다를 것이라고 생각하고 있습니다. 그래서 저희는 저희가 듣고 있는 고객의 목소리와 저희가 생각하는 시장의 방향성에 따라서 제품을 개선하고 성과를 내는데 집중하고 있고 이렇게 하는 것이 최종 승자가 되는 지름길이라고 생각하고 있습니다.


5. 기계음을 사람의 음성처럼 자연스럽게 하는 TTS 영역은 아주 오랫동안 연구되고 활용되다 보니 AI 하는 기업들은 누구나 진입하는 영역이 아니냐는 인식이 있습니다. 그만큼 진입 장벽이 낮은 영역 아닌가요.


TTS뿐만 아니라 음성인식, 영상인식, 대화봇 등등 모든 AI기술이 최근에 나온 것은 아니고 수십년 전부터 연구되어온 주제입니다. 다만 이러한 기술이 최근에 각광을 받고 있는 이유는 딥러닝 기술의 발전으로 이것들이 산업적으로 의미 있게 사용될 만한 성능을 보여주기 시작했기 때문입니다.


실제로 음성인식의 경우는 2000년대 말에 딥러닝이 적용되면서 그전에 이루지 못했던 오답률을 이룰 수 있게 되었고, 영상인식의 경우는 2012년경에 딥러닝이 imagenet challenge에서 1등을 하면서 각광을 받았습니다. 마찬가지로 음성합성 TTS의 경우 2016년말부터 딥러닝을 이용한 결과들이 나오면서 기존과 다른 자연스러운 음성을 생성할 수 있는 가능성을 보여주기 시작했습니다.


그리고 이후 몇년간 상당한 발전을 이루어서 음성이 자연스럽게 나온다 정도는 조금만 공부하면 잘 만들 수 있는 수준이 되어있습니다.


그런데 이러한 흐름은 모든 기술이 발전하는 방식입니다. 조금만 생각해보면 예전에는 몇 사람만이 만들 수 있던 기술을 지금은 누구나 만들 수 있는 것이 대부분입니다. 오히려 그렇지 않은 기술을 찾는 것이 어렵지요. (요즘은 로켓마저도 누구나 만들 수 있습니다).


이러한 기술을 제품으로 만들고 시장에서 사용자들이 잘 쓸수 있는 것은 생각보다 어렵습니다. 예를 들어서 우리가 누구나 내가 먹을 김치찌개를 맛있게 끓일 수 있어도 김치찌개 식당을 만들어서 많은 손님들에게 선택 받아 성공시키는 것은 어렵습니다. 기술도 마찬가지입니다. 오픈소스로 TTS를 하나 만들 수 있다고 해도 그걸 제품으로 만들어내서 항상 오류없이 잘 동작하고 수백만명이 문제없이 사용하며 만족하게 만드는 것은 어렵습니다.


여기에 더불어 TTS가 그러면 김치찌개처럼 누구나 잘 만들 수 있는 기술이냐라고 하면 대답은 “그렇기도 하지만 아니다"라고 할 수 있습니다.


TTS기술이 사람처럼 자연스럽게 음성을 생성하게 누구나 구현할 수 있다는 사실 자체는 음성이라는 것이 단순히 목소리가 나온다는 것이 전부라고 본다면 그렇다고 볼 수 있습니다.


그러나 이것이 콘텐츠에 쓰이기 위해서는 전문 성우나 연기자의 연기처럼 특정한 감정, 연기 스타일등이 원하는 대로 고품질로 표현되어야 합니다. 그런데 아직 음성 자체는 잘 생성하지만 이러한 감정 및 스타일 표현에는 기술의 발전이 더 필요한 상황입니다.


실제로 이러한 기술이 이미 다 잘 된다고 하면 우리가 보는 대부분의 매체에서 사람 녹음이 없을텐데 여전히 뉴스나 방송, 영화 더빙 등에서 성우, 아나운서들이 활약하는 걸 보면 갈 길이 멀기도 합니다. 많은 해외 고객사들이 저희에게 연락할 때도 여러 회사들의 기술을 검토해봐도 아직 그들의 눈높이를 맞추는 회사가 없다고들 합니다. 저희가 이러한 표현 기술에서 선도적인 기술들을 발표하고 있지만 앞으로도 더 발전시켜야 할 부분들이 많이 있습니다.


6. B2B, B2C 서비스를 모두 하고 계신데요. 기업용과 개인용은 어떤 차이점이 있나요.


타입캐스트는 구독제로 운영되고 있습니다. 개인용 요금에는 베이직 프로가 있고 기업용은 비즈니스가 있습니다. 기업용의 경우 기업내 여러 명의 계정을 만들 수가 있고 원하는 대로 사용량을 설정할 수 있습니다. 그리고 계약에 따라 원하는 목소리나 가상인간을 제작하는 커스텀 모델링 및 기업의 내부 시스템이나 제품에 활용할 수 있는 API를 사용할 수도 있습니다. 예를 들면 커스텀 모델링의 경우 주현영 배우의 부캐, 주기자의 AI 아바타를 제작한 사례가 있고, API를 사용한 사례는 BTS의 음성을 제작한 한국어 학습 교재 시리즈 Learn Korean with TinyTAN이 있습니다.


7. 개인의 목소리를 받아서 적용하는 것도 가능할까요.


위에서 설명해드린 것처럼 개인의 목소리를 받아서 커스텀하는 것도 가능합니다. “너를 만났다"에서 병으로 안타깝게 세상을 떠난 5살 어린 아이, 나연이의 목소리도 네오사피엔스가 전에 진행하였던 프로젝트 중 하나입니다.


실제 콘텐츠 제작을 많이 해야 하는 학원 강사 분이나 대학 등에서도 문의가 많이 오고 있습니다.


8. 툴 서비스 회사인데 직접 콘텐츠 제작 - 오디오 북이나 B2B 영역 - 사업은 진행할 계획이 없으신가요?


저희의 고객은 이러한 콘텐츠를 제작하는 분들입니다. 이들이 성공하도록 만드는 것이 저희가 하는 일이고 거기에서 가치를 창출합니다. 예를 들면 어도비에서 음악을 만들거나 영화를 제작하지 않는 것과 같다고 할까요? 밀리의 서재가 저희 API를 이용해서 오디오북 제작을 더욱 저렴하고 빠르게 제작한 사례이고 BTS의 경우 저희 API를 이용해서 한국어 교재를 더욱 가치 있게 만들었습니다.


9. 다른 나라 언어나 음성 지원은 언제쯤 계획하고 계신가요


현재 타입캐스트에서는 한국어 외에도 영어, 일본어, 스페인어를 지원하고 있습니다. 그래서 한국을 제외하고도 20개 이상의 나라에서 유료로 타입캐스트를 사용하는 고객이 계십니다.  2023년 초에는 이미 언급한 언어 외에도 포르투갈어, 프랑스어, 이탈리아어, 독일어, 중국어를  지원할 계획입니다.


10. SaaS 서비스의 경우 재구매율 비율이 성장을 위해 무척 중요한 척도로 꼽히는데요. 어느 정도인가요


정확한 데이터는 비공개 사항이고, 대부분의 유료 사용자들은 매달 정기 결제롤 계속 사용하십니다. 처음 유료서비스 시작했던 2019년 11월에 결제하신 분들 중에 아직 결제하고 계신분들이 상당수 있습니다.


11. 올해 매출 목표와 성장률은 어느 정도입니까.


정확한 매출을 공개하고 있지는 않고 대략 수십 억원 수준입니다. 매년 3~4배씩 꾸준히 성장하고 있습니다.


12. 올해 얼마 남지 않았습니다. 2022년을 평가해주신다면


2022년은 글로벌 서비스로의 가능성을 확인한 한해로 정의하고 싶다. 올해초에 실리콘벨리VC로 부터 투자도 유치할 수 있었고, 실제로 서비스도 해외 사용자들이 많이 늘어났다. 사실 처음 서비스를 출시할 때부터 글로벌을 염두해두고 실제로 한국어와 영어를 동시에 서비스했지만, 작년까지는 해외 사용자가 많지 않았는데 올해에는 해외에서 활용사례들도 많이 나오고 있다. 최근 Adobe가 Figma를 거액에 인수한 사례에서도 볼 수 있듯이 현재 콘텐츠 제작용 SW서비스 시장이 급성장 하고 있고, 향후에는 AI를 활용한 서비스가 대세가 될 것으로 예상된다. 타입캐스트가 이 분야에서 글로벌 1위가 되려고 하는데 올해에 그 가능성을 확인했다고 생각한다.


[테크수다 기자 도안구 eyeball@techsuda.com]

Newsletter
디지털 시대, 새로운 정보를 받아보세요!
세미나