[RAG] 양성욱 온더라이브 대표의 AI RAG 구현 도전기, "데이터 전처리 분야 SaaS로 승부"

[테크수다 기자 도안구 eyeball@techsuda.com] 양성욱 대표를 2년 만에 다시 만났다. 2년 전에는 클라우드 때문에 만났고 이번엔 생성형 AI 때문에 만났다. 한국오라클이 개최한 AI 세미나 행사 부스에 온더라이브 측에서 생성형 AI 서비스 지원을 위한 툴을 선보이고 있었다. 특히나 검색증강현실(RAG : Retrieval Augmented Generation) 관련한 프로젝트도 하고 있다는 이야기를 듣고 인터뷰를 요청했다.

화상 에듀테크 온더라이브와 보안 분야 코어시큐리티가 오라클 클라우드를 선택한 이유···”비용절감·다양한 보안 옵션·국내외 기술지원”
[테크수다 기자 도안구 eyeball@techsuda.com] “50% 가량의 비용 절감과 서비스 구현을 위한 다양한 옵션, 신속한 국내외 기술지원 측면에서 큰 혜택을 얻었습니다. 고객이 원하는 다양한 요금제가 있고 또 글로벌 SaaS 기업들과 협업해 이를 활용하는 기업 입장에서 구축 작업이 2~3일에서 반나절로 줄었습니다.” 비대면 화상수업 에듀테크 기업 ‘온더라이브’ 양성욱 대표와 시나리오기반

기업들은 생성형 AI 시대 거대언어모델(LLM)을 도입 혹은 클라우드 기업들의 LLM 서비스를 활용해 업무 생산성을 높이기 위해 고민하고 있다. 지난해 다양한 컨셉 검증(PoC) 프로젝트들을 하면서 도입 가능성을 타진하고 있다.

최근 삼성SDS가 발표한 자료에 따르면 많은 기업들은 생성형 AI 도입시 사내에 많은 시스템과 전문 문서들을 쉽게 연결해서 사용할 수 있는지, 기존 업무 시스템과 솔루션에 생성형 AI를 적용해 업무 생산성을 높일 수 있을지, 매일 새롭게 나타나는 생성형 AI 신기술들을 빠르게 적용할 수 있는지, 고비용 GPU를 효율적으로 활용할 수 있는지를 주요하게 물고 있다고 전했다.

특히나 물어보면 어떤 형태로든 답변하는 이 LLM을 기업 내부에서 활용하거나 혹은 기업 고객들을 대상으로 서비스에 적용할 경우 거짓이나 잘못된 정보를 통해 전달하면 안된다. 이 문제가 무엇보다 중요하다. 그래서 주목받고 있는 키워드가 바로 검색 증강 생성, RAG다. 오라클이 소개하는 RAG에 대해 잠시 살펴보자.


검색 증강 생성(retrieval-augmented generation, RAG)은 그와 같은 문제를 해결해 줄 수 있는 기술입니다. RAG는 기본 LLM 모델 자체를 수정하지 않고도 타기팅된 정보를 활용하여 생성 결과물을 최적화할 수 있는 방법을 제공합니다. 타기팅된 정보는 LLM에 사용된 것보다 최신 정보일 수도 있고, 특정 기업 및 산업과 관련된 정보일 수도 있습니다. 즉, RAG는 생성형 AI 시스템이 보다 주어진 프롬프트의 맥락에 부합하는 답변을 제공할 수 있을 뿐만 아니라, 가장 최근의 데이터에 기반한 답변을 제공할 수 있도록 지원하는 기술입니다.

RAG는 Patrick Lewis와 Facebook AI Research 산하 팀이 2020년 발표한 논문인 '지식 집약적 NLP 작업을 위한 검색 증강 생성(Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks)'을 통해 생성형 AI 개발자들의 관심을 사로잡았습니다. 이후 학계 및 업계의 많은 연구자들이 RAG 개념을 채택하였습니다. 그들은 RAG가 생성형 AI 시스템의 가치를 크게 향상시켜 줄 도구라고 판단하였습니다.

출처 : 검색 증강 생성(RAG)이란 무엇인가요? | Oracle 대한민국


간단히 정리하면 LLM과 외부 지식 검색을 결합하는 거다. 기업의 경우 사내에 축적한 데이터를 기반으로 모든 답변을 할 수 있도록 할 수 있다. 특정 데이터세트나 도메인에 맞춰 사전 학습된 LLM을 조정하는 미세조정(파인튜닝)과 대비되기도 한다.

온더라이브는 비대면 에듀테크 전문기업으로 스마트펜을 활용한 화면 필기와 질문하기 등 교육용으로 특화된 상호작용 툴을 통해 실시간 쌍방향 화상수업 서비스를 제공하고 있다. 교육부 산하 한국교육학술정보원이 제공하는 공공 LMS e학습터 화상수업 솔루션 공급 업체로 선정되어 초중학교 학생들을 대상으로 서비스를 제공하고 있다.

민간 분야의 경우 삼성전자와 삼성전자 서비스, YBM 등이 대표적인 고객사다.

에듀테크 기업인만큼 수강생들을 대상으로 생성형 AI 기반 챗봇을 만들어 제공하는 줄 알았다. 1차는 기업들이었다. 양성욱 대표는 "우연치 않은 기회에 한국정보사회진흥원(NIA)의 데이터셋 구축 과제를 진행했습니다. 수작업이 많은 상황에서 데이터 셋 구축을 돕는 저작도구를 만들었습니다. 이걸 만들고 보니 생성형 AI 시장이 열리고 있고 자연스럽게 이 영역으로 사업을 확장하게 되었습니다"라고 말했다.

양성욱 온더라이브 대표

온더라이브는 산업별 특화된 스몰언어모델(SLM)은 전문 기업들이 만들고 있고, 오픈소스 LLM들의 경량화 버전들이 등장하고 있는 만큼 직접 경쟁하기보다는 이런 생성형 LLM을 도입하기 위해 기업 내부의 데이터들을 사전에 처리해야 하는 '데이터 전처리' 영역에 집중하면서 차별화를 꾀하고 있다.

양 대표는 "전체 프로젝트 기간의 대략 75%가 오히려 데이터 전처리 영역일 정도로 시간이 많이 들어가는 작업"이라고 설명했다. 지난한 작업이 필요한 영역에서 손쉽게 다룰 수 있는 툴을 제공해 고객들이 빠른 시일 안에 다양한 테스트는 물론 실제 생성형 AI 도입 효과를 얻을 수 있도록 돕겠다는 뜻이다.

LLM이 제대로 답변을 하려면 참조할 자료의 문단을 제대로 전달해줘야 한다. 문서 전체 파일이 있다고 해도 참조할 페이지는 정해져 있다. 가령 답변 페이지가 1페이지 하단에서 시작해 2페이지와 3페이지로 이어질 경우 1페이지만 잘라서 던져주면 제대로 된 답변을 얻을 수 없다. 원하는 영역을 찾아서 질의 내용과 관련된 문단을 AI에게 전달해야 답변이 정확하고 구체적이 된다. 이런 작업들을 청크라고 한다.

출처 : PowerPoint Presentation (oracle.com)

문제는 이 정답이 있는 문단을 잘 못찾는데 있다. 문단을 제대로 찾기 위해 벡터DB를 사용한다. 하지만 청크를 잘못한 내용을 알고리즘을 통해 벡터DB에 넣어봐야 제대로 된 답변을 얻기 어렵다. 다양하고 좋은 벡터DB가 나왔지만 그 전 문제로 인해서 답변 품질 문제가 발생한다. 양성욱 대표는 질의한 키워드랑 거리가 가까운 '덩어리'를 찾아주고 이를 잘 쪼개야 검색도 잘 된다는 걸 NIA 데이터셋 구축 작업을 통해 확실히 알게 되었다고 누차 강조했다. 그는 이를 위해 스코어링 기술을 넣어 키워드를 넣으면 그에 해당하는 문단을 찾아가는 방식을 개발했다.  

또 데이터를 특정 그룹으로 구성하고 범주화하는 텍사노미(Taxonomy) 기술도 적용했다. 키워드와 문서가 안 맞을 때 상위, 하위 유사어 관련해 찾고 잘게 쪼갠 문단 안에서 이를 추출한다. 또 답변을 풍부하게 하려면 지식 그래프 기술도 적용해야 한다. 유사어 관계도와 관계성을 그래프 기술을 통해 확인할 수 있다. RAG는 의미검색과 그래프, 벡터를 잘 활용해야 한다.

RAG 구현 과정에서 관계형 데이터베이스 안에 저장한 걸 활용할 수 있는 방법도 많은 시행착오 끝어 찾아내고 있다. 그는 오라클이 지난해 선보인 새로운 데이터베이스 제품인 '오라클 23C'의 주석기능(Annotation) 기능을 눈여겨 보라고 귀띔했다.

오라클, ‘오라클 데이터베이스 23c 개발자용 무료 버전’ 공개
획기적인 ‘JSON 관계형 이원성’ 기능 및 기타 오라클 데이터베이스 23c에 새롭게 추가되는 각종 애플리케이션 개발용 기능에 대한 사전 액세스 가능
  • 주석(Annotations): 이제 오라클 데이터베이스에 내장된 신규 주석 메커니즘을 통해 데이터베이스 메타데이터를 데이터와 함께 직접 저장할 수 있다. 개발자는 테이블, 열, 뷰, 인덱스 및 기타 공통 데이터 모델 속성에 주석을 달 수 있다. 이를 통해 다양한 애플리케이션에 사용된 속성들을 등록 및 교환 가능한 중앙화 및 경량화된 선언적 저장 공간을 활용할 수 있다. 메타데이터를 데이터와 함께 저장하면 데이터를 사용하는 모든 사용자 또는 애플리케이션에 대한 일관적이고 보편적인 접근성을 보장할 수 있다.

메타데이터 관리 기능으로 현재 오라클 클라우드 인프라스트럭처(OCI)에 올라간 23C 버전에서 제공하고 있다. 오라클은 컬럼이나 테이블에 대해 주석 기능을 가지고 있다. 가령 고장 유형을 알려달라고 질문을 하면 어떤 테이블, 어떤 칼럼과 연결되어 있는지 모르는데 이 때문에 테이블 스키마 정보까지 같이 전달한다. 이렇게 스키마와 메타데이터 관리의 주석 기능을 함께 활용하면 자연스럽게 SQL 문이 나오고 실행하면 퀄리 결과가 나온다. 이 때 나온 게 문서 덩어리인 '청크'다. 이걸 잘 쪼개고 나누는 건 이미 잘 하고 있으니 온더라이브 입장에서 RDB에 있는 걸 RAG로 구현하는 것도 한결 수월해졌다.

양성욱 온더라이브 대표

그는 "고객들과 컨셉 검증(PoC)를 수행할 때 필요한 문서를 몇개만 주면 저희가 가진 툴을 활용해 전처리를 다 끝내고 빠르면 하루 늦어도 2-3일 안에 확인할 수 있도록 합니다. 다른 곳들은 고객들에게 이런 저런 데이터를 달라고 하면서 결과가 잘 나오지도 않았고 시간도 한달 이상이었죠. 저희가 너무 빨리 해서 고객들이 오해도 했지만 지금은 실제 테스트를 해보자는 곳들이 늘고 있습니다"라고 말했다.

온더라이브는 이를 오라클 클라우드 인프라스트럭처에 SaaS 형태로 올려놓고 고객의 AI 전환을 돕는데 주력하고 있다. 데이터셋 구축 프로젝트를 통해 자동화된 저작 도구가 필요하고 이 도구들도 꾸준히 개선되어야 하는만큼 역량을 이곳에 집중하고 있다. 이렇게 만든 제품이 아이엠(AIMM : AI for My Memory)이다.

온더라이브의 AIMM

AX 전처리 도구는 문서 구조화, 레이블링 자동화, 이미지와 표 자동 인식, 청크 검색 API를 제공한다. 또 AI 전환작업 관리 플랫폼을 통해 클라우드워크 작업할당과 교정, 검수를 지원한다. 작업 현황을 모니터링하고 아웃소싱 업체를 관리할 수 있다. 아이엠 챗봇도 제공하면서 고객들이 실제 구현했을 때 어떤 품질을 얻을 수 있는지 확인할 수 있다.

생성형 AI를 적용하려는 기업들이 늘고 있는 만큼 이 시장을 최우선 대응하면서 동시에 그동안 비대면 교육 분야에서 활동해 온 만큼 비대면으로 논술을 자동평가해주는 서비스도 만들고 있따. 영상을 업로드하면 텍스트를 뽑아서 질의하면 답변해주는 것도 충분히 가능하다.

양성욱 대표를 2년 만에 만났는데 관련 프로젝트를 하다보니 자신만의 지식 에이전트가 필요하다는 것도 파악했다고 한다. 그런데 지난해 오픈AI는 GPTs라는 서비스를 오픈했다. 그는 "막상 관련 프로젝트들을 하다보면 다들 생각은 거의 비슷하다는 걸 알게 됩니다. 저희가 모든 영역을 다 커버할 수 없습니다. 특화된 영역에 집중해야 생존할 수 있습니다. SaaS 제품을 더 빠르게 확산하고 더 자동화되게 만드는데 집중하겠습니다"라고 말했다.

앞으로는 2년이 아니라 조금은 자주 양성욱 대표와 만나야겠다. 그가 허락한다면 말이다.

[테크수다 기자 도안구 eyeball@techsuda.com]