[RAG] 서승모 BSG 상무가 전하는 '기업 RAG 시스템 도입의 핵심 전략과 사례 분석'

[테크수다 기자 도안구 eyeball@techsuda.com] 서승모 BSG 상무는 "기업이 RAG(Relevant Answer Generation) 시스템을 도입 시 것은 데이터의 수집과 정제이며, 의미 있는 데이터를 저장해야 의미 있는 응답을 얻을 수 있습니다. 데이터 보안 정책 검토와 시스템 아키텍처 설계도 필요합니다"라고 강조했다.

AWS코리아의 도움을 받아 서승모 상무와 인터뷰를 가졌다.

서승모 BSG 상무

서승모 상무와 RAG 구현을 위해 필요한 준비 작업과 구체적인 구축 방안에 대해 설명을 들었다. BSG는 데이터 포맷 호환성 문제는 파일을 PDF로 변환해 해결하며, 필요 시 자동 변환 애플리케이션을 개발하고 있다.

RAG 시스템을 클라우드 환경에 구축할 때, 아마존 타이탄 텍스트 임베딩 모델을 활용해 데이터를 벡터로 변환하고, 아마존 오프서치와 아마존 켄드라를 사용해 하이브리드 검색 방식을 적용한다. 적합한 LLM(Large Language Model)을 선정해 응답 결과의 품질을 높이고, 다양한 LLM 중 선택할 수 있는 환경도 구성한다.

서 상무는 개발에 소요되는 시간과 비용은 데이터 형식과 규모에 따라 달라지며, 일반적으로 2~3개월과 10MM 내외의 비용이 소요된다고 전했다. 운영과 유지보수를 위해서는 단계적인 고도화와 지원 체계가 필요하며, 효율적인 운영을 위해 파트너사의 활용도 고려할 수 있다고 조언한다. 자동화 수준은 데이터를 반영하는 주체와 시점에 따라 결정되며, 권한이 있는 사용자가 실시간으로 데이터를 업데이트할 수 있는 시스템이 필요하다.

BSG 파트너스 같은 컨설팅 회사의 역할은 고객의 업무를 이해하고 RAG 도입에 필요한 정보를 제공하는 것이며, 개념 검증 과정을 통해 빠르게 핵심 내용을 검증하는 방안을 제안하는 것이라고 서승모 상무는 강조했다.

사용자 인터페이스(UI)는 사용자 편의성과 응답 품질을 높이기 위한 프롬프트 확장과 UI 개발이 필요하며, 고객과의 커뮤니케이션을 통해 사용자 친화적인 UI를 설계해야 한다.

BSG는 기술연구소에서 활용하는 논문과 특허 자료를 기반으로 AI 에이전트를 구현하는 프로젝트를 진행하고 있으며, 이는 투자 대비 성과 측면에서 효율적임을 검증했다. AI 인력 확보는 내부 인력의 교육과 대학교(원)에서 관련 전공을 보유한 인력 채용을 통해 이루어지며, 분야별 전문 AI 파트너사와의 협업을 통해 경쟁력을 확보하고 있다.

다음은 서승모 BSG 파트너스 상무와 가진 일대일 문답

1. 기업에서 RAG를 도입하려 할 때, 어떤 준비 작업이 필요한지 구체적으로 설명해 주실 수 있나요?

RAG를 도입하는 시스템의 구축 목표와 활용 방안에 부합되는 데이터를 수집하고, 유의미한 데이터를 분류하여 정제하기 위한 방안을 먼저 고민하고 준비해야 합니다. “쓰레기 데이터를 학습하면 쓰레기 결과가 나온다(Garbage in, garbage out)”은 RAG 도입 시에도 적용되는 명제이며, 의미 있는 데이터를 저장해야 결과적으로 의미 있는 응답을 얻을 수 있습니다.

또한 회사 내의 데이터 관리 및 보안 정책에 관한 검토가 필요하며, 이에 기반한 RAG 시스템 아키텍처 설계가 이루어져야 합니다. 일반적으로 퍼블릭 SaaS(Software as a Service)를 허용하는 환경에서는 아마존 베드록(Amazon Bedrock) 기반으로 쉽고 빠르게 구축하는 아키텍처를 적용하며, 데이터 보안 강화와 고객 최적화 환경이 필요한 경우에는 아마존 세이지메이커 점프스타트(Amazon SageMaker JumpStart) 환경 아래서 특화된 RAG 시스템 구축을 위한 아키텍처를 설계해 적용하고 있습니다.

2. RAG 시스템 구축 시, 데이터 포맷 호환성 이슈(예: 한글 hwp, hwpx 파일 등)를 어떻게 해결할 수 있나요?

RAG 저장소에 데이터 저장 시 원천 데이터를 파일 형태로 아마존 S3와 같은 별도 저장소에 함께 저장해두고 활용하는 사례들이 있습니다. 이때 원천 데이터는 pdf 파일로 저장하는 방식을 적용하며, 고객께서 사용하시는 hwp, hwpx, docx, xlsx, pptx 등 자주 사용되는 파일들의 포맷을 pdf로 변환하여 사용합니다. 필요 시 파일 포맷을 pdf로 자동 변환하는 애플리케이션 기능을 개발 및 적용하여, 데이터 포맷 호환성 이슈를 해결합니다.

3. RAG 시스템을 클라우드 환경에 구축할 때 구체적인 아키텍처와 프로세스를 설명해 주실 수 있나요?

RAG 시스템 설계 시 데이터를 저장하기 위한 방안과 저장소 및 적합한 LLM 구성에 관한 다양한 선택지가 존재하며, 구축하는 시스템의 목표와 활용 방안에 부합하는 아키텍처 구성이 필요 합니다. 저희 BSG가 구축하는 프로세스 관점에서 설명드리면,

첫째로, 정제된 데이터를 벡터로 변환하여 저장하기 위한 방안을 설계해야 하며, 이때 저희 BSG는 검증된 아마존 타이탄 텍스트 임베딩(Amazon Titan Text Embeddings) 모델을 활용합니다.

둘째로, 데이터를 검색하는 방식에 맞춰 적합한 저장소를 설계해야 하며, 저희 BSG는 의미론적인 검색을 지원하는 시맨틱 방식과 함께 기존 검색 시스템에서 많이 활용되었던 키워드 방식을 하이브리드로 적용해 가장 적합한 데이터를 검색하고 활용합니다. 하이브리드 검색 방식 적용 시 우선적으로 활용하는 RAG 저장소는 아마존 오프서치(Amazon OpenSearch) 이며, 완전 관리형 서비스인 아마존 켄드라(Amazon Kendra)를 적용하는 방안도 함께 고려하고 있습니다.

셋째로, 잘 설계되고 확장된 프롬프트로 질의를 수행할 때, 적합한 응답 결과를 제공해주는 LLM(Large Language Model)을 선정해 적용해야 하며, 응답 결과의 품질 및 응답 시간, 사용료 등의 요소들을 검토하여 최적의 LLM을 선정하고 구성합니다. 때로는 고객과의 협의를 통해 복수의 LLM 중 선택하여 질의할 수 있는 환경을 구성하기도 합니다.

4. RAG 시스템 개발에 소요되는 시간과 비용은 어느 정도로 예상되나요?

RAG 시스템 구축을 위해 필요한 데이터의 형식과 규모, 연계되는 생성형 AI 시스템의 응답 품질 목표에 따라 개발에 소요되는 시간과 비용 소요가 달라집니다. 일반화 하기는 어렵지만, 특정 업무를 지원하는 어시스턴트(Assistant) 또는 에이전트(Agent) 역할의 생성형 AI 애플리케이션을 개발하는 경우를 가정하면, 2~3개월의 시간과 10MM 내외의 컨설턴트와 개발 인력 투입이 필요합니다.

5. RAG 시스템 도입 후, 지속적인 운영 및 유지보수를 위해 어느 정도의 인력과 비용이 필요한가요?

생성형 AI 애플리케이션의 속성상 데이터를 정제하기 위해 필요한 소요와 관련 기술의 빠른 발전 속도를 고려할 때, 핵심적이고 우선적인 업무를 대상으로 먼저 신속하게 구현 후 운영 환경하에서 단계적인 고도화를 통한 시스템 업그레이드 방안이 효율적으로 여겨집니다.

만약 RAG 시스템 도입 시 단계적인 고도화 구축 방안을 고민하고 계시다면, 운영과 동시에 고도화 개발을 수행할 수 있는 지원 체계 수립에 관한 적극적인 고려가 필요합니다. 이때 에이전트 개념의 AI 애플리케이션 수가 늘어날수록 운영 인력도 더 많이 필요하게 되며, 효율성의 관점에서 안정적인 운영 지원을 제공하는 파트너사의 활용을 하나의 방안으로 고려해보실 필요가 있습니다.

6. RAG 시스템의 자동화 수준은 어느 정도이며, 어떤 부분에서 사람의 개입이 필요한가요?

고객의 고유 지식과 최신 데이터를 반영하는 RAG 시스템 구축 방안 적용은 주요한 과제 입니다. 이때 데이터를 반영하는 주체와 시점 및 방식에 따라 자동화 수준이 결정되며, 생성형 AI 애플리케이션의 활용도를 높이는 측면에서 접근 및 사용 권한 체계를 간소화 하고, 권한이 있는 사용자(시스템 포함)들이 상시로 손쉽게 데이터의 실시간 업데이트 및 반영이 가능한 시스템 구현이 필요하다고 생각됩니다.

7. 기업에서 RAG 도입을 검토할 때, 컨설팅 회사의 역할은 무엇이며 어떤 서비스를 제공하나요?

대부분의 기업들이 RAG 도입 시 어떤 업무에 적용할 것인가에 관한 고민을 우선적으로 하게 되며, 내부적인 전문가가 부재한 경우가 많아서 도입 의사 결정 과정에서 어려움을 겪고 있습니다. 이때 고객의 고유 업무를 이해하면서도 RAG 도입 시 필요한 정보들을 가이드 해줄 수 있는 전문가의 지원이 필요합니다.

다만 RAG 시스템은 최근에 활발하게 도입되고 있는 최신 기술이 적용되고 매우 빠르게 진화하는 분야여서, 컨설팅 회사들도 전문성을 기반으로 고객과 함께 고민하고 해결책을 찾아가는 방안을 우선시하고 있습니다. 이에 저희 BSG도 AWS와 함께 고객의 요구사항을 정의하고 가장 핵심적인 내용들을 빠르게 검증해보는 개념 검증(PoC - Proof of Concept) 과정을 무상으로 지원하는 방안들을 제안 드리고 있습니다.

8. RAG 시스템의 사용자 인터페이스(UI)는 어떻게 구성되며, 사용자 친화적인 UI 설계를 위한 팁을 알려주실 수 있나요?

RAG 도입 시 사용자 편의성을 증대하면서도 질의 결과의 응답 품질을 높이기 위한 프롬프트 확장 및 UI 개발이 필요합니다. 이때 사용자가 질의하는 방식과 내용을 세밀히 분석하는 과정이 매우 중요하며, 이를 활용하여 쉽게 사용하면서도 응답의 품질을 높일 수 있는 UX 설계가 가능해집니다. 다만 사용자 편의성을 너무 많이 고려하면 기능적인 구현 난이도가 높아지고 구현 기간과 비용에 관한 부담이 증가하므로, 고객과의 적극적인 커뮤니케이션을 통해 적정한 수준에서 사용자 친화적인 UI 설계가 이루어져야 합니다.

9. BSG 파트너스는 어느 분야에 생성형 AI 프로젝트를 진행하셨는지요? 왜 이 영역을 가장 우선순위에 두셨는지 궁금합니다.

현재 저희 BSG에서 가장 우선 순위에 두고 생성형 AI 프로젝트를 진행하고 있는 분야는, 기업 내부 기술연구소에서 활용하는 논문과 특허 자료들을 기반으로 핵심 내용들을 요약하고 질의응답을 제공하는 AI 에이전드(AI Agent)를 구현하는 분야 입니다. 저희 BSG에서는 이미 3~4년 전부터 대기업의 연구소를 대상으로 빅데이터 기반의 머신러닝/딥러닝(ML/DL) 기술들을 활용한 연구지원시스템을 구축해 왔으며, 이에 자연스럽게 생성형 AI 기술을 접목해 고도화된 AI 연구원을 구현하는 프로젝트를 진행하고 있습니다. 향후 1~2년 내에 고객이 인정하는 가장 뛰어난 AI 연구원으로 성장시키는 목표로 지속적인 고도화에 힘쓰고 있습니다.

10. 이 프로젝트를 통해 얻으신 이점은 무엇인가요

현재 대부분의 기업들이 IT 투자 관점에서 가장 우선 순위를 두고 있는 생성형 AI 관련 도입 방안 중에서, 현 시점에서 투자 대비 성과 측면에서 가장 효율적인 방법이 RAG 기반AI 에이전트 구현임을 검증한 부분이 가장 의미 있었다고 생각합니다. 이에 관한 효과를 고객과 함께 검증하고 실사용 서비스로 이어진 사례여서 큰 의미가 있었으며, 이를 기반으로 환경안전 분야 및 내부 지식 자산 활용 분야 등으로 AI 에이전트 개념의 서비스를 확장해 적용하고 있습니다.

11. AI 인력 확보도 빼놓을 수 없습니다. 어떤 인력들로 경쟁력을 확보하고 계신지 궁금합니다.

- 우선적으로 기존 ML/DL 프로젝트를 수행했던 인력들이 생성형 AI 관련 최신 기술들을 학습해 각 분야의 리더로서 주도적인 역할을 수행하고 있습니다. 외부에서 AI 기술에 관한 경험과 지식을 이미 보유한 인력들을 확보하기는 어려운 상황이어서, 대학교(원)에서 연관된 전공 또는 과제 수행 경험을 보유한 인력들을 채용해 내부에서 교육 과정을 진행한 후 실제 PoC 및 프로젝트에 투입하여 실무 경험을 쌓도록 하고 있습니다. 더불어 AWS에서 파트너사 및 고객들을 대상으로 진행해주는 교육들을 활용하여 AI 전문가를 양성하는데 많은 도움을 받고 있습니다.

다만 AI 관련 모든 분야에서 전문 지식을 쌓고 인력을 양성하는 것은 현실적인 어려움이 있으므로, 분야별 전문적인 AI 파트너사와의 협업을 통해 차별화된 경쟁력을 확보하고 있습니다.

[테크수다 기자 도안구 eyeball@techsuda.com]

Newsletter
디지털 시대, 새로운 정보를 받아보세요!