작년부터 고객사 PoC에 들어갈 때마다 같은 장면이 반복된다.
“저희도 RAG 한번 깔아봤는데, 답을 너무 자주 지어내요.” 이 말을 듣는 빈도가 한 달이 멀다 하고 늘어났다. 얼마 전에는 한 제조 대기업 IT 본부장이 더 솔직한 표현을 던졌다. “이거 자료에서 직접 가져온 답인지, GPT가 그럴듯하게 만든 답인지 내가 판별할 수 없으면 임원 보고에 못 올려요.” 그분 입장이 정확하다. 임원 보고에 잘못된 숫자가 한 번 들어가면, 그 시스템은 다시는 신뢰를 회복하지 못한다.
이 문제는 RAG의 한계가 아니라 LLM의 본질이다. LLM은 확률 모델이다. 다음 토큰이 무엇일지 가장 그럴듯한 분포를 따라 출력한다. 이 확률 모델 위에 검색 결과를 붙여놓는 RAG는 환각을 줄이긴 하지만 본질적으로는 여전히 확률적이다. 그래서 RAG의 답은 “그럴듯하지만 정확하지는 않은 답”이 되기 쉽다. 단순 챗봇이라면 이게 큰 문제가 아닐 수도 있다. 그러나 의사결정 시스템에 들어가는 순간 이 작은 확률적 흔들림이 시스템 전체의 신뢰성을 무너뜨린다.
이 한계를 정면으로 다루는 새 개념이 시장에 등장했다. ‘판단 AI(Judgment AI)’ 그리고 ‘동적 온톨로지(Dynamic Ontology)’다. 이 용어가 본격적으로 거론되기 시작한 자리는 팔란티어 진영이 주도한 한 웨비나였는데, 그 안에 정리된 핵심 메시지가 꽤 무겁다. 생성 AI 다음 트렌드는 판단 AI이며, 정적 온톨로지로는 부족하니 동적 온톨로지로 전환해야 하고, 시맨틱-키네틱-다이나믹의 3계층 구조가 그 답이라는 것이다. 화장품 제조 공정 사례까지 함께 제시되면서, 추상 개념이 아닌 구체적 적용 모델로 그림이 그려졌다.
이전에 팔란티어 파운드리와 온톨로지가 진짜 의미하는 것 글에서 정적 온톨로지의 기본 구조를 다뤘는데, 오늘은 그 위에서 한 단계 더 나아가는 글이다. 정적 온톨로지가 어떻게 동적으로 진화하고, 그 동적 온톨로지 위에서 ‘판단 AI’라는 새 패러다임이 어떻게 작동하는지. RAG 파이프라인을 굴리면서 환각 문제와 매일 씨름해 본 입장에서, 이 새 개념이 마케팅 슬로건인지 실질적 진보인지를 가려보려 한다.
생성 AI의 한계, ‘판단 AI’라는 명명이 가리키는 진짜 문제
먼저 ‘판단 AI’라는 용어 자체부터 짚자. 솔직히 이 표현은 학술적으로 정립된 용어가 아니다. 시맨틱 웹, 인과 추론, 신경-기호 결합(Neuro-Symbolic AI) 같은 기존 개념들을 묶어서 부르는 마케팅 친화적 명명에 가깝다. 그러나 이 용어가 가리키는 문제 자체는 매우 실질적이다.
생성 AI의 본질적 한계가 무엇인가. LLM 기반 생성 AI는 확률 모델이기 때문에 환각 문제가 존재한다. 이 한 줄이 모든 것을 요약한다. LLM은 “이 문맥 다음에 어떤 토큰이 가장 그럴듯한가”를 계산하는 도구이지, “이 문맥에서 무엇이 진실인가”를 판단하는 도구가 아니다. 그래서 LLM은 모를 때 “모릅니다”라고 답하기보다, 그럴듯한 답을 지어내는 쪽으로 기운다. 이게 환각이다.
판단 AI는 이 한계를 데이터 구조 차원에서 풀자는 발상이다. 데이터의 무질서를 구조화하면, AI가 답을 지어낼 자리 자체가 줄어든다. “이 항공편의 정비 이력이 무엇인가”라는 질문에 LLM이 그럴듯한 답을 만들어내는 게 아니라, 미리 정의된 구조 위에서 결정론적으로 답을 끌어오는 방식 말이다. 답을 만드는 게 아니라 답을 찾는 구조다. 이게 LangGraph 멀티에이전트 RAG 문서 기반 질의응답의 새로운 패러다임 글에서도 강조했던 핵심이고, 동시에 팔란티어 AIP가 일반 RAG와 갈라지는 결정적 지점이기도 하다.
다만 솔직하게 한 가지 짚어두자. 판단 AI라는 용어가 마치 LLM을 대체하는 새 패러다임처럼 들릴 수 있는데, 실제로는 LLM과 구조화된 지식의 결합이다. LLM이 사라지는 게 아니라, LLM이 자유롭게 답을 만드는 자리에서 LLM이 구조화된 지식을 호출하는 자리로 역할이 바뀐다. 신경망(Neural)과 기호(Symbolic)의 결합, 즉 학계에서 오랫동안 논의되어 온 신경-기호 AI의 엔터프라이즈 버전이라고 보는 게 정확하다.
정적 온톨로지의 한계, 왜 다음 단계가 필요했나
여기서 자연스럽게 떠오르는 질문이 있다. 그렇다면 기존의 시맨틱 온톨로지는 왜 부족한가. 객체와 관계를 정의해 두는 정적 온톨로지로는 무엇이 안 되는가.
정적 온톨로지의 한계는 한마디로 ‘시간과 변화’를 다루지 못한다는 것이다. “Flight 객체는 여러 CrewMember를 가진다”라는 관계는 정적이다. 이게 어제도, 오늘도, 내일도 성립한다. 그런데 실제 비즈니스 의사결정에서 필요한 정보는 정적이지 않다. “이 항공편이 지난주 정비 지연으로 인해 어떤 후속 영향을 일으켰는가”, “이 부품 결함이 어떤 인과 경로로 다른 항공편들에 전파되는가” 같은 질문에는 시간 축과 인과 관계가 함께 들어와야 한다.
웨비나에서 이 한계를 짚은 표현이 인상적이다. 상관관계 중심에서 인과관계 추론으로의 변화가 필요하다는 것이다. 일반적인 데이터 분석은 상관관계에 머문다. “A와 B가 함께 발생하는 경향이 있다”라는 통계적 패턴까지가 한계다. 인과관계는 한 단계 더 깊다. “A가 B를 일으켰는가”를 판단하려면 시간 순서, 메커니즘, 반사실적 시나리오까지 함께 다뤄야 한다. 정적 온톨로지는 이걸 표현할 도구가 없다.
이 진단은 학술적으로도 정확하다. 인과 추론(Causal Inference)은 통계학과 머신러닝에서 별도의 분야로 발전해 왔는데, Judea Pearl의 do-calculus 같은 프레임워크가 그 대표다. 그러나 이 학술 도구들은 정형화된 통계 문제를 풀 때 강력하지만, 비즈니스 데이터의 무질서한 환경에 그대로 적용하기 어렵다. 동적 온톨로지는 이 간극을 데이터 모델링 차원에서 메우려는 시도다. 비즈니스 객체에 시간 축과 행위 축을 명시적으로 부여해서, 인과 추론이 작동할 수 있는 구조를 미리 깔아둔다.
시맨틱-키네틱-다이나믹, 3계층 구조의 의미
웨비나의 핵심 아키텍처가 시맨틱(의미), 키네틱(행위), 다이나믹(변화)의 3계층 구조다. 이 3계층이 단순한 분류가 아니라, 각 계층이 정확히 다른 질문에 답하도록 설계되어 있다.
시맨틱 계층은 “이것이 무엇인가”에 답한다. 항공편이라는 객체가 무엇이고, 어떤 속성을 가지며, 다른 객체와 어떤 관계를 갖는가. 이전 글에서 다룬 정적 온톨로지가 정확히 이 자리다. 모든 동적 분석의 기반이지만, 이것만으로는 변화하는 세계를 설명할 수 없다.
키네틱 계층은 “무엇이 일어나고 있는가”에 답한다. 객체들이 어떤 행위를 수행하며, 그 행위가 어떤 다른 객체에 영향을 미치는가. 항공편이 운항 중인지 정비 중인지, 부품이 교체되는 중인지 폐기되는 중인지 같은 행위 상태가 이 계층에 표현된다. 일반적인 시맨틱 온톨로지는 객체와 관계만 다루기 때문에 이 행위 차원이 누락된다. 그러나 실제 비즈니스 운영은 행위의 흐름이다. 행위를 일급 객체로 끌어올리는 것이 키네틱 계층의 핵심이다.
다이나믹 계층은 “이것이 시간이 지나며 어떻게 변화하는가”에 답한다. 객체와 행위의 상태가 시간에 따라 어떻게 변화했고, 어떤 인과 경로로 그렇게 됐으며, 미래에는 어떻게 진화할 것인가. 시뮬레이션과 예측이 이 계층에서 작동한다. 정적 온톨로지가 사진이라면, 다이나믹 계층은 영상이다. 그것도 과거를 되돌려보고 미래를 미리보기 할 수 있는 영상이다.
이 3계층이 함께 작동할 때, 비로소 “이 항공편의 정비 지연이 어떤 후속 영향을 일으켰는가”라는 인과 질문에 답할 수 있다. 시맨틱이 항공편과 정비라는 객체를, 키네틱이 정비 지연이라는 행위를, 다이나믹이 그 행위가 시간 축에서 다른 객체들에 어떻게 전파됐는지를 함께 표현해주기 때문이다. 환각이 들어갈 자리는 거의 없다. 답은 데이터 구조에서 결정론적으로 나온다.
화장품 제조 공정 사례, 동적 온톨로지가 작동하는 모습
웨비나에서 제시된 화장품 제조 공정 사례가 이 추상적 구조를 구체화하는 데 크게 도움이 됐다. 화장품 제조는 동적 온톨로지를 설명하기에 의외로 좋은 분야다. 왜냐하면 원료, 배합, 용기, 배치(batch), 검사 결과 같은 다양한 객체가 등장하고, 이들 사이에 시간 축의 인과 경로가 명확하게 흐르기 때문이다.
이 공정을 동적 온톨로지로 모델링하면 어떻게 그려지는지 한 번 따라가 보자. 시맨틱 계층에서는 원료(RawMaterial), 배합(Formula), 용기(Container), 배치(Batch), 검사 결과(QCResult)라는 객체와 그 사이의 관계가 정의된다. 한 배치는 여러 원료로부터 만들어지고, 한 용기에 담기며, 검사 결과가 연결된다. 여기까지는 정적 온톨로지에서 다루는 영역이다.
키네틱 계층으로 올라가면 행위가 등장한다. ‘혼합(Mix)’, ‘충전(Fill)’, ‘검사(Inspect)’, ‘폐기(Discard)’ 같은 행위가 객체들 사이에 일어난다. 한 배치가 어떤 라인에서 어떤 시간에 혼합되어 어떤 용기에 충전됐는지, 어느 검사 단계를 거쳤는지가 모두 일급 객체로 기록된다. 이 행위 기록이 있어야 사후에 “어느 단계에서 문제가 생겼는가”를 추적할 수 있다.
다이나믹 계층으로 올라가면 시간 축의 변화가 들어온다. 어떤 배치의 검사 결과가 시간이 지나면서 어떻게 변했는지, 어떤 원료의 품질 변동이 어떤 배치들에 영향을 미쳤는지가 시뮬레이션 가능한 형태로 표현된다. 만약 한 원료에서 결함이 발견됐다면, 동적 온톨로지는 즉시 그 원료가 들어간 모든 배치, 그 배치들이 충전된 모든 용기, 그 용기들의 출하 이력까지 인과 경로를 따라 추적해 낼 수 있다. 리콜 의사결정이 몇 시간이 아니라 몇 분 만에 결정된다.
이 사례가 흥미로운 이유는 한국 제조업의 현실과 너무도 잘 맞는다는 점이다. 화학, 반도체, 식품, 자동차 부품 같은 영역은 모두 비슷한 구조를 가진다. 원자재가 들어와서 여러 공정을 거치며 변환되고, 검사를 거치며 출하된다. 각 단계마다 시간이 지나며 상태가 변한다. 이런 영역에서 동적 온톨로지는 단순 데이터 분석이 아니라 추적 가능한 의사결정 시스템의 기반이 된다. 그리드원 GO;DO로 보는 한국형 에이전틱 자동화 글에서 다뤘던 한국형 자율 엔터프라이즈 청사진이 결국 이 동적 온톨로지를 향해 가고 있다.
파운드리 시스템 위에서 앱들이 어떻게 협업하는가
웨비나에서 또 하나 짚어볼 만한 부분이 파운드리 시스템 위에서 다양한 앱이 어떻게 활용되는지에 대한 설명이었다. 이 부분이 단순한 기능 소개를 넘어, 동적 온톨로지가 왜 운영체제 비유로 이해되어야 하는지를 보여준다.
파운드리에서 앱은 데이터 위가 아니라 온톨로지 위에서 작동한다. 무슨 차이냐. 일반적인 BI 도구는 SQL을 던져서 테이블에서 결과를 끌어온다. 파운드리 앱은 온톨로지에서 객체와 행위를 끌어온다. 그래서 한 화장품 회사에서 ‘품질 관리 앱’, ‘생산 계획 앱’, ‘리콜 시뮬레이션 앱’을 따로 만들어도, 이 앱들은 모두 같은 온톨로지를 공유한다. 한 앱이 만들어낸 데이터가 다른 앱에 즉시 반영되고, 한 앱에서 정의한 행위가 다른 앱에서 자연스럽게 호출된다.
이게 왜 중요한가. 한국 기업들이 AI 도입에서 거듭 실패해 온 가장 큰 이유 중 하나가 바로 이 부분이다. 한 워크플로씩 따로따로 만든다. 챗봇 PoC 따로, RAG 파이프라인 따로, RPA 시나리오 따로. 6개월 지나면 데이터 모델이 충돌하고 유지보수 비용이 도입 비용을 초과한다. 운영체제 없이 앱만 만들어 쓰는 셈이다. 동적 온톨로지가 깔린 환경에서는 이 문제가 구조적으로 해결된다. 모든 앱이 같은 운영체제 위에서 돌기 때문에, 새 앱을 추가해도 기존 앱과 자동으로 협업한다.
이 발상의 전환이 단발성 PoC와 플랫폼형 도입을 가르는 결정적 지점이다. 단발성 PoC는 빠르게 결과를 보여주지만 누적되지 않는다. 플랫폼형 도입은 초기 비용이 크지만 시간이 갈수록 가치가 누적된다. 한 자동화가 다음 자동화의 기반이 된다. 이게 그리드원이 말하는 ‘지식의 선순환’과 정확히 같은 발상이고, 팔란티어가 20년 동안 만들어온 운영체제 모델의 본질이기도 하다.
엔지니어 입장에서 정리하는 다섯 가지 실무 함의
여기까지 풀어낸 동적 온톨로지와 판단 AI의 개념을 실무 엔지니어 관점에서 다섯 가지로 정리하고 싶다.
첫째, 환각 문제는 모델 튜닝이 아닌 데이터 구조로 풀어야 한다. 더 좋은 LLM, 더 정교한 프롬프트, 더 큰 컨텍스트 윈도우. 이 모든 시도는 환각을 줄이긴 하지만 본질적으로 해결하지 못한다. 환각은 확률 모델의 본질이기 때문이다. 데이터를 구조화해서 LLM이 답을 만드는 자리가 아니라 답을 호출하는 자리로 역할을 옮기는 것이 본질적 해법이다.
둘째, 정적 온톨로지에서 멈추면 안 된다. 객체와 관계만 정의하는 시맨틱 단계는 출발점이지 도착점이 아니다. 행위를 일급 객체로 올리는 키네틱 단계, 시간 축의 변화와 인과를 모델링하는 다이나믹 단계까지 가야 비로소 비즈니스 의사결정 시스템이 된다. 이 진화 단계를 미리 설계에 포함해야 한다.
셋째, 신경-기호 결합 방식의 시스템 설계 능력을 키워야 한다. LLM을 도구로 호출하는 것과, LLM이 구조화된 지식을 호출하는 것은 완전히 다른 설계다. 후자가 환각을 통제하는 정답이고, 향후 엔터프라이즈 AI의 표준이 된다. LangGraph의 도구 호출 패턴, 팔란티어 AIP의 액션 시스템, MCP 표준이 모두 같은 방향을 가리킨다.
넷째, 인과 추론이라는 학술 도구에 친숙해져야 한다. 상관관계만으로는 답할 수 없는 비즈니스 질문이 점점 늘어난다. “왜 이 결과가 나왔는가”, “이 변수를 바꾸면 어떤 일이 일어날까”, “다른 선택을 했다면 어땠을까” 같은 반사실적 질문에 답하려면 인과 추론의 기본 개념을 익혀두는 게 필요하다. 모든 데이터 사이언티스트가 Pearl의 do-calculus를 마스터해야 한다는 뜻은 아니지만, 그 사고방식의 기본은 가지고 있어야 한다.
다섯째, 운영체제 사고로 옮겨가야 한다. 한 워크플로씩 따로 만드는 PoC 사고에서 벗어나, 한 번 깔면 그 위에서 여러 앱이 협업할 수 있는 플랫폼 사고로 가야 한다. 이게 실제로 가장 어려운 전환이다. 단기 ROI를 빠르게 보여줘야 하는 조직 압력 속에서 플랫폼형 투자를 정당화하기는 쉽지 않다. 그러나 이 전환을 해낸 조직과 그렇지 못한 조직 사이의 격차는 3년 후에 압도적으로 벌어진다.
환각의 시대 다음에 오는 것
이번 웨비나가 던진 메시지를 한 줄로 정리하면 이렇다. 생성 AI의 시대가 환각이라는 본질적 한계 앞에 멈춰 섰고, 그 한계를 넘는 다음 단계가 동적 온톨로지 위에서 작동하는 판단 AI라는 것이다. 시맨틱-키네틱-다이나믹 3계층 구조, 인과 추론 기반 의사결정, 신경-기호 결합 시스템. 용어는 다양하지만 가리키는 곳은 같다. 답을 지어내는 AI가 아니라 답을 추적할 수 있는 AI로의 전환이다.
이 전환이 한국 기업에 던지는 의미는 매우 실질적이다. 그동안 생성 AI 도입에서 가장 큰 걸림돌이 바로 환각 문제였다. 임원 보고에 못 올린다는 그 한 마디가 수많은 PoC를 사장시켜 왔다. 동적 온톨로지 기반의 판단 AI는 이 걸림돌을 데이터 구조 차원에서 푼다. 답이 추적 가능하면, 임원 보고에 올릴 수 있다. 답이 임원 보고에 올라가면, 그 시스템은 신뢰를 얻는다. 신뢰를 얻은 시스템은 다음 도입의 기반이 된다.
이 그림이 한국에서 어떻게 그려질지가 향후 3년의 관전 포인트다. 글로벌에서는 팔란티어가 20년의 축적으로 이 자리를 차지하고 있다. 한국에서는 그리드원, 포스코DX, 공공 RAG 플랫폼 같은 시도들이 자기 방식으로 이 모델을 재현하고 있다. 어느 쪽이 한국 시장의 표준이 될지는 아직 결정되지 않았다. 그러나 한 가지는 분명하다. 정적 온톨로지에서 멈춘 솔루션, 환각 통제 없는 RAG, 운영체제 없는 단발성 PoC는 다음 사이클에서 살아남기 어렵다.
엔지니어 입장에서 마지막으로 한 가지를 덧붙이고 싶다. ‘판단 AI’라는 용어가 마케팅적이라고 평가절하할 필요는 없다. 그 용어가 가리키는 문제 자체는 매우 실질적이고, 그 해법의 방향도 학술적 토대를 갖고 있다. 용어의 신선도가 아니라 그 안에 담긴 설계 철학을 보는 게 중요하다. 환각을 데이터 구조로 푼다는 발상, 시간과 인과를 데이터 모델에 명시적으로 포함시킨다는 발상, 답을 만드는 AI에서 답을 추적할 수 있는 AI로 옮겨간다는 발상. 이 세 가지 발상이 향후 엔터프라이즈 AI 아키텍처의 핵심 좌표다. 이 좌표 위에서 자기 시스템을 다시 그려보는 것, 거기서부터 다음 라운드의 경쟁력이 시작된다.