며칠 전 한 컨퍼런스 자료를 정리하다가 한 장의 슬라이드 앞에서 한참을 멈췄다.
판별 AI(Discriminative AI), 생성 AI(Generative AI), 판단 AI(Decisive AI)를 한 표에서 직접 비교한 슬라이드였다. 주요 역할, 기술적 특징, 데이터 의존성, 협업 방식, 한계까지 모두 나란히 놓고 보여주는데, 이 표가 흥미로웠던 이유는 그동안 머릿속에서 흩어져 있던 개념들이 한 그림으로 정렬됐기 때문이다. 한 줄로 표현하면 이렇다. 판별 AI는 데이터를 분류하는 ‘감정 없는 심판관’, 생성 AI는 새로운 콘텐츠를 만들어내는 ‘창의적 작가’, 판단 AI는 환경을 분석해 행동을 결정하는 ‘개인 비서 겸 전략적 판단자’라는 비유였다.
같은 자료에서 한 발 더 나아간 슬라이드가 또 한 장 있었다. “지금 시점에 GraphRAG와 온톨로지가 뜨는 이유”라는 제목의 슬라이드. 생성 AI인 LLM과 AI 에이전트 서비스에서부터 촉발된 RAG 기술이 검색 정확도 문제와 추론 능력 부재로 인해 온톨로지 또는 지식그래프 쪽으로 방향을 선회하고 있다는 한 줄 요약. 그 아래에 ‘Hybrid RAG: 벡터DB → 그래프DB 조합 방식’이라는 파이프라인 도식이 함께 그려져 있었다. 이 두 장의 슬라이드를 함께 놓고 보면 명확해진다. 우리는 지금 AI 패러다임의 한 가지 분기점을 통과하고 있다.
이전에 팔란티어 파운드리와 온톨로지 글에서 정적 온톨로지의 의미를 다뤘고, 그 다음 동적 온톨로지와 판단 AI 글에서 시맨틱-키네틱-다이나믹 3계층의 진화를 짚었다. 오늘 글은 그 클러스터의 세 번째 자리다. 두 가지를 풀어보려 한다. 첫째, 판별 AI와 생성 AI와 판단 AI(Decisive AI)가 정확히 무엇이 다르고, 왜 인류 AI 기술이 자율성을 가지는 판단 AI로 향하고 있는가. 둘째, 그 판단 AI가 작동하기 위해 RAG 아키텍처가 어떻게 진화해야 하며, GraphRAG와 Hybrid RAG가 그 답이 되는 이유는 무엇인가. RAG 파이프라인을 매일 굴리는 입장에서, 슬라이드의 추상적 표현 뒤에 있는 실무 무게를 함께 풀어보겠다.
인간 뇌의 의사결정 프로세스로 본 AI의 진화 단계
먼저 자료에서 가장 인상적이었던 한 장면부터 짚자. 사람 뇌의 의사결정 프로세스를 0번부터 7번까지 단계로 정리한 슬라이드였다. 정보의 인식 및 분류, 개별 정보의 분포·이상치 파악, 시간·공간·관계·등급 기준의 패턴 도출, 규칙으로 기규정된 패턴 학습, 패턴의 일반화와 학습 반복, 선후 사실에 대한 인과관계 추론과 다변 사실에 대한 상관관계 추정, 재현 가능 가설 기반 조건부 예측, 그리고 예측 변수 교차 수정을 통한 최적화 반복.
이 8단계 위에 인간 인지의 8가지 능력이 매핑된다. 감각, 인식, 인지, 학습, 추론, 예상 및 예측, 의사결정, 창조, 상상이다. 여기서 흥미로운 분류가 시작된다. 감각부터 학습까지의 영역, 즉 입력을 분류하고 패턴을 학습하는 영역은 ‘판별 AI’의 자리다. 추론과 예상 및 예측의 영역, 즉 인과 관계와 조건부 시나리오를 다루는 영역은 ‘판단 AI’의 자리다. 의사결정과 창조와 상상의 영역, 즉 새로운 산출물을 만들어내는 영역은 ‘생성 AI’의 자리다.
이 매핑이 단순한 분류 놀이가 아닌 이유가 있다. 우리가 지난 몇 년간 ‘AI 혁명’이라고 불러온 흐름은 사실 생성 AI의 폭발적 성장이었다. ChatGPT가 글을 쓰고, Midjourney가 그림을 그리고, Suno가 음악을 만든다. 그런데 이 영역은 인지 단계로 보면 한참 위쪽이다. 창조와 상상의 영역. 정작 그 사이에 있어야 할 추론과 예측, 즉 판단 AI의 영역은 상대적으로 비어 있었다. 우리는 학습된 패턴 위에서 그럴듯한 출력을 만들어내는 능력은 키웠는데, 그 패턴 사이의 인과를 추론하고 미래를 예측하는 능력은 충분히 키우지 못한 것이다.
이 빈자리를 메우려는 시도가 바로 ‘판단 AI’다. 자료에서 명명한 ‘Decisive AI’라는 영문 표기가 이 의도를 잘 드러낸다. 단순히 판단을 잘하는 AI가 아니라, 결정을 내리는(decisive) AI다. 판별과 생성 사이에 있던 가장 어려운 인지 단계, 인과 추론과 조건부 예측의 자리. 그래서 자료는 인류 AI 기술이 최종적으로 자율성을 가지는 판단 AI로 향하고 있다고 결론짓는다.
여담이지만 이전 글에서 같은 개념을 ‘Judgment AI’라고 적었는데, 이번 자료에서는 ‘Decisive AI’로 명명한다. 두 표현은 동일한 개념을 가리키는 다른 영문 표기다. ‘Judgment’는 판단의 인지적 측면을, ‘Decisive’는 그 판단이 결정과 행동으로 이어진다는 자율성 측면을 강조한다. 같은 곳을 다른 각도에서 보는 셈이다.
판별 AI와 생성 AI, 그리고 판단 AI의 결정적 차이
자료에서 세 AI의 차이를 한 표로 정리한 부분이 압권이었다. 이 비교가 왜 중요한지를 풀어보자.
판별 AI(Discriminative AI)는 입력 데이터를 분류하고 예측하고 판별하는 역할을 한다. 지도학습 기반에 분류와 회귀가 중심이고, 기존 데이터에 강하게 의존한다. 스팸 필터링, 이미지 분류, 음성 인식이 대표 사례다. 이 영역은 사실 딥러닝 시대의 첫 번째 성공 사례들이 모여 있는 자리다. 자료에서 짚었듯이 딥러닝 기술이 출현한 이후 이미지·음성·영상 등 라벨링된 비정형 데이터를 통해 직관적이고 생성적인 AI 알고리즘 개발이 가능했지만, 이는 전통적 판별 AI 모델에 그쳤다는 평가가 정확하다. 이미지에서 얼굴을 찾고, 동영상에서 청중 집중도를 분석하고, OCR로 글자를 읽어내는 작업들. 매우 유용하지만, 본질적으로 ‘있는 것을 분류하는’ 일에 머문다.
생성 AI(Generative AI)는 기존 데이터를 바탕으로 새로운 콘텐츠를 생성한다. 딥러닝과 대규모 언어 모델이 기술적 특징이고, 텍스트·이미지·음성 생성이 주요 기능이다. 글쓰기, 이미지·영상 제작, 대화형 응답이 대표 사례다. 한계도 명확하다. 사실 검증 어려움, 행동 수행 불가. 이 두 한계가 결정적이다. 사실 검증이 어렵다는 건 환각이 본질적이라는 뜻이고, 행동 수행이 불가하다는 건 출력은 만들지만 그 출력으로 무언가를 직접 일으키지 못한다는 뜻이다. 창의적 작가지만, 그 작품을 가지고 의사결정을 내리지는 못하는 존재다.
판단 AI(Decisive AI)는 환경 분석 기반의 의사결정과 행동 선택을 수행한다. 에이전틱 AI, 목표 지향적, 자율적 행동이 기술적 특징이고, 기존 데이터 더하기 실시간 환경 인식 및 피드백을 함께 다룬다. 자동 회의 예약, 금융 거래 판단, 의료 진단 보조가 주요 기능이다. 협업 방식이 흥미로운데, 인간과 의사결정을 공동 수행하는 실행 주체로 기능한다는 점이다. 단순 보조 도구가 아니라 함께 결정을 내리는 파트너의 위치다.
이 세 AI의 차이를 명확히 하는 가장 좋은 방법은 한계를 비교해 보는 것이다. 판별 AI의 한계는 창의적 결과의 부족과 단순 데이터 의존이다. 생성 AI의 한계는 사실 검증 어려움과 행동 수행 불가다. 판단 AI의 한계는 법적 책임, 신뢰성, 설명 가능성 문제다. 한계의 결이 완전히 다르다. 판별 AI와 생성 AI의 한계가 기술적 한계라면, 판단 AI의 한계는 사회적·법적 한계다. 이게 무엇을 의미하느냐. 판단 AI는 기술적으로는 이미 작동하기 시작했지만, 그 작동이 사회 시스템에 들어오는 데는 다른 차원의 문제들이 함께 따라온다는 뜻이다.
자료가 비유로 정리한 한 줄이 적절하다. 판별 AI는 감정 없는 심판관, 생성 AI는 창의적 작가, 판단 AI는 개인 비서 겸 전략 판단자. 심판관은 옳고 그름을 판별하지만 결정을 내리지 않는다. 작가는 새로운 작품을 만들지만 행동을 일으키지 않는다. 비서 겸 전략 판단자는 환경을 분석하고 결정을 내리며 행동을 일으킨다. 이 마지막 단계가 곧 우리가 가야 할 자리다.
그렇다면 판단 AI는 어떻게 만들어지는가, GraphRAG의 등장
여기까지가 개념의 정리라면, 그 다음 질문이 가장 중요하다. 그 판단 AI는 어떻게 만들어지는가. 이게 자료의 두 번째 핵심 슬라이드가 답하려 한 질문이다.
자료의 진단은 정확하다. 생성 AI인 LLM과 AI 에이전트 서비스에서부터 촉발된 RAG 기술이 현재 검색 정확도 문제와 추론 능력 부재로 인해 온톨로지(시맨틱 레이어) 또는 지식그래프 쪽으로 방향을 선회하고 있다는 것. 이 한 줄이 RAG 진화의 분기점을 정확히 찍었다.
기존 RAG의 한계가 무엇인지부터 다시 짚자. 일반적인 RAG는 문서를 청크로 자르고 임베딩한 다음, 사용자 질문도 임베딩해서 벡터 유사도로 검색한 뒤, 그 결과를 LLM 컨텍스트에 넣어 답을 생성하는 구조다. 이 구조의 결정적 약점이 두 가지다. 첫째는 검색 정확도다. 벡터 유사도는 의미적으로 비슷한 텍스트를 찾아내지만, 정확히 맞는 데이터를 찾아내지는 못한다. 두 번째는 추론 능력이다. 단일 청크 안에 답이 다 있어야 한다. 여러 데이터 소스를 조합해서 답을 도출해야 하는 질문에는 약하다.
“인천발 LA행 작년 4분기 항공편 중 정비 지연이 있었던 사례를 부품 결함과 연결해서 보여줘.” 이런 질문이 들어오면 일반 RAG는 손을 든다. 항공편 정보, 정비 이력, 부품 정보가 각각 다른 데이터 소스에 있고, 이 셋을 의미적으로 연결해야 하는데 벡터 유사도만으로는 그 연결이 만들어지지 않는다. 결국 LLM이 부분 정보를 받아서 그럴듯하게 추측한 답을 만들어낸다. 이게 환각의 가장 흔한 발생 패턴이다.
GraphRAG는 이 문제를 정면으로 푼다. 데이터 사이의 관계를 그래프 구조로 미리 정의해 두고, 질문이 들어오면 그 그래프 위에서 관계 기반 탐색을 수행한다. 항공편 → 정비 이력 → 부품의 관계가 그래프로 명시되어 있으니, “정비 지연된 항공편에 들어간 결함 부품”이라는 경로 탐색이 결정론적으로 가능하다. 답을 만드는 게 아니라 답을 찾는 구조다. 이 발상은 동적 온톨로지와 판단 AI 글에서 다룬 시맨틱-키네틱-다이나믹 3계층 구조와 정확히 같은 좌표를 향한다. 온톨로지가 깔린 위에서 작동하는 RAG가 곧 GraphRAG다.
다만 GraphRAG에도 약점이 있다. 그래프 구조 안에 없는 정보, 즉 비정형 텍스트로 흩어져 있는 지식을 다루기는 어렵다는 점이다. 그래서 등장한 것이 Hybrid RAG다.
Hybrid RAG, 벡터DB와 그래프DB의 결합 방식
자료의 다이어그램이 매우 직관적이다. 질문 입력 → 임베딩 생성 → 벡터DB 유사도 검색을 수행한 뒤, 그 결과로 후보 문서·엔티티·ID 리스트를 추출한다. 이 후보 리스트가 그래프DB로 들어간다. 그래프DB에서 관계 기반 추가 탐색 및 검증이 이루어지고, 그 결과가 LLM 컨텍스트로 통합된 뒤, 최종 답변이 생성되는 흐름이다.
이 파이프라인의 핵심은 “벡터DB와 그래프DB가 서로 보완한다”는 발상이다. 벡터DB는 의미적 유사도가 강점이지만 정확도와 관계 탐색이 약하다. 그래프DB는 관계 탐색과 정확도가 강점이지만 의미적 유사도 처리가 약하다. 이 둘을 직렬로 연결해서 각자의 강점만 살리는 구조다. 처음에는 벡터DB로 후보군을 빠르게 좁히고, 그다음 그래프DB로 정확하게 검증하고 확장한다.
실무적으로 이 구조를 짤 때 가장 자주 부딪치는 문제가 있다. 벡터DB와 그래프DB가 같은 엔티티를 어떻게 연결하느냐다. 벡터DB의 청크가 그래프DB의 어떤 노드에 대응하는지를 명확히 해두지 않으면, 두 검색 결과를 합칠 때 충돌이 생긴다. 이 부분의 표준적 해법이 엔티티 ID를 양쪽 DB에 함께 보관하는 방식이다. 벡터DB에 청크를 저장할 때 메타데이터로 그래프 노드 ID를 함께 넣어두면, 벡터 검색 결과를 그대로 그래프 탐색의 진입점으로 쓸 수 있다.
또 하나 자주 빠지는 함정은 “그래프를 너무 미리 만들려는” 욕심이다. 모든 문서를 다 분석해서 완벽한 지식그래프를 만들어 두고 그 위에서 RAG를 돌리겠다는 접근은 대체로 실패한다. 도메인 전문가의 시간이 너무 많이 들어가고, 한 번 만들어 두면 변화에 대응하기 어렵다. 더 실용적인 접근은 점진적 그래프 구축이다. 핵심 엔티티와 관계만 먼저 정의해 두고, 사용자 질문이 들어오면서 부족한 부분을 LLM이 자동으로 채워가는 방식이다. LangGraph로 멀티에이전트 시스템을 구축할 때도 같은 원칙이 적용된다. 한 번에 완벽한 시스템을 만들려 하지 말고, 작동하는 최소 시스템에서 출발해 점진적으로 확장하는 것. 이런 점진 구축 패턴은 LangGraph 멀티에이전트 RAG 글에서도 길게 풀어둔 적 있다.
Hybrid RAG가 판단 AI로 가는 다리인 이유
여기서 중요한 연결점이 등장한다. Hybrid RAG가 단순히 검색 정확도를 높이는 도구가 아니라, 판단 AI로 가는 다리라는 점이다.
판단 AI의 본질적 요건이 무엇이었는지 다시 떠올려 보자. 환경 분석 기반의 의사결정과 행동 선택. 자율적 행동. 인간과의 의사결정 공동 수행. 그리고 그 작동을 가능하게 하는 핵심 능력은 인과 추론이었다. 어떤 사실이 어떤 결과를 일으키는지, 어떤 변화가 어떤 영향을 줄지를 데이터에서 끌어내는 능력.
일반 RAG는 이 인과 추론을 거의 수행하지 못한다. 검색된 텍스트를 LLM에게 던져 주고 LLM이 알아서 추론하기를 기다리는 구조이기 때문이다. LLM의 추론은 학습된 통계적 패턴 위에서 작동하기 때문에, 데이터에 없는 인과를 만들어 내거나 데이터에 있는 인과를 놓치는 일이 자주 일어난다. 환각의 또 다른 얼굴이다.
GraphRAG와 Hybrid RAG는 이 인과 추론의 일부를 데이터 구조로 끌어 올린다. 그래프 위에서 “A가 B에 영향을 미친다”는 관계가 명시적으로 표현되어 있으면, 인과 경로 탐색은 LLM의 추측이 아니라 그래프 위의 결정론적 연산이 된다. LLM은 그 결과를 자연어로 정리하는 역할만 맡는다. 답을 만드는 자리에서 답을 정리하는 자리로 LLM의 역할이 옮겨가는 것. 이게 판단 AI 시대의 LLM이 맡아야 할 자리다.
자료에서 판단 AI의 한계로 짚은 “법적 책임, 신뢰성, 설명 가능성 문제”도 이 구조에서 자연스럽게 풀린다. 답이 그래프 위에서 결정론적으로 나왔기 때문에, 그 답에 도달한 경로를 그대로 추적할 수 있다. “이 결정이 어떤 근거로 내려졌는가”를 그래프 경로로 보여줄 수 있다. 설명 가능성이 시스템 차원에서 확보된다. 법적 책임 문제도 마찬가지다. 답이 어떤 데이터에서 어떤 경로로 도출됐는지 감사 로그가 남기 때문에, 사후 검증이 가능하다.
한국 시장에서 이 흐름이 의미하는 것
지금까지 정리한 내용을 한국 엔터프라이즈 시장 관점에서 다시 정리해 보자. 판별 AI, 생성 AI 단계는 이미 한국 기업들이 도입을 시도해 왔다. 이미지 분류, OCR, 챗봇, 문서 요약 같은 영역들. 그런데 그 이상으로 가지 못한 채 막혀 있는 PoC들이 매우 많다. 이유가 두 가지다. 첫째는 환각 문제고, 둘째는 단발성 PoC가 누적되지 못하는 구조 문제다.
GraphRAG와 Hybrid RAG로 가는 흐름은 이 두 문제를 함께 푼다. 환각 문제는 데이터 구조로 풀고, 누적 문제는 운영체제 사고로 푼다. 그래프 위에 데이터를 모델링해 두면, 새 워크플로를 추가할 때마다 처음부터 다시 시작할 필요가 없다. 기존 그래프 위에 새 관계와 새 행위를 추가하면 된다. 이게 팔란티어 파운드리 글에서 다룬 운영체제 비유의 본질이고, 그리드원의 GO;DO 플랫폼이 ‘지식의 선순환’으로 표현한 발상이며, 포스코DX의 A.WORKS가 ‘과제별 맞춤형 AI 적용 체계’라는 이름으로 그리는 좌표다.
흥미로운 점은 한국 기업들이 이 좌표를 자기 방식으로 재현하고 있다는 점이다. 글로벌의 팔란티어가 20년의 축적으로 자리잡은 그 위치를, 한국에서는 그리드원·포스코DX·공공 RAG 플랫폼이 분산해서 만들어가고 있다. 어느 쪽이 한국 시장의 표준이 될지는 아직 결정되지 않았지만, 한 가지는 분명하다. 단발성 PoC, 환각 통제 없는 RAG, 운영체제 없는 챗봇은 다음 사이클에서 살아남기 어렵다.
엔지니어 입장에서 정리하는 다섯 가지 실전 체크리스트
이 글의 마지막 부분에서 GraphRAG와 판단 AI를 향해 가는 엔지니어가 점검해야 할 다섯 가지를 정리하고 싶다.
첫째, 자기 시스템이 판별 AI인지 생성 AI인지 판단 AI인지 정확히 구분한다. 챗봇이라고 해서 다 판단 AI가 아니다. 단순히 답변을 생성한다면 그건 생성 AI다. 환경을 분석하고 결정을 내리고 행동을 일으킨다면 그것이 판단 AI다. 자기 시스템의 좌표를 정확히 알아야 다음 단계가 보인다.
둘째, RAG 파이프라인에서 검색 정확도가 부족하다고 느낀다면 GraphRAG 도입을 고민할 시점이다. 임베딩 모델을 바꾸고, 청크 크기를 조정하고, 리랭커를 추가해도 풀리지 않는 한계가 있다. 그 한계는 구조적 한계다. 데이터 사이의 관계를 명시적으로 모델링하는 단계로 올라가야 한다.
셋째, Hybrid RAG로 가더라도 한 번에 완벽한 그래프를 만들려 하지 않는다. 점진적 구축이 정답이다. 핵심 엔티티 5~10개, 그 사이의 핵심 관계 10~20개로 시작해서 사용자 질문이 들어오는 패턴을 따라 확장한다. 이 점진 구축의 운영 부담을 줄이는 것이 LLM의 새 역할이다. LLM이 자동으로 그래프를 확장하고 검증하게 만든다.
넷째, 설명 가능성을 처음부터 시스템 요구사항에 포함시킨다. 답이 어떻게 도출됐는지 사후에 추적할 수 없다면 그 시스템은 프로덕션에 들어가기 어렵다. 특히 금융, 의료, 공공 영역은 이게 규제 요건이다. 그래프 경로 추적, LLM 호출 로그, 사용자 검증 기록을 모두 시스템에 내장한다.
다섯째, 인과 추론에 친숙해진다. 상관관계만으로는 답할 수 없는 비즈니스 질문이 점점 늘어난다. “왜 이 결과가 나왔는가”, “이 변수를 바꾸면 어떻게 되는가”, “다른 선택을 했다면 어땠을까” 같은 반사실적 질문에 답할 수 있어야 판단 AI다. Pearl의 do-calculus 같은 학술 도구까지 마스터할 필요는 없지만, 그 사고방식의 기본은 익혀둔다.
인류 AI 기술이 향하는 자리
이번 자료가 짚은 한 줄로 글을 닫고 싶다. “인류의 AI 기술은 최종적으로 자율성을 가지는 판단 AI로 향하고 있다.”
이 한 줄이 지난 5년의 AI 변화를 정확히 요약한다. 판별 AI에서 시작해, 생성 AI라는 폭발적 사이클을 지나, 이제 판단 AI라는 다음 단계로 옮겨간다. 각 단계는 이전 단계를 폐기하지 않는다. 판단 AI 안에는 판별 AI의 분류 능력이, 생성 AI의 자연어 처리 능력이 함께 들어 있다. 다만 그 위에 환경 인식과 의사결정과 자율 행동이라는 새 층이 추가된다.
그 새 층이 작동하기 위해 필요한 것이 데이터의 구조화다. 단순한 벡터 검색이 아니라 관계 기반 탐색. 단순한 텍스트 청크가 아니라 의미 단위의 객체와 행위. 단순한 통계적 패턴이 아니라 명시적 인과 모델. 이 모든 것이 GraphRAG와 온톨로지가 지금 시점에 다시 떠오르는 이유다. 시맨틱 웹의 오래된 약속이 LLM 시대를 만나 마침내 산업의 중심으로 들어오고 있다.
엔지니어 입장에서 이 변화를 어떻게 받아들여야 하느냐. 가장 정직한 답은 “지금 자기 시스템에 그래프 한 줄을 추가하라”는 것이다. 모든 데이터를 한 번에 그래프로 옮길 필요는 없다. 가장 자주 묻는 질문 한 가지에 답하기 위한 최소한의 그래프 한 줄. 그 한 줄에서 출발해서 시스템이 점진적으로 진화하도록 만든다. 1년 뒤에 돌아보면 그 한 줄이 운영체제로 자라 있을 것이다. 그게 판단 AI 시대를 향해 가는 가장 현실적인 첫걸음이다.