13.11 멀티모달(Multimodal) 및 Vision LLM 환경의 데이터 유효성 검사

13.11 멀티모달(Multimodal) 및 Vision LLM 환경의 데이터 유효성 검사

텍스트 기반의 언어 모델(LLM)이 표나 텍스트로 국한된 비정형 문서를 파싱했다면, GPT-4o나 Claude 3와 같은 비전 언어 모델(Vision-Language Model, VLM)의 도입은 청구서의 스캔 이미지, 손글씨, 차트, 심지어 모바일 화면의 캡처본까지 오라클(Oracle) 파이프라인의 입력(Input)으로 끌어들였다. 멀티모달 환경에서의 데이터 추출은 입력의 차원(픽셀 레이아웃, 색상, 공간적 구조)이 기하급수적으로 확장되는 만큼, 그 출력이 유효한지 검증하는 결정론적 오라클의 난이도 역시 극단적으로 상승한다.

1. 공간적 무결성(Spatial Integrity) 파괴 현상과 대응

VLM 시스템을 엔터프라이즈 환경에 적용할 때 가장 자주 겪는 치명적인 오류는 텍스트의 인식(OCR) 실패가 아니라, 데이터가 위치한 **‘공간적 레이아웃의 오독’**에서 발생한다.

  • 발생 사례: 영수증 이미지에서 ‘부가세(Tax)’ 항목과 ‘합계(Total)’ 항목의 숫자가 세로로 매우 가깝게 배치된 경우, 모델이 픽셀의 줄바꿈을 혼동하여 합계 금액을 부가세로 추출해버린다.
  • 물리적 레이아웃 검증 오라클: 이를 방지하기 위해 단순히 추출된 JSON의 스키마만 검증해서는 안 된다. 추출 프롬프트에서 각 데이터의 “Bounding Box 좌표(X, Y, W, H)“를 함께 반환하도록 강제해야 한다. 오라클은 추출된 텍스트와 그 좌표를 원본의 OCR(전통적인 Tesseract 등) 엔진 결과와 교차 검증하여, “해당 좌표에 그 텍스트가 물리적으로 존재하는가?“를 검사하는 ’공간 기반의 더블 체크(Spatial Double-check)’를 수행해야 한다.

2. 암시적 연산의 환각(Hallucination in Visual Reasoning) 차단

멀티모달 문서에서 테이블이나 막대그래프를 읽고 데이터를 추출할 때, 모델은 이미지 필터링 과정을 거치면서 자신이 ’직접 픽셀에서 읽은 값’인지 ’주변 픽셀을 통해 논리적으로 추론한 값’인지를 쉽게 혼동한다.

  • 발생 사례: 차트의 Y축 눈금이 10 단위로만 표시되어 있을 때, 막대의 끝이 15 근처에 있음을 보고 모델이 임의로 $14,800이라는 매우 구체적이고 확정적인 숫자를 산출해낸다.
  • 수학적 폐쇄성 검증: 재무 제표 시스템이라면 이미지 내의 ’부분합’의 총계가 ‘최종 합계’ 픽셀 값과 정확히 일치하는지를 검증하는 수학적 오라클(\sum Parts = Total) 구조를 도입해야 한다. 숫자 간의 정합성이 1이라도 빗나가는 순간, 해당 멀티모달 프롬프트 파이프라인 전체를 Fail 처리하고 인간 검수자(HITL)의 판독 대기열로 넘겨야(Handoff) 한다.

3. 원본 훼손 및 노이즈에 대한 결정론적 한계 설정

스캔된 이미지는 필연적으로 워터마크, 펀치 홀자국, 볼펜 낙서 등의 비결정적인 노이즈를 포함한다. 텍스트 LLM이라면 이러한 노이즈가 제거된 상태로 입력을 받겠지만, VLM은 노이즈 자체를 정보의 일부로 해석하여 엉뚱한 필드를 생성(Fabrication)해 내기도 한다.

  • 방어 전술: 멀티모달 파이프라인에서 구조화 출력(Structured Output)의 스키마를 정의할 때, confidence_score (0.0~1.0) 필드를 강제로 반환하게 하고, 이미지 내 해상도나 압축률 등 품질 메트릭을 평가하는 오라클을 두어야 한다.
  • 이미지 품질이 특정 임계치(Threshold) 미만이거나, 모델 스스로 계산한 픽셀 판독의 신뢰도가 낮을 경우, 오라클은 추출 로직을 중단시키고 사용자에게 “원본 이미지를 다시 선명하게 촬영해 주십시오“라는 예외 반환(Exception Feedback)을 즉각적으로 격발시켜야 한다.

멀티모달의 시대는 입력의 비정형성을 극대화하지만, 그 비정형성을 수렴시키는 종착지는 여전히 엄격하게 통제된 데이터베이스 열(Column)이다. 비전 AI의 시각적 추론(Visual Reasoning) 결과 역시 결국에는 형 변환, 수학 검증, 논리 모델의 다중 오라클 필터를 거쳐야만 신뢰할 수 있는 엔터프라이즈 데이터 자산으로 승격될 수 있다.