12.6.2 파괴적 쿼리(DROP, DELETE, UPDATE) 차단을 위한 정적 분석 필터링

데이터베이스 단에서 맹렬하게 작동하는 읽기 전용(Read-Only) 유저 권한 매핑(Mapping)과 트랜잭션 강제 롤백(Rollback) 메커니즘은, 설령 악의적인 쿼리가 샌드박스 내부로 침투하더라도 이것이 디스크 드라이브 메모리에 물리적인 피해를 입히고 사보타주(Sabotage)를 성공하는 것을 무자비하게 틀어 막아주는 훌륭한 “최후의 수문장(Last Line of Defense)“이다.

하지만, 초당 수백수천 건의 미세조정(Fine-Tuning) 벤치마크 평가를 리얼타임으로 쏟아내야 하는 진정으로 견고하고 고성능인 오라클(Oracle) 파이프라인 아키텍처라면, 방어의 이니셔티브를 데이터베이스에게만 위임해서는 안 된다. 이 파괴적이고 비정상적인 쓰레기 쿼리들이 굳이 네트워크를 타고 데이터베이스 엔진의 파서(Parser) 깊은 곳까지 뚫고 들어와 불필요한 데이터베이스 커넥션 풀(Connection Pool)을 낭비하고 쓸데없는 장애 로그를 발생시키기 전에, 오라클의 파이썬 애플리케이션 계층(Application Layer) 런타임에서 가장 먼저 멱살을 잡고 **공중 요격(Intercept)**해 내야만 한다.

이를 위해 오라클 인터프리터는 미지의 AI 에이전트(LLM)가 뱉어낸 무의미한 문자열 덩어리(SQL 추정 텍스트)를 커넥터 드라이버에 넘겨주기 직전에, 어떠한 예외도 없이 무조건적으로 정적 분석(Static Analysis) 기반 사전 검열 필터링을 거치도록 거대한 통제 라우터(Router) 방어선을 구축해야 한다.

1. 정규표현식(Regular Expression)을 통한 패턴 블랙리스트 블로킹

가장 가볍고, 가장 빠르며, 메모리를 소모하지 않고 직관적인 1차 요격 방어선은 전통적인 텍스트 검색 기술인 정규표현식(Regex)이다.
파이썬 엔진은 문자열 내부를 스니핑(Sniffing)하여, 상태를 변화시키는 파괴적인 DDL/DML 원시 키워드인 DROP, DELETE, UPDATE, INSERT, ALTER, TRUNCATE, EXEC 등이 포함된 악의적인 패턴을 블랙리스트(Blacklist)로 정의하여 탐지 즉시 파이프라인을 절단한다.

import re

# 엔터프라이즈급 샌드박스를 폭파시킬 수 있는 치명적 파괴 키워드 화망(Regex Pattern) 구축
DANGEROUS_SQL_PATTERN = re.compile(
    r'\b(DROP|DELETE|UPDATE|INSERT|ALTER|TRUNCATE|GRANT|REVOKE|EXEC|EXECUTE)\b', 
    re.IGNORECASE
)

def is_safe_query_by_regex(sql_query: str) -> bool:
    """ 블랙리스트 키워드가 단 하나라도 감지되면 즉각 False 반환 """
    if DANGEROUS_SQL_PATTERN.search(sql_query):
        return False
    return True

하지만, 이러한 단어 기반의 정규식 룰셋은 필연적으로 멍청하고 무식한 한계를 지닌다. 인간 개발자가 작성한 안전한 SQL 문자열 내부에 주석 파라미터로 포함된 단어(-- This table is not dropped)나 예측 쿼리의 문자열 인용구 내부(WHERE comments = 'We need to UPDATE the manual')에 포함된 순수한 단어까지 싸잡아서 오탐지(False Positive)하고 훌륭한 AI를 정지시키는 심각한 결함을 유발한다. 나아가, 숙련된 해커나 레드팀(Red Team)은 우회 헥스 코드 조작(D\x00ROP)이나 주석 쪼개기(DR/**/OP)를 통해 어리석은 정규표현식을 코웃음 치며 비웃을 수 있다.

2. AST (Abstract Syntax Tree, 추상 구문 트리) 기반의 엄격한 시맨틱 화이트리스트 필터링

정규식의 멍청한 거짓 양성(False Positive)과 해커의 교활한 프롬프트 인젝션 우회 공작을 애플리케이션 계층에서 동시에 완벽히 짓밟아 버리기 위해, 궁극의 오라클 정규화 파이프라인은 오픈소스 SQL 파서 모듈(예: sqlglot 혹은 moz_sql_parser)을 시스템 중앙 심장부에 이식하여 **‘AST(추상 구문 트리) 기반 시맨틱 필터링(Semantic Filtering)’**을 이중 가동해야만 한다.

AST 파서는 바보 같은 단순 문자열의 나열을 의미론적이고 구조적인 논리 트리(Semantic Tree)로 컴파일(Compile) 수준으로 환원시킨다. 이 강력한 트랜스포머를 통해 판별기는 블랙리스트를 뒤지는 짓을 멈추고, 오로지 생성된 구문 트리의 뿌리 노드(Root Node) 타입이 SELECT 이거나 오라클이 스키마 추출 용도로 안전성을 인가한 제한적인 CTE(WITH) 블록인지, 오로지 최소 권한의 화이트리스트(Whitelist) 방식으로만 엄격하게 심사하여 나머지를 전부 잘라내어 쳐낸다.

import sqlglot

def is_safe_query_by_ast(sql_query: str) -> bool:
    """ 문자열이 아닌 컴파일 트리 계층에서의 무결성 의미론 검사 """
    try:
        # LLM이 뱉은 쿼리를 AST 트리 배열 객체로 투명하게 분해 컴파일
        parsed_ast_trees = sqlglot.parse(sql_query)
        
        for tree in parsed_ast_trees:
            # 트리의 핵심 명령(Root) 구문 클래스가 Select가 아니라면 악성으로 취급하고 요격
            if not isinstance(tree, sqlglot.exp.Select):
                return False
        return True
    except sqlglot.errors.ParseError:
         # [패널티] LLM이 파싱조차 안 되는 언어적 쓰레기를 보냈다면 0점으로 무시하고 폐기
        return False

이 고해상도의 L7(애플리케이션 계층) 트리 필터링 방어선은 주석 분절, 헥스 우회 문자열 인코딩, 다중 스테이트먼트를 악용한 세미콜론(;) 인젝션 같은 더러운 꼼수 악당 짓을 AST 컴파일 시퀀스 단계에서 스스로 철저하게 분해(Decomposition)하여, 공격자가 의도한 “명령의 속성” 그 자체의 아키텍처를 투명하게 통찰해 낸다. 이 경이롭고 무결한 선제적 요격 시스템 덕분에 데이터베이스 엔진(L4)은 트랜잭션과 메모리를 단 1바이트도 낭비하지 않고 완벽히 평안한 샌드박스의 무결한 안식을 영구적으로 보장받게 되는 것이다.