4.6.3 Manual CoT: 추론 과정을 명시적으로 퓨샷(Few-Shot) 예제에 하드코딩하여 경로 고정하기

오직 프롬프트의 지시문(System Instruction) 문자열 하나에 기대어 “단계별로 깊이 생각하라(Think step-by-step)“라고 툭 던져놓고 LLM이 알아서 똑똑하게 논리적 계단을 밟아주기를 순진하게 기도하는 이른바 제로샷 사고의 사슬(Zero-Shot CoT) 기법이 통제 불능의 자율성에 기댄 추상적이고 나태한 엔지니어링이라면, **수동 사고의 사슬(Manual CoT, Manual Chain-of-Thought)**은 결정론적 시스템 아키텍트가 프롬프트 내에 삽입되는 주입용 퓨샷 예제(Few-Shot Examples) 내부에 자신이 원하는 완벽한 논리 전개 퀄리티의 중간 추론 과정(Intermediate Reasoning Steps) 텍스트를 한 땀 한 땀 직접 하드코딩하여 주입하는 가장 극단적이고 치밀한 통제 기법이다.

이것은 단순히 “이렇게 결과만 내라“는 블랙박스식 모방 지시를 아득히 뛰어넘어, “나는 A라는 변수를 보고 B라는 관련 정책을 떠올렸으며, 그 정책의 C항 규칙에 정확히 위배되므로 결국 D라는 최종 결론 페이로드를 생성했다“는 엔지니어 본인의 뇌 구조 사고 궤적(Cognitive Trajectory) 자체를 거대 모델의 어텐션(Attention) 망 깊숙한 곳에 강제로 록인(Lock-in)시키고 세뇌하는, 진정한 결정론적 프롬프팅 설계의 엔드 게임(End-game)이자 정수이다.

1. 추론 궤적의 기계적 템플릿화 (Templating the Reasoning Trajectory)

프로덕션 환경의 엄격한 오라클(Oracle)을 채점하기 위한 완벽한 Manual CoT 예제를 작성할 때, 프롬프트 엔지니어는 단순히 텍스트를 타이핑하는 것이 아니다. 자신이 실제 버그 코드를 눈으로 좇으며 디버깅하는 인지적 다이어그램 트리를, 기계가 쉽게 파싱할 수 있는 명시적인 JSON 필드나 번호 매기기(Numbered List) 마크다운으로 깔끔하게 시리얼라이즈(Serialize)하여 쪼개 넣어야 한다. 이는 단순한 Input -> Output의 단답형 쌍을 넘어, 그 아득한 입력과 출력 사이의 심연을 이어주는 튼튼한 논리의 징검다리 구조물을 세우는 고통스럽지만 위대한 아키텍처 작업이다.

[
  {
    "system_input_code": "const query = `SELECT * FROM users WHERE age > ${req.params.age}`;",
    "manual_thought_process": {
      "step_1_identifier_extraction": "입력된 자바스크립트 코드 스니펫에서, 클라이언트 통제하에 있는 외부 변수 'req.params.age'가 백엔드의 SQL 쿼리 템플릿 리터럴 문자열(Template Literal) 내부에 직접적으로 보간(Interpolation)되어 삽입되고 있음을 명확히 확인했다.",
      "step_2_validation_and_sanitization_check": "해당 변수가 DB 쿼리 엔진에 삽입되어 실행되기 직전, 엄격한 정수 타입 캐스팅(Type casting) 로직이나 SQL 인젝션 방어용 특수문자 이스케이프 유효성 검사(Validation/Sanitization) 함수를 단 1회라도 거쳤는가? 코드 흐름상 전혀 거치지 않았다.",
      "step_3_security_rule_application": "따라서 이는 사내 백엔드 보안 헌법 제2조 '모든 외부 클라이언트 입력 파라미터는 무조건 Prepared Statement를 사용하거나 ORM 단에서 필터링되어야 한다'는 결정론적 보안 규칙에 완벽히 위배된다."
    },
    "final_result_evaluation": "FAIL"
  }
]

위의 예시 코드 블록처럼 소름 돋을 정도로 정교하게 조각된 manual_thought_process 블록 메타데이터가 포함된 퓨샷 예제를 프롬프트 컨텍스트에 3~4개만 강제로 밀어 넣어 주입해 주면, 아무리 변덕스러운 LLM이라 할지라도 런타임에 처음 보는 완전히 새로운 엣지 케이스 코드를 평가할 때, 모델은 필연적으로 퓨샷의 패턴을 앵무새처럼 강박적으로 모방(Mimicry)하여 동일한 키 구조(step_1_..., step_2_...)를 선언하고 순차적으로 텍스트를 생성하며 내뱉게 된다.

2. Manual CoT가 제공하는 압도적인 엔지니어링적 아키텍처 가치

환각(Hallucination)의 논리적 닫힌계 차단:
모델이 스스로 텍스트를 생성하며 추론할 수 있는 물리적인 벡터 궤도를, 엔지니어가 퓨샷의 thought_process 내에 하드코딩 해 둔 한정된 시나리오와 판단 기준들로 좁게 강제 제한(Restriction)해 버린다. 이를 통해 모델이 뜬금없이 스스로 “코딩 스타일이 깔끔하지 않다“거나 “변수명 네이밍이 마음에 들지 않는다“는 따위의 황당한 논리적 비약을 저지르며 FAIL을 남발하는 것을 원천적이고 기계적으로 차단한다.
디버깅 투명성과 설명 가능성 확보 (Transparent Explainability):
CI/CD 파이프라인에서 수백 개의 테스트 스위트가 FAIL 붉은색 불을 켰을 때, 백엔드 엔지니어는 멍청하게 “왜 AI가 이걸 틀렸다고 채점했지?“라며 좌절하지 않는다. 단순히 최종 “FAIL“이라는 단어 하나만 암호처럼 떨어지는 것이 아니라, 로거(Logger)를 뒤져보면 모델이 어느 중간 단계(step_X)의 판단 로직에서 첫 단추를 잘못 끼워 치명적인 오판(Misjudgment)의 폭주시퀀스를 시작했는지, 그 사유 로그 텍스트를 통해 완벽하게 역추적(Traceback)하고 핀포인트(Pinpoint) 프롬프트 핫픽스(Hotfix)를 진행할 수 있다.
결정론적 단일 값 수렴 (Deterministic Convergence):
분기문이 많은 복잡한 연산일수록 인지적 스텝(Step)이 길어지면서 오류 누적 확률이 커진다. 그러나 Manual CoT는 이 길고 복잡한 블랙박스 통짜 연산을 매우 잘게 쪼갠 단위 테스트(Unit Test)의 직렬 집합 체인으로 치환해 버린다. 각 쪼개진 징검다리 단계가 명확하고 한 가지 일만 수행하면, 다음 토큰을 향한 최종 결괏값의 확률 텐서 분산(Distribution Variance)폭이 기하급수적으로 줄어들고 강제로 압축되어, 여러 번 돌려도 항상 똑같은 답이 나오는 기적 같은 결정론적 출력으로 완벽하게 수렴하게 된다.

Manual CoT 예제를 창조하는 과정은 한 명의 시니어 엔지니어가 자신의 평생 쌓아온 지식을 한 글자 한 글자 마크다운 텍스트로 치환해야 하므로 초기 세팅에 어마어마한 인건비와 피와 땀의 공수(Effort)가 갈아 들어간다. 하지만 일단 이 거대한 벽이 구축되고 나면, 악의적인 사용자의 창의적인 프롬프트 인젝션(Prompt Injection) 공격이나 새로운 LLM 버전 컷오버 시 발생하는 미세한 텐서 파라미터 변동의 태풍 속에서도 결코 시스템이 휩쓸리지 않도록 꽉 잡아주는, 파이프라인 전체에서 가장 무겁고 강력한 결정론적 닻(Anchor)의 영웅적인 역할을 수행한다.