Lot (Logic-of-Thought, 2024-09-26)

2025-12-07, G30DR

1. 서론 (Introduction)

1.1 인공지능의 진화와 추론 능력의 한계

인공지능(AI), 특히 거대 언어 모델(Large Language Models, LLMs)은 지난 몇 년간 급격한 발전을 이룩하며 자연어 처리(NLP) 분야의 패러다임을 근본적으로 변화시켰다. GPT-4, Claude 3, Llama 3와 같은 최신 모델들은 텍스트 생성, 번역, 요약, 그리고 코드 작성에 이르기까지 인간에 버금가거나 때로는 능가하는 성능을 보여주고 있다. 그러나 이러한 눈부신 성과 이면에는 여전히 해결되지 않은 근본적인 난제가 존재한다. 바로 ’논리적 추론(Logical Reasoning)’의 문제이다.

LLM은 본질적으로 방대한 텍스트 데이터를 학습하여 단어(토큰) 간의 확률적 연관성을 예측하는 통계적 모델이다. 이는 모델이 문맥을 파악하고 유창한 문장을 생성하는 데에는 탁월하지만, 엄격한 논리적 규칙을 따르거나 복잡한 다단계 추론을 수행하는 데에는 태생적인 한계를 지님을 의미한다.1 예를 들어, 인간에게는 직관적으로 명백한 “A는 B보다 크고, B는 C보다 크면, A는 C보다 크다“라는 이행성(Transitivity) 법칙조차, LLM은 학습 데이터 내의 패턴에 의존하여 ’흉내’낼 뿐, 그 논리적 필연성을 내재화하여 연산하지 못하는 경우가 빈번하다.

이러한 한계는 복잡한 논리 퍼즐, 법률적 판단, 수학적 증명, 그리고 과학적 가설 검증과 같이 높은 수준의 정확성과 논리적 엄밀성이 요구되는 작업에서 두드러지게 나타난다. 모델은 그럴듯해 보이지만 실제로는 거짓인 답변을 생성하는 ‘환각(Hallucination)’ 현상을 일으키거나, 추론 과정과 결론이 논리적으로 일치하지 않는 ‘불충실성(Unfaithfulness)’ 문제를 드러낸다.2 이는 단순한 오류를 넘어, AI 시스템의 신뢰성을 저해하고 실제 산업 현장에의 도입을 가로막는 주요 장벽으로 작용한다.

1.2 기존 접근법의 성과와 한계: CoT와 신경-기호 AI

이러한 문제를 해결하기 위해 ‘생각의 사슬(Chain-of-Thought, CoT)’ 프롬프팅 기법이 제안되었다. CoT는 모델에게 “단계별로 생각하라“고 지시함으로써 중간 추론 과정을 생성하도록 유도하고, 이를 통해 복잡한 문제를 더 작은 단위로 분해하여 해결하도록 돕는다.1 CoT는 분명 LLM의 추론 성능을 비약적으로 향상시켰으나, 여전히 확률적 생성 모델의 한계 안에 갇혀 있다. 모델이 생성한 중간 단계 자체가 논리적으로 틀리거나, 올바른 중간 단계를 거치고도 엉뚱한 결론을 도출하는 경우가 발생하기 때문이다.4

한편, 신경망(Neural Networks)의 유연성과 기호 논리(Symbolic Logic)의 엄밀성을 결합하려는 ‘신경-기호(Neuro-Symbolic) AI’ 접근법도 시도되었다. LINC나 SatLM과 같은 기존의 방법론들은 자연어 문제를 논리식(Logical Expression)으로 완전히 변환한 후, 외부의 정리 증명기(Theorem Prover)나 솔버(Solver)를 통해 정답을 도출하려 했다.5 그러나 이러한 방식은 ’정보 손실(Information Loss)’이라는 치명적인 단점을 안고 있다. 자연어의 풍부하고 미묘한 뉘앙스를 경직된 기호 논리로 변환하는 과정에서 문제 해결에 필수적인 배경 정보나 맥락이 누락되는 것이다. 예를 들어, “Harry is a person“이라는 단순한 사실이 기호화 과정에서 생략되면, 이후의 논리 연산은 근본적으로 불가능해진다.5

1.3 새로운 패러다임: Logic-of-Thought (LoT)

이러한 배경 속에서 등장한 ’생각의 논리(Logic-of-Thought, LoT)’는 LLM의 추론 프로세스에 명제 논리(Propositional Logic)와 같은 형식 논리를 체계적으로 주입하여 추론의 정확성과 신뢰성을 높이는 새로운 패러다임이다. LoT는 단일한 알고리즘이라기보다, LLM과 논리적 연산을 결합하는 거시적인 프레임워크를 지칭한다. 이는 크게 두 가지 흐름으로 구체화된다.

첫째, Liu et al. (2024, 2025)이 제안한 ‘맥락 강화형(Context-Augmented)’ 접근법이다. 이 방식은 LLM을 사용하여 텍스트에서 논리적 뼈대를 추출하고, 이를 외부 알고리즘으로 확장한 뒤, 다시 자연어로 번역하여 LLM에게 ’힌트’로 제공한다.2 이는 정보 손실을 방지하면서도 논리적 엄밀성을 LLM의 사고 과정에 주입하는 획기적인 시도이다.

둘째, Li et al. (2025)이 제안한 ‘솔버 위임형(Solver-Delegated)’ 접근법, 일명 ’Logot’이다. 이 방식은 스도쿠나 동적 퍼즐과 같이 극한의 논리적 정확성이 요구되는 문제에서, LLM을 단순히 번역기로 활용하고 실제 문제 해결은 ASP(Answer Set Programming) 솔버에게 전적으로 위임한다.7

본 보고서는 이 두 가지 접근법을 포괄적으로 분석하며, LoT가 어떻게 기존 CoT 및 신경-기호 방법론의 한계를 극복하고 LLM의 논리적 추론 능력을 비약적으로 향상시키는지 상세히 규명한다. LoT의 이론적 토대부터 구체적인 알고리즘 메커니즘, 벤치마크 실험 결과, 그리고 향후 발전 가능성에 이르기까지, LoT의 모든 측면을 깊이 있게 파헤칠 것이다.

2. 이론적 배경 및 관련 연구 (Theoretical Background)

2.1 거대 언어 모델의 확률적 본성

LLM의 작동 원리는 조건부 확률(Conditional Probability)에 기반한다. 주어진 문맥 $C$ 에 대해 가장 적절한 다음 토큰 $w_t$ 를 생성할 확률 $P(w_t | C)$ 를 최대화하는 것이 모델의 목표이다. 이 과정에서 모델은 수십억, 수조 개의 파라미터를 통해 언어의 문법적 구조, 의미론적 관계, 그리고 세상에 대한 일반 상식을 학습한다.

그러나 ’논리(Logic)’는 확률이 아니다. 논리는 참(True)과 거짓(False)이라는 명확한 진리값(Truth Value)을 가지며, 전제가 참이고 추론 규칙이 타당하다면 결론은 반드시 참이어야 하는 결정론적(Deterministic) 체계이다. LLM이 “모든 사람은 죽는다. 소크라테스는 사람이다. 따라서 소크라테스는 죽는다“라는 삼단논법을 올바르게 수행하는 것처럼 보이는 것은, 모델이 논리적 추론 규칙을 이해해서가 아니라 학습 데이터에 이러한 패턴이 수없이 반복되어 나타났기 때문이다. 따라서 학습 데이터에서 본 적 없는 복잡한 논리 구조나 역설적인 상황에 직면하면, 모델은 확률적 추측에 의존하게 되고 필연적으로 오류를 범하게 된다.

2.2 프롬프트 엔지니어링의 진화: Zero-Shot에서 ToT까지

LLM의 추론 능력을 끌어올리기 위한 프롬프트 엔지니어링 기법은 지난 몇 년간 빠르게 진화해 왔다.

Zero-Shot Prompting: 모델에게 아무런 예시 없이 질문만 던지는 방식이다. 단순한 지식 검색에는 유효하나 복잡한 추론에는 취약하다.
Few-Shot Prompting: 문제 해결의 예시(Shot)를 몇 개 제공하여 모델이 그 패턴을 모방하도록 하는 방식이다. 성능 향상이 있지만 여전히 논리적 깊이는 부족하다.
Chain-of-Thought (CoT): Wei et al. (2022)에 의해 대중화된 이 기법은 모델에게 “단계별로 생각하라(Let’s think step by step)“고 지시한다. 중간 추론 단계를 명시적으로 생성함으로써 모델은 문제 해결을 위한 작업 기억(Working Memory)을 확보하고, 논리적 비약을 줄일 수 있다. 그러나 CoT는 ’환각된 추론 단계’를 생성할 위험이 있으며, 한 번 잘못된 단계로 들어서면 이후의 모든 추론이 붕괴되는 ‘오류 전파(Error Propagation)’ 문제에 취약하다.1
Self-Consistency (SC): Wang et al. (2022)이 제안한 방식으로, CoT를 통해 여러 개의 다양한 추론 경로를 생성하고, 가장 많이 도출된 결론(다수결)을 선택한다. 이는 확률적 모델의 불안정성을 완화하지만, 근본적인 논리적 오류를 수정하지는 못한다.
Tree-of-Thoughts (ToT): Yao et al. (2023)이 제안한 방식으로, 추론 과정을 트리(Tree) 구조로 탐색한다. 각 단계에서 여러 가지 가능성을 생성하고, 이를 평가하여 유망한 경로만 선택적으로 확장한다.1 이는 문제 해결 능력을 크게 높였으나, 평가 과정 자체가 다시 LLM에 의존하므로 평가의 정확성을 보장할 수 없다는 한계가 있다.

2.3 신경-기호 AI (Neuro-Symbolic AI)의 딜레마

신경-기호 AI는 딥러닝의 학습 능력과 기호 AI의 추론 능력을 결합하려는 오랜 연구 분야이다. LLM 시대 이전에도 존재했으나, LLM의 등장으로 새로운 국면을 맞이했다. 기존의 LLM 기반 신경-기호 접근법(예: LINC, SatLM)은 ‘번역 후 해결(Translate-and-Solve)’ 전략을 취했다.1

번역(Translation): LLM을 사용하여 자연어 문제를 정형화된 논리식(1차 논리 등)으로 변환한다.
해결(Solving): PyKE, Prover9과 같은 기호 논리 솔버를 사용하여 논리식의 해를 구한다.

이 전략의 가장 큰 문제점은 자연어의 비가역적 손실이다. 자연어는 중의적이고 함축적이며, 때로는 논리적으로 불완전하다. 이를 엄격한 논리식으로 강제 변환하는 과정에서 문맥 정보가 탈락하거나 왜곡된다. 예를 들어, 문제 해결에 필요한 상식적 전제가 텍스트에 명시되지 않은 경우, 기호화 과정에서 이 정보는 완전히 사라지게 되고 솔버는 “증명 불가” 판정을 내리게 된다.5 반면 LLM은 텍스트에 명시되지 않은 상식도 내부 지식을 통해 유추할 수 있다. 즉, 기존 신경-기호 방식은 LLM의 가장 큰 장점인 ’맥락 이해 능력’을 스스로 거세하는 결과를 초래했다.

2.4 명제 논리 (Propositional Logic)의 기초

LoT를 이해하기 위해서는 명제 논리에 대한 기본적인 이해가 필수적이다. 명제 논리는 참 또는 거짓을 명확히 판별할 수 있는 문장인 ’명제(Proposition)’와 이들을 연결하는 ’연결사(Connective)’로 구성된다.2

명제(Proposition): $P, Q, R$ 등의 기호로 표현된다. (예: $P$ = “비가 온다”)
부정(Negation, $\neg$ ): 명제의 진리값을 반대로 뒤집는다. (예: $\neg P$ = “비가 오지 않는다”)
함의(Implication, $\to$ ): 조건부 관계를 나타낸다. $P \to Q$ 는 “만약 P이면 Q이다“를 의미한다. 이는 인과관계나 충분조건을 표현하는 데 핵심적이다.
논리곱(Conjunction, $\land$ ): “그리고(AND)“를 의미한다. 두 명제가 모두 참일 때만 참이다.
논리합(Disjunction, $\lor$ ): “또는(OR)“을 의미한다. 두 명제 중 하나라도 참이면 참이다.

LoT는 이러한 기본 요소들을 바탕으로, 대우 법칙(Contraposition Law) ( $P \to Q \iff \neg Q \to \neg P$ )이나 삼단논법(Hypothetical Syllogism) ( $P \to Q, Q \to R \implies P \to R$ )과 같은 추론 규칙을 적용하여 새로운 정보를 도출한다.9 이 과정은 수학적으로 엄밀하며 예외가 없다. LoT는 바로 이 ’예외 없는 규칙’을 LLM의 유연한 사고 과정에 이식하려는 시도이다.

3. Logic-of-Thought (LoT) 프레임워크 I: 맥락 강화형 접근 (Liu et al.)

Liu et al. (2024, 2025)이 제안한 LoT 프레임워크는 기존 신경-기호 AI의 정보 손실 문제를 해결하기 위해 ‘데이터 증강(Data Augmentation)’ 철학을 채택했다. 즉, 논리적 처리를 통해 얻은 정보를 원본 데이터를 대체하는 것이 아니라, 원본 데이터에 **추가(Augment)**하는 것이다.2 이 프레임워크는 논리 추출(Logic Extraction), 논리 확장(Logic Extension), 논리 번역(Logic Translation)의 3단계로 구성된다.

3.1 제1단계: 논리 추출 (Logic Extraction)

첫 번째 단계는 비정형 데이터인 자연어 텍스트에서 논리적 구조를 파악하고 이를 기호화하는 과정이다. 이 단계에서 LLM은 ’추론기’가 아닌 ’번역기’로서 작동한다.

작동 메커니즘: LLM에게 입력 텍스트(문제 지문)를 제공하고, 텍스트 내에 존재하는 명제(Propositions)와 논리적 관계(Logical Relations)를 식별하도록 지시한다. 프롬프트는 명확한 진리값을 가진 선언적 문장을 찾아내고, 이를 $A, B, C$ 와 같은 기호로 매핑하도록 설계된다.2
명제 식별의 정교함: 단순히 문장을 베끼는 것이 아니다. “컴퓨터를 사용할 수 있다“와 “PC 사용이 가능하다“와 같이 표현은 다르지만 의미가 동일한 문장들을 하나의 명제 기호(예: $P$ )로 통일하는 작업이 수행된다. 이는 LLM의 강력한 의미론적 이해(Semantic Understanding) 능력을 활용하는 것으로, 기존의 규칙 기반 시스템이 흉내 낼 수 없는 부분이다.5
관계 추출: 식별된 명제들 사이의 관계를 논리 연결사( $\to, \neg, \land$ 등)를 사용하여 표현한다. 예를 들어 “공부를 하지 않으면 시험에 떨어진다“라는 문장은 $\neg \text{Study} \to \text{Fail}$ 형태로 추출된다.

3.2 제2단계: 논리 확장 (Logic Extension)

추출된 논리식은 이제 LLM의 손을 떠나 결정론적 알고리즘의 영역으로 들어간다. 이 단계의 목표는 명시적으로 드러나지 않은, 그러나 논리적으로 필연적인 ’숨겨진 진실’들을 찾아내는 것이다.9

Python 기반 논리 엔진: 연구진은 이 단계를 수행하기 위해 Python으로 구현된 논리 확장 모듈을 사용한다. 이 모듈은 추출된 논리식 집합을 입력받아, 사전에 정의된 논리 법칙들을 적용하여 가능한 모든 새로운 논리식을 생성한다.10
적용되는 주요 논리 법칙:

대우 법칙 (Contraposition): $A \to B$ 가 참이면, $\neg B \to \neg A$ 도 반드시 참이다. 이는 LLM이 자주 놓치는 역방향 추론을 보강해준다.
이행성 법칙 (Transitivity): $A \to B$ 이고 $B \to C$ 이면, $A \to C$ 이다. 이는 다단계 추론의 핵심 고리를 연결해준다.
드모르간 법칙 (De Morgan’s Laws): $\neg(A \land B) \iff \neg A \lor \neg B$ . 복합 명제의 부정을 다루는 데 필수적이다.

확장의 효과: 예를 들어, 지문에 “A이면 B이다“와 “B이면 C이다“만 나와 있다면, LLM은 “A이면 C이다“라는 사실을 놓칠 수도 있다. 그러나 논리 확장 모듈은 이 사실을 수학적으로 도출하여 명시적인 데이터로 만들어낸다. 이는 모델이 추론해야 할 부담을 덜어주는 효과가 있다.

3.3 제3단계: 논리 번역 (Logic Translation)

LoT의 가장 독창적인 단계이다. 기계적인 연산을 통해 확장된 논리식(Symbolic Expressions)을 다시 인간의 언어(Natural Language)로 변환하여 원본 맥락에 통합한다.9

재번역(Back-Translation) 프로세스: 확장된 논리식, 예를 들어 $\neg C \to \neg A$ 는 “C가 아니라면 A가 아니다“라는 자연어 문장으로 변환된다. 이때 LLM이 다시 사용되어, 기계적인 번역투가 아닌 문맥에 자연스럽게 녹아드는 문장을 생성한다.1
프롬프트 증강(Prompt Augmentation): 이렇게 생성된 “확장된 논리 정보“는 원본 문제 텍스트 뒤에 별도의 단락으로 추가된다. 이제 LLM은 원본 문제뿐만 아니라, 그 문제에 내포된 논리적 귀결들까지 정리된 ’치트 시트(Cheat Sheet)’를 보면서 최종 답안을 작성하게 된다.
정보 손실의 극복: 기존 신경-기호 방식은 기호화된 정보만 남기고 원본을 버렸지만, LoT는 원본을 그대로 유지한 채 기호화된 정보의 ’해석본’을 추가하는 방식이다. 따라서 기호화 과정에서 일부 정보가 누락되더라도, 원본 텍스트가 살아있기 때문에 LLM이 이를 보완할 수 있다. 이는 상호보완적(Complementary) 구조를 형성한다.5

3.4 사례 연구: ReClor 데이터셋 적용 예시

ReClor 데이터셋의 복잡한 논리 문제를 예로 들어보자.

원본 문제: “모든 회계사는 꼼꼼하다. 꼼꼼하지 않은 사람은 훌륭한 감사인이 될 수 없다. Harry는 훌륭한 감사인이다.”
1단계 (추출):
$A$ : 회계사이다.
$M$ : 꼼꼼하다.
$G$ : 훌륭한 감사인이다.
식 1: $A \to M$
식 2: $\neg M \to \neg G$
사실: $G(\text{Harry})$
2단계 (확장):
식 2의 대우: $G \to M$ (훌륭한 감사인이면 꼼꼼하다)
식 1과 새로운 식의 결합 시도: $A \to M$ , $G \to M$ . (여기서는 직접적인 이행성은 성립하지 않음)
만약 문제가 “Harry가 회계사인가?“를 묻는다면?
3단계 (번역 및 주입):
생성된 힌트: “훌륭한 감사인이라면 반드시 꼼꼼한 사람이다.”
최종 프롬프트: [원본 문제] + “참고: 논리적으로 볼 때, 훌륭한 감사인은 꼼꼼해야 합니다. 따라서 Harry는 꼼꼼한 사람입니다.”

이러한 힌트가 주어지면, LLM은 “Harry는 꼼꼼하다“라는 중간 결론을 굳이 스스로 추론해낼 필요 없이, 주어진 사실로 받아들이고 다음 단계(Harry가 회계사일 가능성 등)로 사고를 전개할 수 있다. 이는 추론의 단계를 단축시키고 오류 가능성을 차단한다.

4. Logic-of-Thought (LoT) 프레임워크 II: 솔버 위임형 접근 (Logot - Li et al.)

Liu et al.의 방식이 LLM의 사고를 돕는 ’보조 바퀴’를 달아주는 것이라면, Li et al. (2025)이 제안한 ’Logot’은 LLM에게 운전을 맡기지 않고 ’자율 주행 시스템’에 목적지를 입력하게 하는 방식이다. 이 접근법은 특히 스도쿠, 히토리, 블록 월드(Blocks World)와 같이 정해진 규칙 내에서 최적의 해를 찾아야 하는 조합 최적화 문제나 퍼즐 해결에 특화되어 있다.7

4.1 문제 의식: LLM은 퍼즐을 풀 수 있는가?

LLM은 텍스트 생성에는 능하지만, 상태 공간(State Space)이 거대하고 제약 조건이 엄격한 퍼즐을 푸는 데에는 매우 취약하다. 예를 들어 9x9 스도쿠 퍼즐을 텍스트로 입력받아 푼다고 가정해보자. LLM은 숫자를 채워 넣을 때, 같은 행, 같은 열, 같은 3x3 박스 안에 중복된 숫자가 없어야 한다는 규칙을 매 순간 ’기억’하고 ’검증’해야 한다. 그러나 어텐션(Attention) 메커니즘의 한계로 인해, LLM은 종종 이 제약 조건을 망각하고 숫자를 중복해서 생성하는 오류를 범한다.8 이는 모델이 논리적 제약 조건을 ’이해’하는 것이 아니라 ’암기’하려 하기 때문이다.

4.2 Answer Set Programming (ASP)의 도입

Logot 프레임워크는 이 문제를 해결하기 위해 **Answer Set Programming (ASP)**을 도입한다. ASP는 선언적 프로그래밍(Declarative Programming)의 일종으로, “어떻게(How) 풀 것인가“가 아니라 “문제(What)가 무엇인가“를 기술하는 데 초점을 맞춘다. ASP는 복잡한 탐색 문제나 제약 충족 문제(Constraint Satisfaction Problems)를 해결하는 데 매우 강력한 도구이다.8

비단조 추론(Non-monotonic Reasoning): ASP는 새로운 정보가 추가되면 기존의 결론이 철회될 수 있는 비단조 추론을 지원한다. 이는 불완전한 정보 상황에서 추론해야 하는 인간의 사고방식과 유사하며, 동적 퍼즐 해결에 유리하다.
효율적인 솔버: Clingo와 같은 최신 ASP 솔버는 수십 년간의 최적화 기술이 집약되어 있어, 방대한 탐색 공간에서도 순식간에 해답을 찾아낸다.

4.3 Logot의 작동 프로세스

Logot는 LLM과 ASP 솔버를 결합하여 다음과 같은 파이프라인으로 작동한다.8

자연어 표현 (NL Representation): 퍼즐의 규칙, 초기 상태, 목표가 자연어로 주어진다. (예: “3번째 줄 2번째 칸에 5가 있다. 각 줄에는 1부터 9까지의 숫자가 한 번씩만 들어가야 한다.”)
ASP 변환 (LLM-based Translation): LLM은 이 자연어 설명을 ASP 코드로 변환한다. 이때 ’퓨샷 학습(Few-shot Learning)’을 통해 몇 가지 변환 예시를 제공받는다. LLM은 “3번째 줄 2번째 칸에 5가 있다“를 cell(3, 2, 5).와 같은 ASP 문법으로 번역한다. 또한 “각 줄에는 숫자가 중복될 수 없다“는 규칙을 ASP의 제약 조건 문법(Integrity Constraint)으로 변환한다.
솔버 실행 (Solver Execution): 생성된 ASP 프로그램은 ASP 인터프리터에 의해 실행된다. 솔버는 가능한 모든 숫자 조합을 탐색하고, 제약 조건을 만족하는 유일한 해(Answer Set)를 찾아낸다.
결과 반환: 솔버가 찾아낸 해는 구조화된 데이터 형태이므로, 이를 다시 자연어나 사용자 친화적인 포맷으로 변환하여 보여준다.

4.4 동적 퍼즐과 행동 계획

Logot의 강력함은 정적인 그리드 퍼즐에 그치지 않는다. 블록 월드(Blocks World)와 같이 행동(Action)에 따라 상태가 변하는 동적 문제에서도 탁월한 성능을 발휘한다.15 LLM은 “빨간 블록을 파란 블록 위에 올려라“와 같은 자연어 명령을 ASP의 행동 규칙으로 변환하고, 솔버는 목표 상태에 도달하기 위한 최소한의 단계(Plan)를 계산해낸다. 이는 LLM 단독으로는 거의 불가능한 수준의 계획(Planning) 능력을 보여준다.

5. 실험 결과 및 성능 분석 (Experimental Results & Analysis)

LoT 프레임워크의 유효성은 다양한 벤치마크 데이터셋을 통해 정량적으로 입증되었다. 여기서는 Liu et al.의 맥락 강화형 LoT와 Li et al.의 Logot 실험 결과를 상세히 분석한다.

5.1 실험 환경 및 데이터셋

Liu et al.은 LoT의 범용성을 검증하기 위해 다음과 같은 5가지 대표적인 논리 추론 데이터셋을 사용했다.1

ReClor: 대학원 입학 시험(GRE, LSAT)에서 발췌한 논리 독해 문제. 복잡한 텍스트 이해와 논리적 추론이 동시에 요구된다.
LogiQA: 중국 공무원 시험의 논리 문제로, 전문가 수준의 독해력과 논리력을 필요로 한다.
ProofWriter: 자연어로 기술된 가상의 규칙들을 바탕으로 특정 사실의 참/거짓/알수없음을 증명하는 문제. 순수한 논리 연산 능력을 평가한다.
RuleTaker: 규칙 기반의 질의응답 데이터셋으로, 텍스트 내의 명시적 규칙을 얼마나 잘 따르는지 측정한다.
FOLIO: 1차 논리(First-Order Logic) 추론 능력을 평가하기 위해 설계된 전문가 작성 데이터셋.

5.2 성능 비교 분석: LoT, CoT, ToT, 그리고 SC

아래 [표 1]은 주요 데이터셋에서 LoT를 기존 프롬프팅 기법(CoT, Self-Consistency, ToT)과 결합했을 때의 성능 향상을 요약한 것이다.1

[표 1] 주요 데이터셋별 방법론 성능 비교 (정확도 %)

데이터셋 (Dataset)	기본 CoT (Baseline)	LoT + CoT	향상폭	기본 SC (5회)	LoT + SC	향상폭	기본 ToT	LoT + ToT	향상폭
ReClor	52.17	56.52	+4.35	56.52	58.70	+2.18	58.70	60.87	+2.17
LogiQA	34.00	36.50	+2.50	36.60	38.00	+1.40	34.50	39.50	+5.00
ProofWriter	58.80	61.50	+2.70	57.50	60.00	+2.50	61.50	67.50	+6.00
RuleTaker	60.70	61.60	+0.90	59.00	60.00	+1.00	65.50	65.50	+0.00
FOLIO	78.00	78.00	+0.00	76.00	78.60	+2.60	80.00	80.00	+0.00

5.2.1 ReClor: 복잡한 논리 독해에서의 승리

ReClor 데이터셋에서 LoT+CoT는 기본 CoT 대비 4.35%라는 괄목할 만한 성능 향상을 기록했다. 이는 ReClor가 텍스트의 길이가 길고 논리 구조가 복잡하게 꼬여 있어, LLM이 단독으로 추론할 때 ’작업 기억(Working Memory)’의 한계에 부딪히기 때문이다. LoT가 제공하는 “확장된 논리 정보“는 텍스트의 논리적 핵심을 요약하여 제공하므로, LLM이 혼란에 빠지지 않고 정답을 찾도록 돕는 길잡이 역할을 수행했다.9

5.2.2 ProofWriter와 ToT의 시너지

가장 흥미로운 결과는 ProofWriter에서 관찰된다. 여기서 LoT는 ToT와 결합했을 때 무려 6%의 성능 향상을 이끌어냈다.1 ToT는 탐색 트리(Search Tree)를 확장하며 답을 찾는데, 논리적으로 불가능한 가지(Branch)를 조기에 쳐내는 것이 효율성의 핵심이다. LoT가 사전에 추출해준 “A이면 C이다“와 같은 명확한 논리적 제약 조건들이 탐색 공간을 효과적으로 가지치기(Pruning)하는 데 결정적인 기여를 했음을 시사한다. 이는 LoT가 탐색 기반 추론 알고리즘과 결합될 때 강력한 시너지를 낼 수 있음을 증명한다.

5.3 Logot: 퍼즐 해결의 절대 강자

Li et al.의 실험에서 Logot는 스도쿠, 히토리 등의 그리드 퍼즐과 블록 월드 문제에서 거의 100%에 가까운(Near-perfect) 정확도를 달성했다.8

비교: 반면 GPT-4와 같은 최첨단 LLM조차 프롬프트만으로는 스도쿠 문제의 정확도가 현저히 낮았으며(복잡도에 따라 30~50% 미만), 룰을 위반하는 환각을 빈번하게 보였다.
의의: 이는 특정 도메인(엄격한 제약 조건이 있는 문제)에서는 LLM의 유창함보다 기호 논리 솔버의 엄밀함이 압도적으로 우월하며, LLM은 ’번역기’로서의 역할에 집중할 때 최고의 효율을 낸다는 것을 보여준다.

5.4 오류 분석 (Error Analysis)

LoT가 완벽한 것은 아니다. 실험 결과 분석을 통해 드러난 주요 실패 요인은 다음과 같다.2

추출 단계의 환각: LLM이 1단계에서 논리를 추출할 때, 텍스트에 없는 내용을 지어내거나(Hallucination), 중요한 전제를 누락하는 경우이다. 쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)는 원칙에 따라, 잘못 추출된 논리는 잘못된 확장을 낳고 결국 오답으로 이어진다. FOLIO 데이터셋 분석 결과 오류의 약 40%가 이 단계에서 발생했다.17
번역의 모호성: 3단계에서 논리식을 자연어로 번역할 때, “A implies B“를 “A causes B“로 번역하는 등 인과관계와 논리적 함의를 혼동하는 경우가 발생한다. 이는 LLM이 번역된 힌트를 잘못 해석하게 만드는 원인이 된다.
제한된 논리 표현력: 현재 LoT는 주로 명제 논리에 국한되어 있어, “대부분의(Most)”, “일부(Some)“와 같은 양화사(Quantifier)나 확률적 표현을 다루는 데에는 한계가 있다.

6. 기존 방법론과의 비교 심층 분석 (Comparative Analysis)

LoT의 위치를 명확히 하기 위해, 기존의 대표적인 방법론들과의 차별점을 심층적으로 비교 분석한다.

6.1 LoT vs. Chain-of-Thought (CoT)

CoT는 LLM의 **내적 독백(Inner Monologue)**을 유도하는 방식이다. 이는 인간의 직관적인 사고 과정을 모방하지만, 논리적 검증 장치가 없다. 모델이 “A이므로 B이다“라고 말할 때, 실제로 A가 B를 함의하는지, 아니면 단순히 언어적 연관성 때문에 그렇게 말한 것인지 알 수 없다.

반면 LoT는 **외적 검증(External Verification)**을 도입한다. LoT 프레임워크 내의 논리 확장 모듈은 수학적으로 증명된 사실만을 생성한다. 따라서 LoT는 CoT가 가진 ‘불충실성(Unfaithfulness)’ 문제, 즉 추론 과정이 결론을 제대로 뒷받침하지 못하는 문제를 구조적으로 완화한다.2 CoT가 “생각하는 척“을 한다면, LoT는 “논리에 기반해 생각“하도록 강제한다.

6.2 LoT vs. Tree-of-Thoughts (ToT)

ToT는 탐색(Search) 전략이다. 여러 가능성을 펼쳐놓고 그중 최적의 경로를 찾는다. 하지만 “어떤 경로가 최적인가?“를 판단하는 기준(Heuristic)이 여전히 LLM의 직관에 의존한다.

LoT는 이 탐색 과정에 **지도(Map)**를 제공한다. 논리적 규칙에 의해 ’갈 수 없는 길’과 ’반드시 가야 하는 길’을 미리 표시해주는 셈이다. 따라서 LoT와 ToT는 경쟁 관계가 아니라 상호 보완적인 관계이며, 실험 결과에서도 둘을 결합했을 때 최고의 성능이 나왔다.1

6.3 LoT vs. 기존 Neuro-Symbolic (LINC, SatLM)

LINC나 SatLM은 대체(Replacement) 전략이다. 자연어를 논리식으로 바꾼 뒤 자연어를 버린다. 이 과정에서 발생하는 **정보 손실(Information Loss)**은 치명적이다. 텍스트에 숨겨진 뉘앙스, 화자의 의도, 상식적 배경 등은 기호로 변환되기 어렵다.

LoT는 보강(Augmentation) 전략이다. 자연어를 버리지 않고, 논리식을 자연어로 번역하여 원본에 ’주석’처럼 달아준다. LLM은 원본의 풍부한 맥락과 번역된 논리적 명료함을 동시에 활용할 수 있다.5 이는 기존 신경-기호 AI가 겪었던 ‘경직성’ 문제를 유연하게 해결한 획기적인 발상 전환이다.

7. 한계점 및 향후 연구 방향 (Limitations & Future Directions)

LoT는 강력한 프레임워크이지만, 완벽한 해결책은 아니며 몇 가지 분명한 한계와 과제를 안고 있다.

7.1 계산 비용과 효율성 (Computational Overhead)

LoT는 기본적으로 [추출 -> 확장 -> 번역 -> 최종 추론]의 다단계를 거친다. 이는 단순한 제로샷이나 퓨샷 프롬프팅에 비해 훨씬 많은 토큰을 소모하고, 응답 시간(Latency)을 증가시킨다. 특히 실시간성이 중요한 서비스에 적용하기 위해서는 이 파이프라인을 경량화하거나, 병렬 처리하는 최적화 연구가 필요하다.

7.2 논리 추출의 의존성 문제

LoT의 모든 과정은 첫 단계인 ’논리 추출’의 품질에 좌우된다. 현재는 범용 LLM을 프롬프팅하여 추출하고 있지만, 이는 여전히 오류 가능성을 내포한다. 향후 연구 방향으로는 논리 추출에 특화된 소형 언어 모델(SLM)을 미세 조정(Fine-tuning)하여, 더 정확하고 일관된 논리식을 추출하도록 훈련시키는 것이 유망하다.18

7.3 표현 가능한 논리의 확장

현재 LoT 연구는 주로 명제 논리에 집중되어 있다. 그러나 현실 세계의 문제는 명제 논리만으로 표현하기에는 너무나 복잡하다. “모든”, “어떤“을 다루는 1차 논리(First-Order Logic), 가능성과 필연성을 다루는 양상 논리(Modal Logic), 시간의 흐름을 다루는 시제 논리(Temporal Logic) 등으로 LoT의 범위를 확장해야 한다. 다만 논리 체계가 복잡해질수록 자연어로의 번역(Back-Translation)이 난해해지고, LLM이 이를 이해하기 어려워질 수 있다는 트레이드오프(Trade-off)가 존재한다.2

7.4 번역된 논리의 해석 문제

논리식을 자연어로 번역했을 때, LLM이 이를 개발자의 의도대로 완벽하게 해석한다는 보장은 없다. 자연어는 본질적으로 중의적이기 때문이다. 따라서 자연어 대신, LLM이 더 명확하게 이해할 수 있는 중간 표현(Intermediate Representation), 예를 들어 의사 코드(Pseudo-code)나 구조화된 데이터 포맷(JSON 등)을 활용하는 방안도 연구되어야 한다.

8. 결론 (Conclusion)

Logic-of-Thought (LoT)는 거대 언어 모델의 근원적 한계인 논리적 추론 능력을 보완하기 위한 가장 진보적이고 현실적인 신경-기호적 접근법이다. LoT는 다음과 같은 세 가지 핵심적인 기여를 했다.

정보 손실 없는 신경-기호 통합: 기존의 ‘번역 후 해결’ 방식이 가진 정보 손실 문제를 ’맥락 강화’와 ’재번역’이라는 아이디어로 해결했다. 이는 기호 논리의 정확성을 빌려오면서도 LLM의 언어적 유연성을 포기하지 않는 최적의 균형점을 제시했다.
프롬프팅 패러다임의 확장: CoT가 ’사고의 과정’을 모방했다면, LoT는 ’사고의 규칙’을 주입했다. 이는 AI가 단순히 데이터를 확률적으로 재생산하는 것을 넘어, 논리적 구조에 기반하여 사고할 수 있는 가능성을 열었다.
실질적인 성능 향상 입증: 복잡한 논리 독해부터 엄격한 퍼즐 해결에 이르기까지, LoT는 다양한 벤치마크에서 기존 방법론을 상회하는 성능을 입증했다. 특히 외부 솔버와의 결합(Logot)은 특정 도메인에서 AI의 신뢰성을 인간 수준, 혹은 그 이상으로 끌어올릴 수 있음을 보여주었다.

미래의 AI는 단순히 말을 잘하는 ’언어 모델’을 넘어, 논리적으로 타당하고 검증 가능한 결론을 도출하는 ’추론 모델(Reasoning Model)’로 진화해야 한다. LoT는 그 진화의 길목에서 가장 중요한 이정표 중 하나로 기록될 것이다. 앞으로 논리 추출의 정교화, 지원 논리의 확장, 그리고 효율적인 파이프라인 구축을 통해 LoT는 법률, 의료, 과학 연구 등 고도의 지적 능력이 요구되는 분야에서 AI의 활용도를 혁신적으로 넓혀갈 것으로 기대된다.

9. 참고 자료

Logic-of-Thought (LoT): Enhancing Logical Reasoning in Large Language Models, https://learnprompting.org/docs/new_techniques/logic_of_thought
Logic-of-Thought : prompting approach leveraging propositional logic to enhance logical reasoning capabilities of LLMs | by SACHIN KUMAR | Medium, https://medium.com/@techsachin/logic-of-thought-prompting-approach-leveraging-propositional-logic-to-enhance-logical-reasoning-f15fe50d909a
Daily Papers - Hugging Face, https://huggingface.co/papers?q=pseudogold%20reasoning%20chains
Chain-of-Thought Prompting, https://learnprompting.org/docs/intermediate/chain_of_thought
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models - arXiv, https://arxiv.org/html/2409.17539v1
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models - ACL Anthology, https://aclanthology.org/2025.naacl-long.510/
Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language - arXiv, https://arxiv.org/html/2505.16114v1
Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language - ResearchGate, https://www.researchgate.net/publication/391991499_Logic-of-Thought_Empowering_Large_Language_Models_with_Logic_Programs_for_Solving_Puzzles_in_Natural_Language
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models - arXiv, https://arxiv.org/html/2409.17539v2
arXiv:2402.07927v2 [cs.AI] 16 Mar 2025, https://arxiv.org/pdf/2402.07927
A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications - arXiv, https://arxiv.org/html/2402.07927v2
Evaluating Multilingual and Arabic Large Language Models for Quranic QA - ResearchGate, https://www.researchgate.net/publication/397819074_Evaluating_Multilingual_and_Arabic_Large_Language_Models_for_Quranic_QA
Bridging Natural Language and ASP: A Hybrid Approach Using LLMs and AMR Parsing Approved for public release: distribution is unlimited. Case Number AFRL-2025-1920. The views expressed are those of the authors and do not reflect the official guidance or position of the United States Government, the Department of Defense, or the United States - arXiv, https://arxiv.org/html/2511.08715v1
[Literature Review] Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language - Moonlight | AI Colleague for Research Papers, https://www.themoonlight.io/en/review/logic-of-thought-empowering-large-language-models-with-logic-programs-for-solving-puzzles-in-natural-language
Logic-of-Thought: Empowering Large Language Models with Logic Programs for Solving Puzzles in Natural Language - Powerdrill AI, https://powerdrill.ai/discover/summary-logic-of-thought-empowering-large-language-models-cmb1ajuqdeti907svvwneeujb
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in Large Language Models - ACL Anthology, https://aclanthology.org/2025.naacl-long.510.pdf
Logic-of-Thought: Injecting Logic into Contexts for Full Reasoning in, https://www.alphaxiv.org/overview/2409.17539v2
LogiCoT: Logical Chain-of-Thought Tuning - Emergent Mind, https://www.emergentmind.com/topics/logicot-logical-chain-of-thought-instruction-tuning