16.3 자율적 도구 사용과 계획(Planning) 능력을 갖춘 트랜스포머
2025-12-25, G30DR
2025년 12월, 트랜스포머(Transformer) 아키텍처는 단순한 확률적 텍스트 생성기라는 초기 정의를 넘어서, 물리적 세계와 디지털 생태계를 조율하는 ’행동하는 지성(Acting Intelligence)’으로 진화했다. 본 장에서는 트랜스포머가 외부 도구를 자신의 신체처럼 확장하여 사용하는 메커니즘과, 복잡한 목표를 달성하기 위해 미래를 시뮬레이션하고 전략을 수립하는 계획(Planning) 능력의 기술적 특이점(Singularity)을 심층 분석한다. 우리는 2023년의 생성형 AI가 “다음 토큰 예측(Next Token Prediction)“에 머물렀다면, 2025년의 모델들은 “다음 행동 예측(Next Action Prediction)“으로 패러다임을 전환했음을 확인하게 될 것이다.1 이 변화는 모델이 정적인 데이터베이스가 아니라, 환경과 상호작용하며 스스로 지식을 갱신하고 오류를 수정하는 동적인 에이전트(Agent)로 거듭나는 분기점이 되었다.
1. 도구 사용(Tool Use)의 인지적 내재화와 프로토콜의 표준화
트랜스포머가 외부 세계와 소통하는 인터페이스인 ‘도구 사용’ 능력은 2025년에 이르러 획기적인 아키텍처 변화를 겪었다. 초기 접근법이 프롬프트 엔지니어링을 통해 모델에게 도구의 존재를 ’암시’하는 수준이었다면, 현재의 모델들은 도구의 스키마(Schema)를 인지 과정의 일부로 내재화(Internalization)하고, 표준화된 프로토콜을 통해 수만 개의 도구를 자유자재로 다루는 단계에 도달했다.
1.1 API 호출의 자율화와 검색 인식 훈련(Retrieval-Aware Training)
과거 Toolformer2와 같은 초기 모델들은 자기지도 학습(Self-supervised Learning)을 통해 API 호출 시점을 학습했으나, 이는 고정된 도구 세트에 국한된다는 한계가 있었다. 2025년의 모델 아키텍처는 이를 극복하기 위해 **검색 인식 훈련(Retrieval-Aware Training, RAT)**을 도입했다. Gorilla OpenFunctions v2와 같은 모델에서 시작된 이 기법은 모델이 학습 시점에 존재하지 않았던 도구라도, 추론 시점에 해당 도구의 문서를 검색(Retrieval)하고 이해하여 즉시 사용할 수 있도록 한다.4
RAT의 핵심은 모델이 파라미터 내부에 저장된 지식과 외부에서 검색된 지식(API 문서) 사이의 신뢰도를 동적으로 조절하는 능력에 있다. 예를 들어, AWS의 API가 하루에도 수십 번 업데이트되는 환경에서, 모델은 자신의 기억보다 실시간으로 검색된 APIZoo의 문서를 우선시하여 환각(Hallucination)을 획기적으로 줄인다.4 이는 트랜스포머가 ’지식의 저장소’에서 ’지식의 처리 프로세서’로 진화했음을 의미하며, 도구 사용의 유연성을 인간 개발자 수준으로 끌어올렸다.
1.2 모델 컨텍스트 프로토콜(MCP)과 대규모 스키마 처리
2025년 하반기, 도구 통합의 난제였던 ‘프로토콜 파편화’ 문제는 **모델 컨텍스트 프로토콜(Model Context Protocol, MCP)**의 등장으로 새로운 국면을 맞이했다.6 과거 개발자들은 OpenAPI, GraphQL, gRPC 등 다양한 인터페이스를 모델에 맞게 일일이 변환해야 했으나, MCP는 이를 추상화하여 모델이 운영체제나 클라우드 환경의 자원에 표준화된 방식으로 접근할 수 있게 했다.
특히 2025년형 에이전트는 ’대규모 도구 스키마(Large Tool Schema)’를 처리하는 데 있어 비약적인 발전을 이루었다. 수천 개의 도구 정의가 주어졌을 때, 컨텍스트 윈도우의 제한이나 주의 집중(Attention)의 분산으로 성능이 저하되던 문제는 이제 해결되었다. 최신 모델들은 동적 스키마 생성(Dynamic Schema Generation) 기술을 통해 현재 문맥에 필요한 도구의 정의만을 실시간으로 로드하고, 엄격한 타입 검증을 수행하여 인자(Argument) 전달의 정확성을 보장한다.7 이는 개발자가 수동으로 스키마를 정의하던 부담을 60-80% 감소시켰으며, 도구 실행의 안정성을 엔터프라이즈 수준으로 격상시켰다.6
1.3 사고 추적(Thought Trace)과 실행의 설명 가능성
도구 호출의 정확도는 단순한 구문론적 정확성을 넘어, ’의도(Intent)’의 정확성으로 확장되었다. NexusRaven-V2와 같은 모델들이 선도한 사고 추적(Thought Trace) 메커니즘은 함수를 호출하기 직전, 자연어로 된 논리적 추론 과정을 생성한다.9
예를 들어, “시애틀의 날씨는 어때?“라는 질문에 대해 모델은 즉시 함수를 호출하지 않는다. 대신 다음과 같은 내부 독백(Inner Monologue)을 수행한다:
- “사용자가 날씨 정보를 요청했다.”
- “날씨 API는 위도와 경도 정보가 필요하다.”
- “따라서 먼저
get_coordinates함수를 호출하여 시애틀의 좌표를 얻어야 한다.” - “그 후 반환된 좌표를
get_weather함수의 인자로 사용한다.”
이러한 명시적 사고 과정은 중첩된 함수 호출(Nested Function Calls)이나 병렬 호출(Parallel Calls)에서 발생할 수 있는 논리적 오류를 사전에 차단한다.9 2025년의 GPT-5나 Llama 4와 같은 모델들은 이러한 사고 추적 과정을 잠재 공간(Latent Space) 내에서 고속으로 처리하거나, 필요에 따라 사용자에게 노출하여 시스템의 투명성을 보장하는 ‘Dual-mode’ 추론을 지원한다.
| 기능적 요소 | 2023-2024 기술 수준 | 2025년 12월 기술 수준 (Llama 4, GPT-5 등) |
|---|---|---|
| 도구 학습 방식 | SFT (지도 미세 조정) 기반 고정 학습 | RAT (검색 인식 훈련) 기반 제로샷 적응 |
| 인터페이스 | 독점적 플러그인, 비표준 JSON | MCP (Model Context Protocol) 표준 준수 |
| 스키마 처리 | 프롬프트 내 전체 스키마 주입 (컨텍스트 낭비) | 동적 스키마 로딩 및 온디맨드 바인딩 |
| 실행 논리 | 단일 단계 실행, ReAct 프롬프트 의존 | 중첩/병렬 호출, 그래프 기반 실행 계획 수립 |
| 오류 수정 | 사후 검증 없음 (오류 발생 시 중단) | 실행 결과 반영 후 즉각적인 재계획(Replanning) |
2. 시스템 2(System 2) 사고의 구현과 계획 알고리즘의 고도화
2025년 트랜스포머의 가장 결정적인 진화는 인지과학에서 말하는 ‘시스템 2(System 2)’ 사고, 즉 느리지만 논리적이고 신중한 추론 과정을 모델 아키텍처 내에 구현했다는 점이다.10 이는 직관적이고 빠른 ‘시스템 1(System 1)’ 반응에 의존하던 기존 LLM의 한계를 극복하고, 장기적인 계획(Planning)을 가능하게 한 원동력이 되었다.
2.1 추론 모델(Reasoning Models)의 계보: o1에서 Qwen 3-Thinking까지
2024년 말 등장한 OpenAI의 o1과 DeepSeek-R1은 ’추론 시간 컴퓨팅(Test-Time Compute)’이라는 개념을 대중화했다.12 이 모델들은 사용자의 질문에 즉답하는 대신, 내부적으로 수천 토큰에 달하는 긴 사고 사슬(Chain of Thought)을 생성하여 문제를 분해하고 검증한다. 2025년 12월 현재, 이러한 추론 능력은 Qwen 3-Thinking이나 Gemini 3 Pro와 같은 모델들에 의해 더욱 정교해졌다.13
특히 Qwen 3는 ’Thinking Mode’와 ’Non-Thinking Mode’를 동적으로 전환하는 하이브리드 아키텍처를 채택하여, 단순한 대화에서는 효율성을, 복잡한 코딩이나 수학 문제에서는 깊이 있는 추론을 제공한다.14 이러한 시스템 2 모델들은 에이전트 워크플로우에서 ‘두뇌’ 역할을 하며, 도구 사용 시 발생할 수 있는 부작용을 예측하고 최적의 경로를 설계하는 데 결정적인 역할을 수행한다. 그러나 긴 추론 과정이 가져오는 지연 시간(Latency)과 과도한 생각(Overthinking)으로 인한 단순 문제의 복잡화는 여전히 해결해야 할 트레이드오프로 남아 있다.12
2.2 비선형적 계획 알고리즘: 트리(Tree)와 그래프(Graph)
단선적인 추론(Chain of Thought)만으로는 복잡한 현실 세계의 변수들을 모두 통제할 수 없다. 따라서 2025년의 트랜스포머는 비선형적인 탐색 알고리즘을 계획 수립에 적극적으로 활용한다.
2.2.1 생각의 나무 (Tree of Thoughts, ToT)
ToT 프레임워크는 에이전트의 의사결정 과정을 트리 구조로 모델링한다.15 에이전트는 현재 상태에서 가능한 여러 가지 행동(가지)을 생성하고, 각 행동의 기대 가치를 평가(Evaluation)한 뒤, 가장 유망한 경로를 선택하거나 가망이 없는 경로를 가지치기(Pruning)한다.
- 작동 원리: 여행 계획을 짤 때, ‘교통편 선택’, ‘숙소 예약’, ’식당 탐색’을 순차적으로만 처리하는 것이 아니라, “비행기표가 비싸면 기차로 변경하고, 이에 맞춰 숙소 위치를 다시 선정한다“는 식의 백트래킹(Backtracking)이 가능하다.
- 구현: 2025년의 ToT 구현체들은 너비 우선 탐색(BFS)이나 몬테카를로 트리 탐색(MCTS) 알고리즘을 내장하여, 코딩이나 수학 증명과 같은 정답 공간이 명확한 문제에서 탁월한 성능을 발휘한다.17
2.2.2 생각의 그래프 (Graph of Thoughts, GoT)
LangGraph와 같은 프레임워크에 의해 대중화된 GoT는 ToT를 넘어, 생각들 간의 병합(Aggregation)과 순환(Cycle)을 허용한다.18 현실의 작업 흐름은 종종 이전 단계로 되돌아가거나(피드백 루프), 서로 다른 작업의 결과물이 합쳐져야 하는 경우가 많다.
- 순환적 구조: 에이전트의 상태(State)를 노드로, 행동(Action)을 엣지로 정의하여, “계획 -> 실행 -> 평가 -> (수정 필요 시) -> 계획“으로 이어지는 무한 루프를 구조적으로 제어한다. 이는 소프트웨어 개발에서 “코드 작성 -> 테스트 -> (에러 발생) -> 디버깅 -> 테스트“의 사이클을 자동화하는 데 필수적이다.
2.3 표준화된 계획 패턴: Plan-and-Execute 및 Evaluator-Optimizer
2025년의 에이전트 시스템에서 관찰되는 계획 패턴은 크게 두 가지로 수렴되었다.20
- Plan-and-Execute (선계획 후실행): ‘플래너(Planner)’ 에이전트가 전체 작업의 청사진을 먼저 작성하고, 이를 ‘워커(Worker)’ 에이전트들에게 하달한다. 워커들은 각자의 과업을 수행한 뒤 결과를 보고하고, 플래너는 이를 취합한다. 이 방식은 컨텍스트 윈도우를 효율적으로 관리하고, 거대 모델의 호출 횟수를 줄여 비용을 절감하는 데 유리하다.
- Evaluator-Optimizer (평가-최적화 루프): 실행 결과의 품질을 보장하기 위한 패턴이다. ’생성자(Generator)’가 결과물을 만들면, ’평가자(Evaluator)’가 이를 비평하고 점수를 매긴다. 점수가 기준치에 미달하면 최적화 피드백을 반영하여 재생성을 요청한다. 이 루프는 번역, 법률 문서 작성 등 고품질이 요구되는 작업에서 인간 전문가의 검수 과정을 모방한다.22
3. 자율적 에이전트 아키텍처: 오케스트레이션과 사회적 상호작용
단일 모델의 지능이 아무리 뛰어나더라도, 모든 도메인의 지식을 포괄할 수는 없다. 따라서 2025년의 기술 트렌드는 다수의 전문화된 에이전트들이 협력하는 **멀티 에이전트 시스템(Multi-Agent System, MAS)**으로 이동했다. 이는 트랜스포머 싱귤래리티가 개별 지능의 탄생을 넘어, ’인공지능 사회’의 형성으로 이어지는 지점이다.
3.1 에이전트 프레임워크의 춘추전국시대와 통합
2025년 에이전트 프레임워크 생태계는 LangGraph, AutoGen, CrewAI 등이 각기 다른 철학으로 발전하며 치열한 경쟁과 융합을 반복하고 있다.
- LangGraph (그래프 기반 제어): 2025년 엔터프라이즈 환경에서 가장 널리 채택된 프레임워크이다.23 그래프 이론을 기반으로 에이전트 간의 상태 전이를 명시적으로 정의할 수 있어, 예측 가능하고 통제 가능한 워크플로우를 보장한다. 특히 ‘인간 개입(Human-in-the-loop)’ 기능을 통해 중요 결정 시점에 관리자의 승인을 받는 프로세스를 쉽게 구현할 수 있어, 금융이나 의료 분야에서 선호된다.24
- Microsoft AutoGen (대화형 협업): 에이전트들이 자연어로 대화하며 문제를 해결하는 방식에 특화되어 있다. ‘중첩 채팅(Nested Chat)’ 기능은 에이전트가 외부와 소통하기 전에 내부적으로 다른 에이전트(예: 비평가, 데이터 분석가)와 상담하여 답변을 정제하는 ‘내적 독백’ 메커니즘을 구현한다.25 이는 에이전트에게 일종의 ’메타인지’를 부여하는 효과를 낳는다.
- Google ADK & CrewAI: CrewAI는 역할(Role) 기반의 팀 구성에, Google ADK는 구글의 생태계(Gemini, Vertex AI)와의 통합 및 장기 기억 관리에 강점을 보인다.27
3.2 협업 패턴과 집단 지성
멀티 에이전트 시스템은 인간 조직의 협업 방식을 모방한 다양한 패턴을 통해 개별 모델의 한계를 극복한다.
- 계층적 위임 (Hierarchical Delegation): CEO 에이전트가 목표를 설정하면, 매니저 에이전트가 이를 세부 과제로 나누어 실무자 에이전트에게 할당한다.
- 토론과 합의 (Debate and Consensus): 서로 다른 프롬프트나 페르소나를 가진 에이전트들이 동일한 문제에 대해 토론하고, 투표를 통해 최적의 해를 도출한다. 이는 편향을 줄이고 사실관계의 정확성을 높이는 데 효과적이다.
그러나 이러한 협업 과정에서 **‘어둠의 심리학(Dark Psychology)’**이라 불리는 실패 모드도 발견된다.28 에이전트들이 서로의 잘못된 정보를 검증 없이 수용하고 강화하는 ’반향실 효과(Echo Chambers)’나, 하위 에이전트가 상위 에이전트의 지시를 왜곡하여 수행하는 ‘위임 실패’ 등이 그것이다. 이를 방지하기 위해 2025년의 시스템은 에이전트 간의 대화 턴 수를 제한하거나, 무작위로 ‘악마의 변호인(Devil’s Advocate)’ 에이전트를 투입하여 논리를 검증하는 회로 차단기(Circuit Breaker)를 필수적으로 도입하고 있다.29
3.3 메모리 시스템: 지식의 영속화와 기술(Skill)의 추출
에이전트가 일회성 도구 사용자가 아니라 지속적인 협업 파트너가 되기 위해서는 고도화된 메모리 시스템이 필수적이다. 2025년의 아키텍처는 단기 기억(Short-term Memory)과 장기 기억(Long-term Memory)을 명확히 구분하고 통합한다.30
- 에피소드 기억 (Episodic Memory): LangGraph의 체크포인터(Checkpointer)와 같은 기술을 통해, 긴 워크플로우 중간에 시스템이 중단되더라도 이전 상태를 완벽하게 복원한다. 이는 수일이 걸리는 장기 프로젝트 수행에 필수적이다.
- 의미적 기억 (Semantic Memory): Vector Store(RedisVL, Pinecone 등)를 활용하여 과거의 성공적인 해결책이나 도메인 지식을 저장한다. 최신 연구인 ’SkillWeaver’나 ’Agent Workflow Memory’는 에이전트가 반복되는 성공 패턴을 감지하면 이를 재사용 가능한 “기술(Skill)“로 추상화하여 메모리에 저장하고, 향후 유사한 상황에서 검색하여 사용하는 능력을 보여준다.31
4. 자기 성찰(Self-Reflection)과 오류 수정(Error Correction) 메커니즘
자율성은 곧 실패할 가능성을 내포한다. 따라서 2025년형 트랜스포머의 핵심 역량은 실패하지 않는 것이 아니라, 실패로부터 배우고 스스로를 수정하는 능력에 있다.
4.1 Reflexion: 언어적 피드백을 통한 강화학습
Reflexion 프레임워크는 전통적인 강화학습(RL)이 수치적 보상(Scalar Reward)에 의존했던 것과 달리, **언어적 피드백(Verbal Feedback)**을 최적화의 신호로 사용한다.32 에이전트는 작업을 수행한 후, 결과가 기대와 다를 경우 스스로 “왜 실패했는가?“에 대한 비평을 생성한다. 이 비평은 단기 메모리에 저장되어 다음 시도 시 프롬프트에 추가됨으로써, 모델의 가중치를 업데이트하지 않고도(Gradient-free) 행동을 교정한다.
예를 들어, 코딩 에이전트가 런타임 에러를 마주했을 때, 단순히 코드를 다시 생성하는 것이 아니라 “변수 선언이 루프 밖에서 이루어져야 했다“라는 구체적인 성찰(Reflection)을 생성하고, 이를 바탕으로 수정된 코드를 작성한다. 실험 결과, 이러한 성찰 과정은 HumanEval과 같은 코딩 벤치마크에서 GPT-4의 성능을 80%에서 91%로 향상시키는 효과를 보였다.33
4.2 Self-RAG: 검색과 생성의 메타인지 제어
Self-RAG(Self-Reflective Retrieval-Augmented Generation)는 에이전트가 외부 지식을 사용할 때 발생하는 환각을 제어하기 위해 고안된 아키텍처이다.34 이 모델은 텍스트를 생성하는 동안 내부적으로 **성찰 토큰(Reflection Tokens)**을 발행하여 자신의 상태를 모니터링한다.
Retrieve: 외부 정보 검색이 필요한가?IsRel: 검색된 정보가 질문과 관련이 있는가?IsSup: 생성된 문장이 검색된 정보에 의해 지지되는가?IsUse: 생성된 응답이 사용자에게 유용한가?
이러한 메타인지 토큰들은 에이전트가 무분별하게 정보를 검색하거나, 관련 없는 정보를 바탕으로 답을 지어내는 것을 방지한다. Self-RAG는 검색이 필요 없는 단순한 질문에는 빠른 응답을, 높은 정확도가 요구되는 질문에는 신중한 검색과 검증을 수행하는 적응형(Adaptive) 행동을 가능하게 한다.35
5. 2025년 12월 시점의 기술 수준 평가 및 벤치마크 분석
트랜스포머의 자율적 도구 사용과 계획 능력은 이제 실험실을 벗어나 실제 산업 현장에 적용 가능한 수준에 도달했다. 이를 증명하는 주요 벤치마크와 SOTA(State-of-the-Art) 모델들의 성과는 다음과 같다.
5.1 주요 벤치마크 성과 분석
- GAIA (General AI Assistants Benchmark):
인간에게는 쉽지만 AI에게는 어려웠던(Moravec’s Paradox) 복잡한 추론과 도구 사용 능력을 평가하는 GAIA에서, 2025년 말 기준 h2oGPTe, Manus AI 등의 에이전트 시스템은 평균 65%~89%의 성공률을 기록했다.37 이는 2023년 GPT-4가 15~30% 수준에 머물렀던 것과 비교하면 괄목할 만한 성장이다. 특히 멀티모달 데이터 처리와 웹 브라우징이 결합된 Level 3 문제에서의 해결률 증가는 AI가 실질적인 비서 역할을 수행할 수 있음을 시사한다.
- SWE-bench Verified:
실제 GitHub 이슈를 해결하는 능력을 평가하는 SWE-bench Verified에서, 상위권 모델들(Devlo, SWE-agent 등)은 70% 이상의 문제 해결률(Resolved Rate)을 달성했다.39 이는 AI 에이전트가 주니어 개발자 수준을 넘어, 복잡한 코드베이스를 분석하고, 테스트 케이스를 작성하며, 의존성 문제를 해결하여 최종적으로 PR(Pull Request)을 생성할 수 있음을 의미한다.
- WebArena:
전자상거래, 소셜 포럼 등 실제 웹 환경을 시뮬레이션한 WebArena 벤치마크에서는 IBM의 ’CUGA’와 같은 에이전트가 60% 이상의 성공률을 보였다.41 2023년 10%대에 머물렀던 웹 네비게이션 능력이 개선된 것은 시각적 정보 처리(VLM) 능력의 향상과 계획 알고리즘의 정교화 덕분이다.
5.2 SOTA 모델별 아키텍처 및 성능 비교
2025년 하반기, 거대언어모델 시장은 독점 모델과 오픈소스 모델, 그리고 추론 특화 모델들이 각축전을 벌이고 있다.
| 모델명 | 개발사 | 주요 아키텍처 및 특징 | 에이전트 성능 (SWE-bench / GAIA) | 비고 |
|---|---|---|---|---|
| GPT-5.2 | OpenAI | 시스템 2 추론 내재화, 멀티모달 네이티브, 400K 컨텍스트 | 80.0% / 88.4% | 엔터프라이즈 에이전트의 표준, 가장 안정적인 오케스트레이션 능력 보유13 |
| Llama 4 (Maverick) | Meta | MoE(Mixture of Experts) 구조, 1,000만 토큰 컨텍스트, 오픈소스 | N/A / 67.4% | 초대형 컨텍스트를 활용한 RAG 대체 가능성, 코딩 벤치마크에서는 상대적 약세43 |
| Qwen 3-Max | Alibaba | Thinking 모드 탑재, 강력한 수학/코딩 성능 | 69.6% / 81.4% | 추론(Reasoning) 모델의 오픈소스화 주도, 높은 가성비14 |
| Claude Opus 4.5 | Anthropic | 긴 컨텍스트에서의 지시 이행 능력, 도구 사용의 안전성 | 80.9% / 87.0% | 복잡한 코딩 및 창의적 작업에서 GPT-5와 대등한 경쟁13 |
| Gemini 3 Pro | 구글 생태계 도구 통합, 도구 선택(Tool Selection) 정확도 최상 | 76.2% / 91.9% (GPQA) | 멀티모달 입력 처리와 검색 증강(Search Grounding)에서 강점13 |
5.3 기술적 시사점과 산업적 파급 효과
2025년 모델들의 성능 향상은 단순한 수치의 증가가 아니다. GPT-5와 Llama 4 등은 이제 단일 턴의 질문 답변을 넘어, 수시간 또는 수일이 걸리는 작업을 자율적으로 수행할 수 있는 ’지속성(Persistence)’을 확보했다. 특히 Llama 4의 1,000만 토큰 컨텍스트 윈도우는 에이전트가 전체 프로젝트의 히스토리와 방대한 기술 문서를 메모리에 상주시킨 채 작업할 수 있게 하여, 기존 RAG 시스템의 검색 병목을 근본적으로 해소하는 대안을 제시한다.43
반면, Qwen 3와 같은 모델들이 보여주는 ’Thinking Mode’의 대중화는 추론 비용의 문제를 제기한다. 시스템 2 사고는 높은 연산 비용을 수반하므로, 모든 작업에 이를 적용하는 것은 비효율적이다. 따라서 2025년의 에이전트 설계는 작업의 난이도에 따라 모델의 사고 깊이(Thinking Depth)를 동적으로 조절하거나, 저비용 모델(시스템 1)과 고성능 추론 모델(시스템 2)을 하이브리드 하는 방향으로 최적화되고 있다.46
6. 결론: 싱귤래리티, 도구가 신체의 연장이 되는 순간
본 장에서 살펴본 2025년의 트랜스포머 기술은 ’도구 사용’과 ’계획’이라는 두 축을 중심으로 자율성의 임계점을 돌파했다. 트랜스포머는 이제 텍스트라는 닫힌 세계를 벗어나, API를 통해 현실 세계의 시스템을 제어하고, 계획 알고리즘을 통해 미래를 예측하며, 성찰 메커니즘을 통해 스스로 진화한다.
이러한 변화는 AI를 단순한 정보 검색 도구(Search Engine)나 대화 상대(Chatbot)에서, 실질적인 경제 가치를 창출하는 **지식 노동자(Knowledge Worker)**로 재정의하게 만든다. 프로토콜의 표준화(MCP), 추론의 내재화(System 2), 그리고 에이전트 아키텍처의 성숙은 향후 수년 내에 소프트웨어 개발, 데이터 분석, 과학 연구 등 지적 노동의 전 영역에서 인간과 AI의 협업 방식을 근본적으로 재편할 것이다. 트랜스포머 싱귤래리티는 모델이 인간의 언어를 이해하는 시점이 아니라, 모델이 인간이 만든 도구를 인간보다 더 능숙하게 다루기 시작한 바로 지금, 2025년 12월에 시작되었다고 볼 수 있다.
7. 참고 자료
- LLM Agents → ReAct, Toolformer, AutoGPT family & Autonomous Agent Frameworks | by Akanksha Sinha | Medium, https://medium.com/@akankshasinha247/react-toolformer-autogpt-family-autonomous-agent-frameworks-2c4f780654b8
- Toolformer: Language Models Can Teach Themselves to Use Tools - OpenReview, https://openreview.net/forum?id=Yacmpz84TH
- [2302.04761] Toolformer: Language Models Can Teach Themselves to Use Tools - arXiv, https://arxiv.org/abs/2302.04761
- RAT (Retrieval Aware Training) - Gorilla LLM, https://gorilla.cs.berkeley.edu/blogs/3_retriever_aware_training.html
- Gorilla: Large Language Model Connected with Massive APIs, https://proceedings.neurips.cc/paper_files/paper/2024/file/e4c61f578ff07830f5c37378dd3ecb0d-Paper-Conference.pdf
- Unified Tool Integration for LLMs: A Protocol-Agnostic Approach to Function Calling - arXiv, https://arxiv.org/html/2508.02979v1
- Tools - Model Context Protocol, https://modelcontextprotocol.io/specification/2025-06-18/server/tools
- Schemas - LLM - Datasette, https://llm.datasette.io/en/stable/schemas.html
- nexusflowai/NexusRaven-V2 - GitHub, https://github.com/nexusflowai/NexusRaven-V2
- Generative AI’s Act o1: The Reasoning Era Begins | Sequoia Capital, https://sequoiacap.com/article/generative-ais-act-o1/
- New Energy-Based Transformer architecture aims to bring better “System 2 thinking” to AI models - The Decoder, https://the-decoder.com/new-energy-based-transformer-architecture-aims-to-bring-better-system-2-thinking-to-ai-models/
- Search-o1: Agentic Search-Enhanced Large Reasoning Models - arXiv, https://arxiv.org/html/2501.05366v1
- LLM Leaderboard 2025 - Vellum AI, https://www.vellum.ai/llm-leaderboard
- arXiv:2505.09388v1 [cs.CL] 14 May 2025, https://arxiv.org/pdf/2505.09388
- What is Tree Of Thoughts Prompting? - IBM, https://www.ibm.com/think/topics/tree-of-thoughts
- Tree of Thoughts - GitHub Pages, https://langchain-ai.github.io/langgraph/tutorials/tot/tot/
- [論文評述] Understanding the planning of LLM agents: A survey - Moonlight, https://www.themoonlight.io/tw/review/understanding-the-planning-of-llm-agents-a-survey
- Graph API overview - Docs by LangChain, https://docs.langchain.com/oss/python/langgraph/graph-api
- Understanding Graph-Based AI Agents: From Concept to Code - Shane’s Personal Blog, https://shanechang.com/p/graph-based-ai-agent-workflows/
- Workflows and agents - Docs by LangChain, https://langchain-ai.github.io/langgraph/concepts/agentic_concepts/
- Plan-and-Execute Agents - LangChain Blog, https://blog.langchain.com/planning-agents/
- Reflection Agents - LangChain Blog, https://blog.langchain.com/reflection-agents/
- Multi-Agent and Multi-LLM Architecture: Complete Guide for 2025 - Collabnix, https://collabnix.com/multi-agent-and-multi-llm-architecture-complete-guide-for-2025/
- Best AI Agent Frameworks 2025: LangGraph, CrewAI, OpenAI, LlamaIndex, AutoGen, https://www.getmaxim.ai/articles/top-5-ai-agent-frameworks-in-2025-a-practical-guide-for-ai-builders/
- Solving Complex Tasks with Nested Chats | AutoGen 0.2 - Microsoft Open Source, https://microsoft.github.io/autogen/0.2/docs/notebooks/agentchat_nestedchat/
- 4 Steps to Build Multi-Agent Nested Chats with AutoGen - Analytics Vidhya, https://www.analyticsvidhya.com/blog/2024/11/nested-chat-with-autogen/
- Top 7 AI Agent Frameworks in 2025 — Ultimate Guide - Ampcome, https://www.ampcome.com/post/top-7-ai-agent-frameworks-in-2025
- The Dark Psychology of Multi-Agent AI: 30 Failure Modes That Can Break Your Entire System | by Rakesh Sheshadri - Medium, https://medium.com/@rakesh.sheshadri44/the-dark-psychology-of-multi-agent-ai-30-failure-modes-that-can-break-your-entire-system-023bcdfffe46
- Beyond the Hype: What I learned analyzing Google’s 2025 Agent Architecture Framework : r/GeminiAI - Reddit, https://www.reddit.com/r/GeminiAI/comments/1pjv90t/beyond_the_hype_what_i_learned_analyzing_googles/
- Build smarter AI agents: Manage short-term and long-term memory with Redis | Redis, https://redis.io/blog/build-smarter-ai-agents-manage-short-term-and-long-term-memory-with-redis/
- WebArena Benchmark: Evaluating Web Agents - Emergent Mind, https://www.emergentmind.com/topics/webarena-benchmark
- Building a Self-Correcting AI: A Deep Dive into the Reflexion Agent with LangChain and LangGraph | by Vi Q. Ha | Medium, https://medium.com/@vi.ha.engr/building-a-self-correcting-ai-a-deep-dive-into-the-reflexion-agent-with-langchain-and-langgraph-ae2b1ddb8c3b
- Reflexion: language agents with verbal reinforcement learning - OpenReview, https://openreview.net/forum?id=vAElhFcKW6
- Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection - arXiv, https://arxiv.org/abs/2310.11511
- Reflection vs Planning in RAG: Choosing the Right Design for Smarter AI - Medium, https://medium.com/@asimsultan2/reflection-vs-planning-in-rag-choosing-the-right-design-for-smarter-ai-40d1ec9e6663
- Self-Reflective Retrieval-Augmented Generation (SELF-RAG) - Kore.ai, https://www.kore.ai/blog/self-reflective-retrieval-augmented-generation-self-rag
- AI is Only 30% Away From Matching Human-Level General Intelligence on GAIA Benchmark, https://www.businesswire.com/news/home/20241223840924/en/AI-is-Only-30-Away-From-Matching-Human-Level-General-Intelligence-on-GAIA-Benchmark
- GAIA Leaderboard - a Hugging Face Space by gaia-benchmark, https://huggingface.co/spaces/gaia-benchmark/leaderboard
- Achieving SOTA on SWE-bench - devlo - AI, https://devlo.ai/blog/devlo-swe-bench-sota
- SWE-bench Results Viewer, https://www.swebench.com/viewer.html
- Best AI Agent Evaluation Benchmarks: 2025 Complete Guide | Articles - O-mega.ai, https://o-mega.ai/articles/the-best-ai-agent-evals-and-benchmarks-full-2025-guide
- GPT-5 vs The Field: The 2025 LLM Buyer’s Guide, https://ai.koombea.com/blog/gpt-5-vs-claude-gemini-grok-llama-2025-buyers-guide
- A Comparative Analysis and the Ultimate Comparison of All Large Language Models - Neuronimbus, https://www.neuronimbus.com/blog/a-comparative-analysis-and-the-ultimate-comparison-of-all-large-language-models
- Llama 4 underperforms: a benchmark against coding-centric models - Rootly, https://rootly.com/blog/llama-4-underperforms-a-benchmark-against-coding-centric-models
- Qwen3-Max 2025 Complete Release Analysis: In-Depth Review of Alibaba’s Most Powerful AI Model - DEV Community, https://dev.to/czmilo/qwen3-max-2025-complete-release-analysis-in-depth-review-of-alibabas-most-powerful-ai-model-3j7l
- You HAVE to Try Agentic RAG with DeepSeek R1 (Insane Results) - YouTube, https://www.youtube.com/watch?v=uWDocIoiaXE
- How Reasoning Models Jeopardize Your Agentic Workflows | by Paul Fruitful | Medium, https://medium.com/@fruitful2007/how-reasoning-models-jeopardize-your-agentic-workflows-27a465a73ecf