HuggingGPT

2025-12-08, G30DR

1. 서론: 인공지능 패러다임의 전환과 오케스트레이션의 필요성

현대 인공지능 연구는 대규모 언어 모델(Large Language Model, LLM)의 급격한 발전으로 인해 새로운 국면을 맞이했다. ChatGPT와 같은 LLM은 텍스트 생성, 번역, 요약 등 언어적 추론 능력이 필요한 작업에서 인간 수준, 혹은 그 이상의 성취를 보여주었다. 그러나 이러한 범용 LLM은 근본적인 한계를 지닌다. 텍스트 이외의 시각(Vision), 음성(Audio), 비디오(Video)와 같은 다중 모달리티(Multimodality)를 직접 처리하는 데 제약이 따르며, 복잡하고 정밀한 도구 제어 능력이 부족하다는 점이다.1 반면, 컴퓨터 비전이나 음성 처리 분야에서는 특정 작업에 특화된 수많은 ’전문가 모델(Expert Models)’들이 존재하며, 이들은 각자의 영역에서 탁월한 성능을 발휘한다.

이러한 배경에서 마이크로소프트 리서치(Microsoft Research)가 제안한 HuggingGPT (코드명: JARVIS)는 인공지능 시스템의 구조를 근본적으로 재정의한다. HuggingGPT는 LLM을 단독으로 사용하는 대신, LLM을 전체 시스템의 ’두뇌’이자 ’컨트롤러(Controller)’로 활용하여 Hugging Face와 같은 기계 학습 커뮤니티에 존재하는 수만 개의 전문가 모델들을 연결하고 조율한다.1 이는 “언어는 LLM, 도구, 그리고 인간을 연결하는 보편적인 인터페이스(Language serves as an interface)“라는 철학에 기반하며, 이를 통해 단일 모델로는 불가능했던 복합적이고 난이도 높은 인공지능 작업들을 수행할 수 있는 길을 열었다.3

본 연구 보고서는 HuggingGPT의 아키텍처와 작동 원리를 심층적으로 분석하고, 경쟁 모델인 AutoGPT 및 BabyAGI와의 차별성을 규명하며, 시스템 구현을 위한 하드웨어 및 소프트웨어 요구사항을 상세히 기술한다. 또한, 초기 모델의 한계를 극복하기 위해 등장한 TaskBench와 EasyTool과 같은 최신 연구 동향을 포함하여, HuggingGPT가 범용 인공지능(AGI)으로 나아가는 과정에서의 기술적 의의와 미래 전망을 포괄적으로 논의한다.

2. HuggingGPT의 핵심 철학 및 이론적 배경

HuggingGPT의 설계 사상은 기존의 ‘모델 훈련(Model Training)’ 중심의 접근법에서 ’모델 오케스트레이션(Model Orchestration)’으로의 전환을 의미한다. 새로운 작업을 수행하기 위해 거대 모델을 처음부터 다시 학습시키는 것은 막대한 비용과 시간이 소요된다. 대신, HuggingGPT는 이미 학습된 전문가 모델들을 레고 블록처럼 조합하여 문제를 해결하는 방식을 채택한다.1

2.1 컨트롤러로서의 LLM (LLM as a Controller)

이 시스템의 핵심은 LLM(주로 ChatGPT 또는 GPT-4)이 수행하는 메타 인지적 역할이다. LLM은 사용자의 모호한 자연어 명령을 해석하고, 이를 기계가 실행 가능한 구체적인 작업 계획으로 변환한다. 이 과정에서 LLM은 직접 그림을 그리거나 음성을 합성하지 않는다. 대신, 어떤 전문가가 그 작업을 가장 잘 수행할 수 있는지 판단하고, 그들에게 명령을 하달하며, 결과물을 수집하여 사용자에게 전달하는 관리자 역할을 수행한다.3 이는 LLM의 강력한 언어 이해 능력과 추론 능력을 시스템의 제어 로직으로 치환한 것이다.

2.2 인컨텍스트 러닝(In-Context Learning)을 통한 적응

HuggingGPT는 별도의 파인 튜닝(Fine-tuning) 없이, 프롬프트 엔지니어링을 통해 LLM의 행동을 제어한다. 시스템은 LLM에게 전문가 모델들의 목록과 각 모델의 기능적 설명(Model Descriptions), 그리고 작업 계획을 수립하는 방법에 대한 예시(Few-shot demonstrations)를 프롬프트로 제공한다. 이를 통해 LLM은 낯선 작업 요청이 들어와도 문맥을 통해 해결 방법을 유추하고 계획을 수립할 수 있다.2

3. 시스템 아키텍처: 4단계 순환 워크플로우

HuggingGPT의 워크플로우는 선형적인 단방향 프로세스가 아니라, 계획, 선택, 실행, 응답이 유기적으로 연결된 4단계 구조를 따른다. 각 단계는 이전 단계의 출력에 의존하며, 정교한 데이터 흐름을 통해 상호작용한다.5

3.1 제1단계: 작업 계획 (Task Planning)

사용자의 요청이 시스템에 입력되면, LLM은 이를 분석하여 실행 가능한 하위 작업(Sub-tasks)으로 분해한다. 이 단계는 단순한 키워드 추출을 넘어, 작업 간의 논리적 인과관계와 실행 순서를 결정하는 고도의 추론 과정이다.

작업 분해 및 구조화: LLM은 요청을 해석한 후, JSON 형식의 작업 목록을 생성한다. 각 작업은 task (작업 유형), id (작업 식별자), dep (의존성, 선행 작업 ID), args (입력 인수)와 같은 필드를 포함한다.5
의존성 그래프(Dependency Graph) 구축: 복합적인 작업의 경우, 특정 작업의 결과가 다른 작업의 입력으로 사용되어야 한다. 예를 들어 “소녀가 책을 읽는 이미지를 생성하고 이를 설명하라“는 요청에서, ‘설명(Image Captioning)’ 작업은 ‘생성(Text-to-Image)’ 작업이 완료되어야만 실행 가능하다. HuggingGPT는 <resource>-task_id라는 심볼릭 참조를 사용하여 이러한 자원 의존성을 명시한다.2

3.2 제2단계: 모델 선택 (Model Selection)

계획된 각 하위 작업을 수행하기 위해 최적의 전문가 모델을 선정하는 단계다. Hugging Face Hub에는 수많은 모델이 존재하므로, 이 중 적절한 모델을 찾아내는 것이 시스템 성능의 핵심이다.

설명 기반 필터링(Description-based Filtering): LLM은 작업 유형에 해당하는 모델 후보군을 필터링한 후, 각 모델의 메타데이터와 기능 설명을 분석하여 가장 적합한 모델을 선택한다.8
문맥 제한 극복: 수많은 모델 정보를 프롬프트에 모두 담을 수 없기 때문에, 시스템은 먼저 작업 유형에 따라 후보 모델을 추리고, 상위 랭킹(다운로드 수 등) 모델 정보를 우선적으로 LLM에 제공하는 전략을 사용한다.

3.3 제3단계: 작업 실행 (Task Execution)

선정된 모델들이 실제로 구동되는 단계로, LLM의 통제 범위를 벗어나 실제 추론 엔진에서 수행된다.

하이브리드 엔드포인트(Hybrid Endpoints): 작업의 성격과 보안 요구사항에 따라 모델은 로컬 서버(Local Endpoint) 또는 Hugging Face의 클라우드 API(Inference Endpoint)에서 실행된다. 로컬 실행은 속도와 안정성이 보장되지만 고사양 하드웨어가 필요하며, 클라우드 실행은 편리하지만 네트워크 지연이나 서비스 상태에 영향을 받는다.2
동적 리소스 주입: 1단계에서 정의된 <resource>-task_id 심볼은 이 단계에서 실제 파일 경로(예: /images/gen_01.jpg)나 데이터로 치환되어 모델의 입력으로 주입된다. 이를 통해 서로 다른 모달리티 간의 데이터 흐름이 자동화된다.2

3.4 제4단계: 응답 생성 (Response Generation)

모든 전문가 모델의 실행이 완료되면, LLM은 각 작업의 실행 결과(로그, 생성된 미디어, 추론 텍스트 등)를 수집하여 사용자에게 최종 답변을 생성한다.

결과 통합 및 요약: LLM은 단순히 결과물을 나열하는 것이 아니라, “요청하신 A 작업을 위해 B 모델을 사용하여 C 결과물을 생성했습니다“와 같이 사용자가 이해하기 쉬운 문맥적 요약(Summarization)을 제공한다.5
신뢰도 및 오류 보고: 실행 과정에서 특정 모델이 실패했거나 결과가 불확실할 경우, LLM은 이를 감지하고 사용자에게 해당 사실을 투명하게 알리거나 대안을 제시한다.

4. 자율 에이전트 비교 분석: HuggingGPT, AutoGPT, BabyAGI

2023년 이후 등장한 자율 AI 에이전트들은 각기 다른 목표와 아키텍처를 가지고 있다. HuggingGPT를 정확히 이해하기 위해서는 유사한 시기에 주목받은 AutoGPT 및 BabyAGI와의 비교가 필수적이다.9

4.1 아키텍처 및 기능적 차이점 비교

세 시스템은 모두 LLM을 핵심 엔진으로 사용하지만, 그 활용 방식과 지향점에서 뚜렷한 차이를 보인다.

비교 항목	AutoGPT	BabyAGI	HuggingGPT (JARVIS)
핵심 목표	자율적 목표 달성 (Goal-oriented)	작업 관리 및 실행 (Task Management)	도구 연결 및 협업 (Tool Orchestration)
작동 방식	사고의 연쇄(Chain of Thought), 인터넷 검색을 통한 정보 수집 및 자율 반복	작업 생성 -> 실행 -> 결과 기반 신규 작업 생성의 무한 루프	사용자 요청 -> 4단계 계획(Plan) -> 전문가 모델 호출 -> 결과 통합
주요 도구	웹 브라우저, 파일 시스템, 터미널	텍스트 기반 함수, 벡터 데이터베이스	Hugging Face 내의 멀티모달(Vision, Audio 등) 모델
인터페이스	주로 CLI (명령줄 인터페이스)	CLI (Python 스크립트)	CLI 및 웹(Gradio, Web API) 지원
확장성	인터넷 정보를 통한 지식 확장	태스크 루프를 통한 논리적 확장	외부 AI 모델 플러그인을 통한 기능적 확장
의존성	OpenAI API, Pinecone (메모리)	OpenAI API, Chroma/Weaviate	OpenAI API, Hugging Face Hub, 로컬 GPU 자원

4.2 상세 비교 분석

AutoGPT: AutoGPT는 ’인터넷에 연결된 GPT-4’의 성격이 강하다. 사용자가 “시장 조사를 수행해“라고 명령하면, 스스로 하위 목표를 설정하고 구글 검색을 수행하며, 수집된 정보를 파일로 저장하는 일련의 과정을 자율적으로 수행한다. 그러나 이는 주로 텍스트 정보 처리와 웹 브라우징에 특화되어 있어, 이미지 생성이나 비디오 분석과 같은 멀티모달 작업에는 한계가 있다.9
BabyAGI: BabyAGI는 작업의 우선순위 설정(Prioritization)과 실행 관리(Execution Management)에 초점을 맞춘다. 실행된 작업의 결과를 바탕으로 끊임없이 새로운 작업을 파생시키는 구조는 에이전트의 ‘자기 주도적’ 성격을 보여주지만, 복잡한 외부 도구(딥러닝 모델 등)를 직접 제어하는 능력보다는 논리적 작업 흐름 관리에 집중되어 있다.9
HuggingGPT: HuggingGPT는 위 두 모델과 달리 ‘실행 능력의 물리적 확장’ 에 집중한다. 텍스트 처리 능력을 넘어, Hugging Face에 존재하는 수만 개의 시각, 청각, 영상 모델들을 자신의 ’손발’로 사용한다. 예를 들어 “이 사진의 자세를 분석해서(Pose Detection), 동일한 자세를 취한 다른 캐릭터를 그려줘(ControlNet)“와 같은 요청은 AutoGPT나 BabyAGI가 수행하기 어렵지만, HuggingGPT는 이를 손쉽게 처리한다. 즉, HuggingGPT는 단순한 비서가 아니라, 다양한 전문가들을 지휘하는 ‘현장 감독관(Foreman)’ 의 역할을 수행한다.3

5. 하드웨어 요구사항 및 시스템 구현

HuggingGPT는 다수의 고성능 딥러닝 모델을 로드하고 관리해야 하므로, 시스템 구축을 위해서는 상당한 수준의 하드웨어 리소스가 요구된다. 이는 개인 사용자의 접근성을 제한하는 요인이 되기도 하지만, 동시에 엔터프라이즈급 성능을 보장하는 기반이 된다.12

5.1 구성 모드별 하드웨어 사양

마이크로소프트의 공식 문서에 따르면, 시스템은 사용 목적과 리소스 가용성에 따라 ’Lite 모드’와 ‘Default 모드’ 등으로 구성할 수 있다.

5.1.1 Lite 모드 (최소 사양)

이 모드는 로컬 머신에 무거운 모델을 다운로드하지 않고, Hugging Face의 클라우드 추론 엔드포인트(Inference Endpoints)만을 활용한다.

운영체제: Ubuntu 16.04 LTS (권장), Windows WSL2 지원.
하드웨어: 고성능 GPU가 불필요하며, 일반적인 CPU 환경에서도 구동 가능하다.
특징: 설치가 간편하지만, 클라우드 엔드포인트의 네트워크 상태나 유료 API 정책에 따라 성능이 제한될 수 있다.

5.1.2 Default 모드 (권장 사양 - 로컬/하이브리드)

핵심 전문가 모델들을 로컬 서버에 직접 띄워두고 실행하는 방식으로, 안정적이고 빠른 추론이 가능하다.

VRAM (비디오 메모리): 최소 24GB 이상. 이는 소비자용 그래픽카드 중 최상위 모델(RTX 3090/4090)이나 서버용 GPU(A100 등)가 필요함을 의미한다.
RAM (시스템 메모리): 기본 동작을 위해 16GB가 필요하며, 전체 모델 풀을 원활히 운영하기 위해서는 80GB 이상이 권장된다.
저장 공간 (Disk): 최소 284GB 이상의 여유 공간이 필요하다. 이는 damo-vilab/text-to-video-ms-1.7b (42GB), ControlNet (126GB), stable-diffusion-v1-5 (66GB) 등 대용량 모델들의 가중치 파일을 저장해야 하기 때문이다.12

5.2 소프트웨어 환경

기반 프레임워크: Python 3.8 환경에서 PyTorch, Torchvision, Torchaudio 등이 필수적으로 요구된다.
서버 아키텍처: 모델 추론을 담당하는 모델 서버(Models Server)와 사용자와 상호작용하는 메인 서버(Awesome Chat)가 분리되어 통신하는 구조를 가진다. 이를 통해 분산 처리가 가능하며 시스템 확장성을 확보한다.12

6. 생태계의 진화: EasyTool과 TaskBench

HuggingGPT의 초기 발표 이후, 마이크로소프트는 시스템의 효율성을 높이고 성능을 정량적으로 평가하기 위한 후속 연구인 EasyTool과 TaskBench를 공개하며 프로젝트를 지속적으로 고도화하고 있다.12

6.1 EasyTool: 도구 사용 효율성의 극대화

LLM 에이전트가 외부 도구를 사용할 때 가장 큰 병목 중 하나는 ’도구 문서(Tool Documentation)’의 비효율성이다. 도구 설명이 너무 길면 LLM의 컨텍스트 윈도우(토큰 제한)를 낭비하게 되고, 설명이 불명확하면 LLM이 잘못된 도구를 호출하거나 매개변수를 틀리는 오류(Hallucination)를 범하게 된다.

EasyTool은 이러한 문제를 해결하기 위한 프레임워크로, 다음과 같은 기능을 수행한다14:

문서 압축 및 정제: 다양하고 장황한 도구 문서에서 핵심 기능 설명과 필수 매개변수 정보만을 추출한다. 불필요한 서술을 제거하여 토큰 소비를 획기적으로 줄인다.
표준화된 인터페이스 생성: 서로 다른 형식의 문서들을 통일된 ‘도구 지침(Tool Instruction)’ 형태로 변환한다. 이는 LLM이 도구의 기능을 더 명확하게 이해하도록 돕는다.
데모 기반 학습 강화: ChatGPT를 활용하여 도구 사용 예시(Demonstrations)를 생성하고 이를 지침에 포함시킨다.
HuggingGPT 성능 향상: 실험 결과, EasyTool을 적용했을 때 LLM의 토큰 소비가 감소했을 뿐만 아니라, 도구 선택의 정확도가 상승하고 실행 오류가 줄어들었다. 이는 HuggingGPT의 모델 선택 단계(Stage 2)의 신뢰성을 높이는 핵심 기술로 작용한다.

6.2 TaskBench: 자동화 능력의 정량적 평가

기존의 NLP 벤치마크들은 언어 이해력 측정에 집중되어 있어, 에이전트가 복합적인 작업을 얼마나 잘 계획하고 실행하는지 평가하기 어려웠다. TaskBench는 이러한 공백을 메우기 위해 설계된 벤치마크 시스템이다.12

평가 지표: 작업 분해의 논리성, 도구 선택의 정확성, 매개변수 예측의 정밀도, 최종 결과물의 적합성 등을 다각도로 측정한다.
의의: TaskBench는 HuggingGPT뿐만 아니라 다양한 LLM 기반 에이전트들의 성능을 객관적으로 비교할 수 있는 척도를 제공하며, 시스템의 약점을 파악하고 개선하는 데 기여한다.

7. 성능 분석, 한계점 및 실패 모드

HuggingGPT는 혁신적인 아키텍처를 제시했지만, 실제 운영 환경에서는 몇 가지 뚜렷한 기술적 난관과 성능적 한계에 직면한다.

7.1 지연 시간(Latency) 및 병목 현상

HuggingGPT의 전체 응답 속도는 시스템 내에서 가장 느린 구성 요소에 의해 좌우된다. 특히 멀티모달 작업을 처리할 때 상당한 지연이 발생한다.

추론 지연: 비디오 생성이나 고해상도 이미지 처리와 같은 작업은 모델 자체의 연산 비용이 매우 높다. 예를 들어, 텍스트-비디오 변환 모델은 단 몇 초의 영상을 생성하는 데 수십 초에서 수 분이 소요될 수 있다.17
네트워크 지연: 클라우드 엔드포인트를 사용할 경우, 모델 가중치를 로드하거나 데이터를 전송하는 과정에서 네트워크 병목이 발생하며, 이는 실시간 상호작용을 저해하는 주된 요인이 된다.4
순차적 실행의 한계: 작업 간의 의존성(Dependency)이 있는 경우, 선행 작업이 완료될 때까지 후행 작업이 대기해야 하므로 전체 프로세스 시간이 누적된다.

7.2 오류 전파(Error Propagation)와 안정성

4단계 워크플로우는 상호 밀접하게 연결되어 있어, 초기 단계의 작은 오류가 전체 시스템의 실패로 이어진다.18

계획 단계의 오류: LLM이 사용자의 의도를 잘못 파악하여 엉뚱한 작업 흐름을 설계하면, 이후 수행되는 모든 전문가 모델의 연산은 자원 낭비가 된다.
모델 선택 실패: 유사한 기능을 가진 모델이 다수 존재할 때(예: 여러 종류의 객체 감지 모델), 현재 상황에 맞지 않거나 성능이 떨어지는 모델을 선택할 수 있다.
입출력 불일치: 전문가 모델 간의 데이터 포맷이 호환되지 않거나, 생성된 중간 결과물(예: 찌그러진 이미지)의 품질이 낮아 다음 단계의 모델이 이를 처리하지 못하고 예외(Exception)를 발생시키는 경우가 빈번하다.

7.3 비용 효율성 문제

HuggingGPT는 모든 사용자 요청에 대해 고성능 LLM(GPT-4 등)과 통신해야 하므로 API 호출 비용이 지속적으로 발생한다. 또한, 로컬 배포 시 요구되는 고사양 하드웨어의 전력 소비와 유지 보수 비용은 일반 사용자가 접근하기에는 높은 진입 장벽으로 작용한다. EasyTool과 같은 경량화 기술이 도입되고 있으나, 여전히 단순한 챗봇 서비스에 비해 운영 비용이 월등히 높다.

8. 결론 및 미래 전망

HuggingGPT(JARVIS)는 인공지능이 단일 모델의 성능 경쟁을 넘어, ‘협업과 연결’ 을 통해 범용성(Generality)을 확보하려는 중요한 시도를 보여준다. LLM을 시스템의 두뇌로, 수많은 전문가 모델을 신체로 결합함으로써, 인공지능은 텍스트 상자에 갇힌 존재에서 벗어나 시각, 청각 등 다양한 감각을 통해 세상을 이해하고 복잡한 도구를 사용하여 실질적인 과업을 수행하는 에이전트로 진화하고 있다.3

본 분석을 통해 도출된 핵심 시사점과 미래 전망은 다음과 같다.

인터페이스로서의 자연어의 승리: HuggingGPT는 프로그래밍 코드가 아닌 자연어가 서로 다른 AI 시스템 간의 통신 프로토콜로 기능할 수 있음을 증명했다. 이는 향후 AI 시스템 간의 상호운용성(Interoperability) 표준이 자연어 기반으로 재편될 것임을 시사한다.
모듈형 AI(Modular AI)의 부상: 거대 단일 모델(Monolithic Model)이 모든 것을 처리하는 방식보다는, 전문화된 모델들을 유연하게 조합하는 방식이 비용 효율성과 성능 최적화 측면에서 유리할 수 있다. HuggingGPT는 이러한 모듈형 AI의 가능성을 구체적으로 구현한 사례다.
생태계 기반의 진화: HuggingGPT의 잠재력은 시스템 자체보다 Hugging Face라는 거대한 오픈소스 생태계에 의존한다. 커뮤니티에 새로운 고성능 모델이 등록될수록 HuggingGPT의 능력은 별도의 업데이트 없이도 즉각적으로 확장된다.

향후 HuggingGPT와 유사한 시스템들은 EasyTool과 같은 기술을 통해 도구 학습 과정을 자동화하고, TaskBench와 같은 도구로 스스로를 검증하며 발전하는 ‘자가 개선형 에이전트(Self-improving Agents)’ 로 거듭날 것이다. 비록 현재는 지연 시간과 하드웨어 비용이라는 한계가 존재하지만, 하드웨어의 발전과 모델 경량화 기술이 병행됨에 따라 이러한 오케스트레이션 시스템은 연구실을 넘어 산업 현장과 일상생활의 복잡한 문제를 해결하는 유비쿼터스 솔루션으로 자리 잡을 것으로 전망된다.

9. 참고 자료

HuggingGPT: The Secret Weapon to Solve Complex AI Tasks - KDnuggets, https://www.kdnuggets.com/2023/05/hugginggpt-secret-weapon-solve-complex-ai-tasks.html
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in …, https://arxiv.org/pdf/2303.17580
HuggingGPT - Core - Miraheze, https://gpt.miraheze.org/wiki/HuggingGPT
Meet HuggingGPT: A Framework That Leverages LLMs to Connect Various AI Models in Machine Learning Communities (Hugging Face) to Solve AI Tasks - MarkTechPost, https://www.marktechpost.com/2023/04/07/meet-hugginggpt-a-framework-that-leverages-llms-to-connect-various-ai-models-in-machine-learning-communities-hugging-face-to-solve-ai-tasks/
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face, https://ghasemzadeh.com/event/hugginggpt-solving-ai-tasks-with-chatgpt-and-its-friends-in-hugging-face/slides.pdf
Introducing JARVIS : the new Microsoft’s autonomous AI powered by HuggingGPT and ChatGPT. : r/singularity - Reddit, https://www.reddit.com/r/singularity/comments/12bysie/introducing_jarvis_the_new_microsofts_autonomous/
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face, https://proceedings.neurips.cc/paper_files/paper/2023/file/77c33e6a367922d003ff102ffb92b658-Paper-Conference.pdf
HuggingGPT: A New Way to Solve Complex AI Tasks with Language | by Giuliano Liguori, https://ingliguori.medium.com/hugginggpt-a-new-way-to-solve-complex-ai-tasks-with-language-602b6f5b263c
Autonomous GPT-4: From ChatGPT to AutoGPT, AgentGPT …, https://towardsai.net/p/l/autonomous-gpt-4-from-chatgpt-to-autogpt-agentgpt-babyagi-hugginggpt-and-beyond
We Tested 5 Autonomous AI Agents in 2024: Here’s what we found - Asista, https://www.asista.com/best-autonomous-ai-agents/
How to Use Jarvis, Microsoft’s One AI Bot to Rule Them All | Tom’s Hardware, https://www.tomshardware.com/how-to/microsoft-jarvis
microsoft/JARVIS: JARVIS, a system to connect LLMs with … - GitHub, https://github.com/microsoft/JARVIS
AI-Chef/HuggingGPT: JARVIS, a system to connect LLMs with ML community. Paper: https://arxiv.org/pdf/2303.17580.pdf - GitHub, https://github.com/AI-Chef/HuggingGPT
EASYTOOL: Enhancing LLM-based Agents with Concise Tool …, https://arxiv.org/abs/2401.06201
EASYTOOL: Enhancing LLM-based Agents with Concise Tool Instruction | Request PDF, https://www.researchgate.net/publication/392504541_EASYTOOL_Enhancing_LLM-based_Agents_with_Concise_Tool_Instruction
EASYTOOL: ENHANCING LLM-BASED AGENTS WITH CONCISE TOOL INSTRUCTION - OpenReview, https://openreview.net/pdf?id=3TuG3S68bb
Case Study: Millisecond Latency using Hugging Face Infinity and modern CPUs, https://huggingface.co/blog/infinity-cpu-performance
Towards Resource-Efficient Multimodal Intelligence: Learned Routing among Specialized Expert Models - arXiv, https://arxiv.org/html/2511.06441v1
A Taxonomy of Failures in Tool-Augmented LLMs - University of Washington, https://homes.cs.washington.edu/~rjust/publ/tallm_testing_ast_2025.pdf