1.5 비결정성이 비즈니스와 보안에 미치는 구체적 위협

1. 비결정성의 비즈니스적 전이와 신뢰의 침식

소프트웨어 공학의 역사에서 프로그램은 언제나 입력값에 대해 사전에 정의된 논리에 따라 동일한 출력을 내놓는 결정론적 시스템을 지향해 왔다. 그러나 대규모 언어 모델(LLM)을 필두로 한 인공지능 기술이 소프트웨어 개발의 핵심 스택으로 자리 잡으면서, ’비결정성(Nondeterminism)’이라는 확률적 특성이 비즈니스 운영의 근간을 흔드는 핵심 리스크로 부상하고 있다. 비결정성은 단순한 기술적 현상을 넘어, 기업이 고객에게 제공하는 서비스의 일관성을 파괴하고, 법적 책임을 유발하며, 보안 체계의 맹점을 만들어내는 구체적인 위협으로 작용한다.

비즈니스 리더들이 직면한 가장 큰 도전은 AI 시스템이 ’대체로 잘 작동한다’는 착각에서 벗어나는 것이다. 가트너(Gartner)의 2023년 보고서에 따르면, 기업의 60%가 AI 도입의 가장 큰 장애물로 신뢰성과 안정성 문제를 꼽고 있으며, 이는 비결정성이 가져오는 불확실성이 비즈니스 투자 대비 수익률(ROI)을 심각하게 저해하고 있음을 시사한다. 특히 금융, 의료, 법률과 같이 단 한 번의 오류가 치명적인 결과를 초래하는 산업군에서 비결정성은 단순한 ’기술적 부채’가 아닌 ’생존의 위협’으로 다가온다.

2. 기술적 근원에서 기인하는 비즈니스 가용성 위협

비결정성은 AI 모델의 추론 과정에서 발생하는 구조적인 문제에서 기인한다. 가장 근본적인 원인 중 하나인 부동 소수점 비결합성(Floating-point Non-associativity)은 현대의 고성능 연산 환경에서 필연적으로 발생한다. 수학적으로 $(a + b) + c$ 는 $a + (b + c)$ 와 동일해야 하지만, 컴퓨터의 부동 소수점 연산에서는 연산 순서에 따라 미세한 반올림 오차가 발생하며, 이것이 신경망의 층을 거치며 증폭되어 최종 토큰 선택을 완전히 바꿀 수 있다.

특히 Thinking Machines Lab의 2025년 연구인 “Defeating Nondeterminism in LLM Inference“에 따르면, 사용자들에게 관찰되는 비결정성의 주된 원인은 단순한 연산 오차보다는 추론 서버의 ’배치 크기 가변성’에 있다. vLLM이나 SGLang과 같은 최신 추론 엔진은 처리량을 높이기 위해 ‘인플라이트 배치(In-flight Batching)’ 기술을 사용하는데, 이는 사용자의 요청이 처리되는 동안 다른 사용자의 요청이 계속해서 배치에 추가되거나 제거됨을 의미한다. 이로 인해 동일한 프롬프트라 할지라도 서버의 현재 부하 상태와 함께 처리되는 다른 요청들의 조합에 따라 GPU 커널의 연산 전략이 변경되고, 결과적으로 출력값이 달라지는 현상이 발생한다.

기술적 원인	메커니즘	비즈니스적 위협 결과
부동 소수점 비결합성	연산 순서에 따른 미세 수치 변화가 토큰 확률 분포를 왜곡	재현 불가능한 결과로 인한 감사(Audit) 실패 및 신뢰도 하락
인플라이트 배치 가변성	동시 접속자 수에 따라 GPU 커널 최적화 전략이 실시간 변경	서비스 피크 시간대에 예기치 못한 비즈니스 로직 오류 발생
소프트웨어/하드웨어 버전 차이	cuBLAS, cuDNN 등 라이브러리 및 GPU 아키텍처별 연산 차이	클라우드 제공업체 변경 시 시스템 동작의 불일치 발생
수식 예시: $p_i = \frac{\exp(z_j/T)}{\sum_{j=1}^N \exp(z_i/T)}$	온도( $T$ ) 설정이 0이어도 내부 $z_i$ (logit) 값의 미세 변화가 순위를 바꿈	결정론적 응답 보장 실패 및 서비스 일관성 붕괴

이러한 기술적 불안정성은 기업이 AI 시스템을 확장할 때 예측 불가능한 운영 비용을 발생시킨다. 특정 시점에는 완벽하게 작동하던 챗봇이나 자동화 에이전트가 사용자가 몰리는 시점에 갑자기 엉뚱한 답을 내놓는 현상은 기술진으로 하여금 원인 파악을 어렵게 만들고, 이는 결국 막대한 디버깅 비용과 인력 낭비로 이어진다.

3. 금융 산업의 출력 편류(Output Drift)와 규제 리스크

금융 산업은 AI의 비결정성이 가장 파괴적인 영향을 미치는 분야 중 하나이다. 은행과 투자 기관들은 거래 정산, 규제 보고, 고객 커뮤니케이션 등에 LLM을 공격적으로 도입하고 있으나, 동일한 입력에 대해 매번 다른 결과를 내놓는 ‘출력 편류(Output Drift)’ 현상은 규제 준수(Compliance)의 근간을 위협한다.

3.1 감사 가능성 및 재현성의 완전한 상실

바젤 III(Basel III), 도드-프랭크(Dodd-Frank), MiFID II와 같은 글로벌 금융 규제 체계는 모든 의사 결정 과정의 ’추적 가능성’과 ’재현성’을 요구한다. 예를 들어, 특정 대출 승인 여부를 AI가 결정했다면, 해당 결정은 1년 후에도 동일한 데이터를 입력했을 때 동일한 결과와 근거를 제시할 수 있어야 한다. 그러나 비결정적 LLM은 동일한 신용 데이터에 대해 오전에는 ’승인’을, 오후에는 ’거절’을 내뱉을 수 있으며, 이는 금융 기관이 감독 당국의 감사에서 탈락하고 막대한 벌금을 부과받는 직접적인 원인이 된다.

3.2 인적 검증 오버헤드와 ROI 역전

모건 스탠리(Morgan Stanley)의 분석에 따르면, 금융권이 AI 도입을 통해 기대하는 연간 9,200억 달러의 비용 절감 효과는 비결정적 출력물을 검수하기 위해 투입되는 ’인적 검증 오버헤드(Verification Overhead)’에 의해 상쇄될 위기에 처해 있다. AI가 생성한 결과물을 믿을 수 없기 때문에 인간 전문가가 모든 문장을 다시 읽고 확인해야 한다면, 이는 자동화의 본래 목적을 상실한 것이다. IBM Research의 연구에 따르면, 1,200억 개의 매개변수를 가진 대형 모델일수록 비결정성이 심화되어 동일 응답 재현율이 12.5%까지 떨어지는 것으로 나타났다.

모델 규모	결정론적 설정( $T=0.0$ ) 시 일관성	비즈니스 시사점
소형 모델(7B~8B)	약 100% (Granite-3 8B 등)	규제 준수가 필수적인 고정 로직 업무에 적합
중형 모델(70B급)	약 50% ~ 80%	일반적인 상담 및 요약 업무에 활용 가능하나 검증 필요
대형 모델(120B+)	약 12.5% (GPT-OSS-120B 등)	창의적 업무에는 탁월하나 금융 보고서 작성에는 위험

이러한 데이터는 “더 큰 모델이 항상 더 나은 비즈니스 솔루션“이라는 믿음이 비결정성 리스크 앞에서는 유효하지 않음을 보여준다. 금융 기관은 성능과 일관성 사이의 트레이드오프(Trade-off)를 정밀하게 계산해야 하는 처지에 놓였다.

4. 법적 책임과 기업 평판의 실추 사례

비결정적 AI가 생성한 잘못된 정보, 즉 환각(Hallucination)은 기업에 실질적인 법적 책임을 지운다. 가장 널리 알려진 사례는 에어 캐나다(Air Canada)의 챗봇 판결이다. 에어 캐나다의 고객 상담 챗봇은 비결정적 특성으로 인해 존재하지 않는 환불 정책을 ’발명’하여 고객에게 안내했고, 법원은 챗봇이 제공한 정보가 기업의 공식적인 약속과 다름없다고 판단하여 에어 캐나다에 재무적 배상 명령을 내렸다.

이 사건은 비결정성이 단순한 ’기술적 오류’를 넘어 ’법적 계약의 불확실성’을 야기함을 시사한다. 기업의 정책은 결정론적이어야 하지만, 이를 전달하는 매체인 AI가 확률적으로 작동할 때 발생하는 간극은 고스란히 기업의 재무적 손실과 평판 하락으로 이어진다. 맥킨지(McKinsey)의 2024년 조사에 따르면, AI 시스템의 결과물이 편향되거나 부정확할 경우 고객의 신뢰를 잃게 되며, 한 번 무너진 신뢰는 AI 기반 제품의 채택을 영구적으로 저해하는 ’신뢰의 장벽’이 된다.

5. 보안 무결성 파괴: 비결정적 공격과 방어의 한계

보안의 관점에서 비결정성은 공격자에게는 새로운 기회의 창을, 방어자에게는 통제 불가능한 사각지대를 제공한다. 전통적인 보안 시스템은 ’A라는 입력이 들어오면 B라는 위험을 차단한다’는 고정된 규칙에 기반하지만, AI 보안은 공격 성공 여부 자체가 확률에 의존하는 기이한 국면에 접어들었다.

5.1 프롬프트 주입(Prompt Injection)의 비결정적 성공

프롬프트 주입은 사용자가 악의적인 명령을 프롬프트에 섞어 보내 모델의 원래 지침을 무시하고 공격자가 원하는 행동을 하게 만드는 공격이다. NCC Group의 연구에 따르면, 동일한 프롬프트 주입 페이로드라도 모델의 비결정성으로 인해 어떤 실행에서는 방어에 막히고, 어떤 실행에서는 시스템 프롬프트가 유출되거나 내부 데이터베이스에 접근하는 등의 공격이 성공한다.

공격자는 비결정성을 이용해 ‘운 좋게’ 방어망을 뚫을 때까지 반복적으로 공격을 시도할 수 있다. 반면 방어자는 보안 테스트(Red Teaming) 과정에서 동일한 공격 시나리오를 수천 번 반복해야 하며, 단 한 번의 성공 가능성이라도 존재한다면 해당 시스템은 취약한 것으로 간주되어야 한다. 이는 보안 검증 비용을 기하급수적으로 증가시키는 요인이 된다.

5.2 소프트웨어 공급망의 위협: 라이브러리 환각과 슬롭스쿼팅

AI를 활용한 코드 생성 분야에서 비결정성은 소프트웨어 공급망 보안에 직접적인 타격을 입힌다. “An Empirical Study of the Non-determinism of ChatGPT in Code Generation” 논문에 따르면, ChatGPT는 동일한 코딩 문제에 대해 약 50% 이상의 확률로 매번 다른 테스트 결과값을 내놓는 코드 조각을 생성한다.

더욱 심각한 것은 ’라이브러리 환각’을 이용한 공급망 공격이다. LLM은 종종 실존하지 않는 라이브러리를 사용하라고 권고하며, 특히 ’2025년 최신 라이브러리’를 요청하는 등의 시간 관련 프롬프트에서는 환각률이 최대 84%까지 치솟는다. 공격자들은 이러한 AI의 비결정적 환각 특성을 악용하여, AI가 자주 발명해내는 라이브러리 이름을 선점하여 악성 패키지를 등록하는 ‘슬롭스쿼팅(Slopsquatting)’ 공격을 수행한다. 개발자가 AI가 추천해준 실존하지 않는(그러나 공격자가 미리 등록해둔) 라이브러리를 무심코 설치하는 순간, 기업의 전체 시스템은 공격자의 손에 넘어가게 된다.

보안 위협	비결정적 메커니즘	구체적 영향
프롬프트 주입 재현 불가	동일 페이로드가 확률적으로 필터링을 통과	보안 테스트의 신뢰도 저하 및 잠복 취약점 발생
시스템 프롬프트 유출	특정 배치 환경에서 모델 가드레일이 약화	기업 비밀 및 AI 설계 자산의 경쟁사 유출
슬롭스쿼팅(Slopsquatting)	존재하지 않는 패키지 이름을 확신을 가지고 생성	악성 코드 주입을 통한 소프트웨어 공급망 오염
비결정적 원격 코드 실행(RCE)	LangChain 등 프레임워크와 결합 시 확률적으로 악성 셸 명령 실행	서버 권한 탈취 및 데이터베이스 파괴

6. 비즈니스 연속성(BCP) 및 재해 복구(DR)의 체계적 붕괴

비결정성은 기업의 위기 관리 체계인 비즈니스 연속성 계획(BCP)과 재해 복구(DR) 전략에도 치명적인 영향을 미친다. 현대의 재해 복구 시스템은 AI를 활용해 이상 징후를 탐지하고, 장애 발생 시 자동으로 복구 워크플로우를 가동하는 방향으로 진화하고 있다. 그러나 이 과정에서 AI의 판단이 비결정적이라면, 이는 재난 상황을 더욱 악화시키는 촉매제가 될 수 있다.

6.1 RTO와 RPO의 불확실성 증대

재해 복구의 핵심 지표인 복구 시간 목표(RTO)와 복구 시점 목표(RPO)는 정밀한 예측 가능성을 전제로 한다. 하지만 복구 결정을 내리는 AI 모델이 비결정적으로 작동할 경우, 장애 상황마다 복구 우선순위를 다르게 설정하거나, 심지어 정상적인 서버를 장애로 오인하여 강제 종료시키는 등의 예기치 못한 행동을 할 수 있다. 이는 복구 시간을 지연시킬 뿐만 아니라, 데이터 손실 범위를 예측 불가능하게 만든다.

6.2 자동화된 장애 대응의 ‘죽음의 루프’

AWS Lambda나 시스템 매니저(Systems Manager)와 같은 자동화 도구와 연동된 LLM 기반 장애 대응 시스템은 비결정적 출력으로 인해 ’죽음의 루프’에 빠질 위험이 있다. 예를 들어, 장애 원인을 분석한 AI가 첫 번째 실행에서는 ’네트워크 설정 변경’을 해결책으로 제시했다가, 두 번째 실행(재시도)에서는 ’데이터베이스 재시작’을 제시한다면, 시스템은 일관된 복구 상태에 도달하지 못하고 끊임없이 요동치게 된다. 이는 비즈니스 연속성을 보장하기 위해 도입한 AI가 오히려 비즈니스 중단(Disruption)의 원인이 되는 역설적 상황을 초래한다.

7. 비결정성 위협의 정량화: TAR와 STED 지표의 도입 필요성

비결정성이 비즈니스에 미치는 구체적인 위협을 관리하기 위해서는 이를 정량화하는 체계가 필수적이다. 학계와 선도적 기업들은 AI 시스템의 불안정성을 측정하기 위한 새로운 지표들을 제안하고 있으며, 이는 기업의 리스크 관리 가이드라인의 핵심이 되어야 한다.

7.1 합의율(Total Agreement Rate, TAR)의 활용

TAR 지표는 동일한 입력에 대해 반복 수행된 N번의 결과가 얼마나 일치하는지를 측정한다.

TARr@N (Raw Output): 모델이 내뱉은 텍스트 전체가 토큰 단위로 정확히 일치하는지 측정한다. 소스 코드 생성이나 정밀한 데이터 변환 업무에서 위협 수준을 평가하는 잣대가 된다.
TARa@N (Parsed Answer): 텍스트의 형식은 달라도 최종적인 결론(예: ‘승인’ 또는 ‘거절’)이 일치하는지 측정한다. 금융 의사 결정이나 분류 작업의 안정성을 평가하는 데 쓰인다.

$TAR_a@N = \frac{1}{M} \sum_{i=1}^{M} \text{is\_consistent}(\text{responses}_i)$

\vert $M$ 은 샘플 수, $N$ 은 반복 횟수

7.2 구조적 정합성 지표: STED (Semantic Tree Edit Distance)

비정형 데이터를 JSON과 같은 구조적 데이터로 추출하는 비즈니스 프로세스에서는 구조가 무너지는 것이 가장 큰 위협이다. STED는 JSON 구조의 엄격한 일치 여부와 내부 데이터의 의미적 유사도를 결합하여 측정하며, 이를 통해 비결정성이 데이터 파이프라인의 하부 시스템을 파괴할 가능성을 사전에 진단할 수 있다.

8. 결론: 결정론적 오라클을 통한 위협 완화 전략

비결정성이 비즈니스와 보안에 미치는 위협은 단순한 소프트웨어 업데이트로 해결될 수 있는 성질의 것이 아니다. 이는 확률적 시스템인 AI를 결정론적 세계인 비즈니스 로직에 통합하는 과정에서 발생하는 근본적인 마찰이다. 이러한 위협을 방치할 경우, 기업은 AI를 통한 생산성 향상보다 훨씬 더 큰 법적, 재무적, 보안적 리스크를 감당해야 한다.

위협을 완화하기 위한 핵심 전략은 AI 시스템 외부에 ’결정론적 정답지’를 제공하는 오라클(Oracle)을 구축하는 것이다. AI의 비결정적 출력을 그대로 수용하는 것이 아니라, 엄격한 규칙 기반의 검증 레이어, 스키마 강제화, 그리고 앙상블 투표(Ensemble Voting) 메커니즘을 통해 출력의 분산을 억제해야 한다. 또한 보안 측면에서는 “모델은 언제나 틀릴 수 있고, 언제나 유출될 수 있다“는 ‘유출 가정(Assume Breach)’ 원칙에 따라 설계된 격리된 아키텍처를 도입해야 한다.

결국 AI 소프트웨어 개발의 성패는 모델의 창의성을 높이는 것이 아니라, 그 비결정적 위험을 공학적으로 얼마나 정교하게 통제하느냐에 달려 있다. 비결정성에 대한 깊은 이해와 정량적 관리 체계만이 AI를 신뢰할 수 있는 비즈니스의 동반자로 만들 수 있을 것이다.

9. 참고 자료

LLM Output Drift: The Hidden Risk No One in Finance Is Talking, https://python.plainenglish.io/llm-output-drift-the-hidden-risk-no-one-in-finance-is-talking-about-yet-f8263b575a66
Defeating Nondeterminism in LLMs: A Business-Focused Path to, https://iankhan.com/defeating-nondeterminism-in-llms-a-business-focused-path-to-reliable-ai/
Defeating Nondeterminism in LLM Inference | by Ketaki - Medium, https://medium.com/@ketaki.kolhatkar99/building-trust-with-machines-defeating-nondeterminism-in-llm-inference-b01fef416d87
Defeating Nondeterminism in LLM Inference - Thinking Machines Lab, https://thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
LLM Output Drift: Cross-Provider Validation & Mitigation for … - arXiv, https://arxiv.org/pdf/2511.07585
Non-Determinism of “Deterministic” LLM System Settings in Hosted, https://aclanthology.org/2025.eval4nlp-1.12.pdf
Non Determinism & Prompt Optimization in LLMs for AI Apps, https://futureagi.com/blogs/non-deterministic-llm-prompts-2025
The AI Accuracy Crisis: How Unreliable LLMs Are … - VKTR.com, https://www.vktr.com/ai-technology/the-ai-accuracy-crisis-how-unreliable-llms-are-holding-companies-back/
Building AI trust: The key role of explainability - McKinsey, https://www.mckinsey.com/capabilities/quantumblack/our-insights/building-ai-trust-the-key-role-of-explainability
Securing LLM Systems Against Prompt Injection - NVIDIA Developer, https://developer.nvidia.com/blog/securing-llm-systems-against-prompt-injection/
Prompt Injections: A Practical Taxonomy of Attack Methods | Pangea, https://pangea.cloud/securebydesign/aiapp-pi-taxonomy/
Non-Deterministic Nature of Prompt Injection - NCC Group, https://www.nccgroup.com/research-blog/non-deterministic-nature-of-prompt-injection/
Prompt injection is killing our self-hosted LLM deployment - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1qyljr0/prompt_injection_is_killing_our_selfhosted_llm/
An Empirical Study of the Non-determinism of ChatGPT in Code, https://arxiv.org/abs/2308.02828
Library Hallucinations in LLMs: Risk Analysis Grounded in … - arXiv, https://arxiv.org/pdf/2509.22202
leveraging large language models (llms) for enhanced disaster, https://www.researchgate.net/publication/384399357_LEVERAGING_LARGE_LANGUAGE_MODELS_LLMS_FOR_ENHANCED_DISASTER_RECOVERY_IN_AWS
The impact of AI in enhancing business continuity and disaster, https://www.researchgate.net/publication/397455182_The_impact_of_AI_in_enhancing_business_continuity_and_disaster_recovery_frameworks
How Business Continuity AI Is Changing The Future Of Risk, https://bryghtpath.com/business-continuity-ai/
Non-Determinism of “Deterministic” LLM Settings - arXiv.org, https://arxiv.org/html/2408.04667v5
The Non-Determinism of Small LLMs: Evidence of Low Answer, https://arxiv.org/html/2509.09705v1
Estimating LLM Consistency: A User Baseline vs Surrogate Metrics, https://www.researchgate.net/publication/397420511_Estimating_LLM_Consistency_A_User_Baseline_vs_Surrogate_Metrics
An Exploratory Study on How Non-Determinism in Large Language, https://www.researchgate.net/publication/382952872_An_Exploratory_Study_on_How_Non-Determinism_in_Large_Language_Models_Affects_Log_Parsing