자연어 (Natural Languages)
본 보고서의 제1부에서는 자연어를 인간 고유의 능력으로 정립하고, 그 정의적 특징, 생물학적 기반, 구조적 구성 요소, 그리고 인간의 사고와 맺는 깊은 관계를 탐구한다.
이 절에서는 자연어의 핵심 개념을 인공어와 대조하여 소개하고, 보고서 전반에 걸쳐 반복될 모호성과 문맥이라는 근본적인 주제를 설정한다.
언어학의 세계는 크게 두 가지 범주, 즉 자연 발생적으로 생겨난 ‘자연어(Natural Language)’와 인간이 특정 목적을 위해 창조한 ‘인공어(Artificial Language)’로 나뉜다.1
자연어는 한국어, 영어, 중국어처럼 인간 사회의 형성 및 발전과 함께 자연스럽게 발생하여 세월의 흐름에 따라 진화해 온 언어를 지칭한다.2 이는 우리가 일상생활에서 의사소통의 수단으로 사용하는 언어로, 누가 언제 만들었는지 그 기원을 특정할 수 없는 것이 특징이다.1
반면, 인공어는 명확한 목적을 가지고 의도적으로 설계된 언어 체계이다. 이 범주에는 컴퓨터와의 소통을 위해 만들어진 프로그래밍 언어(예: C, FORTRAN, COBOL)와 국제 공용어, 혹은 예술적 표현을 목적으로 창조된 에스페란토(Esperanto), 클링온어(Klingon), 꿰냐(Quenya) 같은 계획 언어(Constructed Language)가 포함된다.1 특히 컴퓨터 과학 분야에서 별다른 수식 없이 ‘언어’라고 하면 거의 대부분 프로그래밍 언어와 같은 인공어를 지칭한다. 이 때문에 인간의 언어를 이와 구분하기 위해 ‘자연어’라는 용어가 널리 사용되게 되었으며, 이는 컴퓨터에 의한 인간 언어 연구의 역사적 맥락을 반영한다.2
자연어는 인공어와 구별되는 몇 가지 핵심적인 특징을 지닌다. 그중 가장 두드러지는 것은 모호성(ambiguity), 문맥 의존성(context-dependency), 그리고 진화(evolution)이다.
첫째, 자연어는 본질적으로 모호하다. “우는 영희를 철수가 달래주었다”라는 문장에서 우는 주체가 영희인지 철수인지 명확하지 않다.1 이처럼 하나의 문장이 여러 가지로 해석될 수 있는 가능성은 인간 화자에게는 자연스러운 현상이다. 인간은 대화의 전후 맥락이나 상황적 단서를 통해 그 의미를 유추하고 이해할 수 있기 때문이다.1 하지만 이러한 모호성은 기계에게는 심각한 해석의 장벽으로 작용한다. 컴퓨터가 이 문장을 명확하게 이해하기 위해서는 ‘우는, 영희를’과 같이 쉼표를 사용하여 구조를 명시해 주어야 한다.1
둘째, 자연어의 의미는 고정되어 있지 않고 상황에 따라 달라지는 문맥 의존성을 강하게 띤다.4 동일한 발화라도 누가, 언제, 어디서, 누구에게 말하는지에 따라 그 의도와 의미가 완전히 달라질 수 있다. 이는 모든 조건에서 동일한 입력이 동일한 결과를 보장해야 하는 인공어의 특성과 극명한 대조를 이룬다.4
셋째, 자연어는 살아있는 유기체처럼 끊임없이 변화하고 진화한다.2 새로운 단어가 생성되고, 기존 단어의 의미가 변하며, 문법 구조 또한 시대에 따라 달라진다. 이는 정적인 규칙에 의해 엄격하게 정의된 대부분의 인공어와는 다른 동적인 특성이다.
자연어와 달리, 인공어, 특히 프로그래밍 언어는 기계에서의 처리를 염두에 두고 설계되었기 때문에 절대적인 정밀성을 요구한다.2 모호함이나 다의성은 허용되지 않으며, 모든 구문은 단 하나의 명확한 해석만을 가져야 한다. 이는 기계가 오류 없이 명령을 수행하기 위한 필수 조건이다.1
흥미로운 점은 프로그래밍 언어 설계의 이론적 배경이 된 형식 언어 이론(Formal Language Theory)이 본래 노암 촘스키(Noam Chomsky)와 같은 언어학자들에 의해 자연어를 수학적으로 설명하려는 시도에서 비롯되었다는 사실이다.2 이는 자연어와 인공어가 서로 다른 길을 걸어왔지만, 그 뿌리에는 인간의 언어 구조를 이해하려는 공통된 지적 탐구가 자리 잡고 있음을 시사한다.
자연어와 인공어의 근본적인 차이는 모호성에 대한 관점에서 비롯된다. 인공 시스템, 특히 컴퓨팅에서 모호성은 해석의 실패를 유발하는 치명적인 결함으로 취급된다. 하나의 명령이 여러 방식으로 해석될 수 있다면 시스템의 예측 가능성과 안정성은 무너진다. 반면, 인간의 의사소통에서 모호성은 오히려 효율성, 미묘한 뉘앙스 표현, 창의성을 가능하게 하는 핵심적인 특징으로 기능한다. 화자와 청자가 공유하는 방대한 배경지식과 문맥을 바탕으로 생략과 함축이 가능해지기 때문이다. 이 근본적인 충돌, 즉 ‘모호성 격차(ambiguity gap)’를 어떻게 극복할 것인가가 자연어 처리(NLP) 분야 전체를 관통하는 핵심 도전 과제이다. 컴퓨터에게 자연어를 가르친다는 것은 단순히 문법 규칙을 입력하는 것을 넘어, 인간이 세상을 이해하는 방식과 사회적 상호작용의 맥락을 기계가 이해할 수 있는 형태로 변환하는 훨씬 더 어려운 문제인 것이다.
표 1: 자연어와 인공어의 비교 분석
| 특성 |
자연어 (예: 한국어, 영어) |
인공어 (예: Python, 에스페란토) |
| 기원 |
사회 내에서 자발적으로 발생 및 진화 1 |
특정 목적을 위해 의도적으로 창조 1 |
| 구조 |
유기적으로 진화하며 불규칙성을 포함 2 |
형식적으로 정의되며 논리적이고 일관됨 2 |
| 모호성 |
높음, 본질적인 특징으로 존재 1 |
낮거나 없음, 오류로 간주됨 1 |
| 문맥 의존성 |
높음, 의미가 상황에 따라 크게 좌우됨 4 |
낮음, 의미가 코드나 문장 자체에 내재됨 4 |
| 주요 사용자 |
인간 1 |
기계 또는 특정 목적의 인간 집단 2 |
이 절에서는 언어라는 추상적 개념을 그것의 물리적, 생물학적 실체에 기반하여 탐구한다. 인간이 어떻게 그토록 쉽게 언어를 습득하며, 우리 뇌의 어떤 부분이 언어 처리를 전담하는지를 살펴봄으로써 언어의 생물학적 기적을 파헤친다.
정신언어학의 중심에는 “언어는 학습되는가, 아니면 타고나는가?”라는 오랜 논쟁이 있다. 이 질문에 답하기 위해 여러 이론이 제시되었다.
- 행동주의 (Behaviorism): B. F. 스키너(B. F. Skinner)로 대표되는 행동주의는 언어를 학습된 행동으로 간주한다.6 이 이론에 따르면, 아동은 부모의 말을 모방하고(반응), 그에 대한 칭찬이나 보상과 같은 긍정적 강화(reinforcement)를 받으면서 언어를 습득한다.6 즉, ‘자극-반응-강화’라는 조건화 과정을 통해 언어 능력이 형성된다는 것이다.6
- 한계: 행동주의 이론은 아동이 들어보지 못한 새로운 문장을 창조해내는 능력이나 언어 습득의 놀라운 속도를 설명하지 못한다.6 또한, 부모는 아이의 문법적 오류보다는 발화 내용의 진실성에 더 초점을 맞춰 반응하는 경향이 있어, 문법적 정확성에 대한 강화가 체계적으로 이루어지지 않는다는 비판에 직면한다.6
- 생득주의 (Nativism): 노암 촘스키는 인간이 선천적으로 ‘언어 습득 장치(Language Acquisition Device, LAD)’라는 특별한 정신 기관을 가지고 태어난다고 주장했다.6 이 장치에는 모든 인간 언어에 공통적으로 적용되는 보편적인 문법(Universal Grammar) 원리가 내재되어 있어, 아동이 어떤 특정 언어 환경에 노출되든 그 언어의 규칙을 빠르고 쉽게 습득할 수 있다는 것이다.8 인종이나 지능에 관계없이 모든 아동이 생후 5-6년이라는 짧은 기간 동안 폭발적으로 언어를 배우는 현상은 언어 능력이 생물학적으로 결정된다는 강력한 증거로 제시된다.9
- 한계: LAD는 직접적으로 관찰하거나 증명할 수 없는 가설적 개념이라는 비판을 받는다.6 또한 이 이론은 문법, 즉 통사론적 측면을 지나치게 강조하여 의미론, 화용론 및 언어 발달에 있어 사회적 환경의 중요성을 간과하는 경향이 있다.6
- 상호작용주의 (Interactionism): 이 이론은 생득주의와 행동주의의 절충안으로, 언어 습득이 아동의 선천적 인지 능력과 사회적 상호작용 간의 역동적인 상호작용의 결과라고 본다.6 레프 비고츠키(Lev Vygotsky)나 블룸(Bloom)과 같은 학자들은 아동이 타인과 소통하려는 사회적 욕구가 언어 학습의 핵심 동기가 된다고 주장했다.6 또한, 인지 발달이 언어 발달에 선행한다는 입장도 있다. 예를 들어, 피아제(Piaget)의 이론에 따르면 아동은 ‘사라짐’이라는 개념(사물 영속성)을 인지해야 ‘없다’라는 단어를 의미 있게 사용할 수 있다.6
- 발달 단계: 이러한 이론적 논쟁과 무관하게, 아동의 언어 발달은 보편적인 단계를 따른다. 울음이나 옹알이 같은 언어 이전 시기(6-7개월경)를 거쳐, 약 12개월에서 18개월 사이에 첫 단어를 말하는 ‘1단어기’, 18개월에서 24개월 사이에 두 단어를 조합하는 ‘2단어기’로 발전하며, 점차 더 복잡한 문장 구조를 습득해 나간다.9
언어 능력은 뇌의 특정 영역에 국한된 기능이라는 사실이 19세기부터 알려져 왔다.
-
고전적 베르니케-게슈빈트 모델 (Wernicke-Geschwind Model):
-
브로카 영역 (Broca’s Area): 1861년 폴 브로카(Paul Broca)가 발견한 영역으로, 좌뇌 전두엽에 위치한다.12 전통적으로 언어의
생성(production), 즉 발화 계획, 문법적으로 올바른 문장 구성과 관련된 중추로 알려져 있다.14 이 영역이 손상되면, 말의 내용은 이해하지만 문법적으로 어색하고 더듬는 ‘브로카 실어증’이 나타난다.14
-
베르니케 영역 (Wernicke’s Area): 1874년 칼 베르니케(Carl Wernicke)가 발견했으며, 좌뇌 측두엽에 위치한다.16 주로 언어의
이해(comprehension), 즉 단어와 문장의 의미를 파악하는 기능을 담당한다.12 이 영역이 손상되면, 유창하게 말을 하지만 의미가 통하지 않는 단어를 나열하고 타인의 말을 이해하지 못하는 ‘베르니케 실어증’이 발생한다. 환자는 종종 자신의 오류를 인지하지 못한다.14
-
궁상속 (Arcuate Fasciculus): 브로카 영역과 베르니케 영역을 연결하는 신경 섬유 다발로, 이해와 생성을 연결하여 원활한 언어 활동을 가능하게 한다.14
-
현대의 이중 경로 모델 (Dual-Stream Model): 최근 뇌 영상 기술의 발달로 고전적 모델은 더 정교한 이중 경로 모델로 발전했다. 이 모델은 청각 피질에서 시작된 언어 정보가 두 개의 다른 경로로 처리된다고 제안한다.
- 복측 경로 (Ventral Stream, “What” Pathway): 뇌의 양쪽 반구에 걸쳐 있으며, 소리 정보를 의미 정보로 변환하는 역할을 한다. 즉, ‘무엇’을 들었는지 이해하는 경로로, 전통적인 베르니케 영역의 기능을 포함하는 언어 이해의 핵심 경로다.18
- 배측 경로 (Dorsal Stream, “How” Pathway): 주로 좌뇌에 강하게 편중되어 있으며, 소리 정보를 조음-운동 정보로 변환한다. 즉, 들은 말을 ‘어떻게’ 따라 말할 것인지를 담당하는 경로로, 말하기, 반복, 복잡한 문법 처리 등에 관여한다. 이는 브로카 영역의 역할을 포함하고 확장하는 개념이다.18
-
신경 발달: 뇌의 언어 영역들은 각기 다른 속도로 발달한다. 언어 이해를 담당하는 베르니케 영역은 6세경에 발달이 시작되어 청소년기에 완성되는 반면, 언어 생성을 담당하는 브로카 영역은 3세에서 6세 사이에 비교적 일찍 발달이 완료된다.16 두 영역을 잇는 신경망은 6-7세 사이에 형성되어, 이해와 표현이 유기적으로 연결된다.16
뇌 과학의 발전은 언어에 대한 이해를 “어디에 있는가”에서 “어떻게 작동하는가”로 전환시켰다. 고전적 모델이 브로카와 베르니케라는 특정 ‘장소’에 언어 기능을 국한했다면 12, 이중 경로 모델은 ‘기능’에 초점을 맞춘다. 이는 뇌를 단순히 부품의 집합이 아닌, 역동적인 네트워크로 이해하는 현대 신경과학의 관점을 반영한다. 복측 경로는 의미를 처리하는 ‘what’ 시스템, 배측 경로는 말을 실제로 수행하는 ‘how’ 시스템으로 기능적 분리를 제안한다.19 이 모델은 의미를 모르는 단어를 따라 말하는 것과 같은 복잡한 현상을 더 잘 설명할 수 있다. 이 경우, 깊은 의미 처리를 담당하는 복측 경로를 우회하고, 소리-행동 변환을 담당하는 배측 경로가 주로 활성화될 것이기 때문이다.
더 나아가, 생득주의 이론과 신경과학의 발견은 서로를 강력하게 지지한다. 촘스키가 제안한 가설적 ‘언어 습득 장치(LAD)’는 6 뇌 과학을 통해 그 생물학적 실체를 찾게 되었다. 인간에게 보편적으로 존재하는 브로카-베르니케 시스템과 같은 전문화된 언어 영역, 그리고 레네버그(Lenneberg)가 주장한 언어 습득의 ‘결정적 시기’와 일치하는 뇌 영역의 특정 발달 시기 10 등은 언어 능력이 선천적으로 타고난다는 생득주의의 주장에 대한 강력한 물리적 증거를 제공한다. 즉, 신경과학은 생득주의 언어학이 제시한 ‘소프트웨어’가 작동하는 ‘하드웨어’를 규명한 셈이다.
표 2: 제1언어 습득의 주요 이론 비교
| 이론 |
주요 제창자 |
핵심 메커니즘 |
주요 증거/주장 |
비판적 한계 |
| 행동주의 |
B. F. 스키너 |
자극-반응-강화, 모방, 조건화 6 |
아동이 주변의 언어를 모방하고 칭찬을 통해 특정 표현을 학습함. |
새로운 문장 생성 능력, 습득 속도, 문법 오류에 대한 비체계적 강화를 설명하지 못함.6 |
| 생득주의 |
노암 촘스키 |
선천적 언어 습득 장치(LAD), 보편 문법 6 |
모든 아동이 보편적 단계를 거쳐 빠르고 쉽게 모국어를 습득함. ‘언어 습득의 빈곤’ 주장. |
LAD는 증명 불가능한 가설이며, 통사론을 과도하게 강조하고 사회적, 의미적 요소를 간과함.6 |
| 상호작용주의 |
비고츠키, 블룸 |
선천적 능력과 사회적 상호작용의 결합, 인지 발달 선행 6 |
의사소통 욕구가 언어 학습을 추동하며, 인지적 개념이 언어 표현에 앞섬. |
특정 이론이라기보다는 여러 관점을 통합한 포괄적 접근으로, 예측력이 상대적으로 약할 수 있음. |
이 절에서는 현대 언어학이 언어를 어떻게 구성 요소로 분해하여 이해하는지 살펴본다. 이는 자연어 처리의 도전 과제를 이해하는 데 필요한 개념적 틀을 제공한다.
언어는 여러 층위의 구조로 이루어진 복잡한 시스템이다.
- 음운론 (Phonology): 언어의 소리 체계를 연구하는 분야로, 의미를 변별하는 최소 단위인 음소(phoneme)들이 어떻게 조직되고 사용되는지를 다룬다.21 이는 소리의 물리적 특성 자체를 연구하는 음성학(phonetics)과는 구별된다.21
- 형태론 (Morphology): 단어의 내부 구조와 형성 규칙을 연구한다. 의미를 가진 가장 작은 단위인 형태소(morpheme)들이 결합하여 단어를 만드는 원리를 분석한다 (예: ‘읽-히-시-었-다’).5
- 통사론 (Syntax): 문장의 구조, 즉 단어들이 결합하여 구(phrase), 절(clause), 문장(sentence)을 형성하는 규칙을 연구하는 분야이다.5 통사론은 언어의 문법적 ‘뼈대’를 제공한다.
형식적 구조 위에 의미와 사용의 층위가 더해져 비로소 완전한 의사소통이 이루어진다.
- 의미론 (Semantics): 단어, 구, 문장의 문자적 의미를 연구한다. 기호와 그것이 지시하는 대상 간의 관계를 다루며, 언어의 ‘내용(content)’에 해당한다.21
- 화용론 (Pragmatics): 실제 상황 속에서 언어가 어떻게 사용되는지를 연구한다. 문자적 의미를 넘어 화자의 의도, 사회적 맥락, 함축된 의미 등 ‘사용(use)’의 측면을 분석한다.5 예를 들어, “여기 좀 춥네요”라는 발화는 단순히 온도를 서술하는 것(의미론)일 수도 있지만, 창문을 닫아달라는 요청(화용론)일 수도 있다.
노암 촘스키가 제시한 “Colorless green ideas sleep furiously (무색의 초록 관념이 맹렬히 잠잔다)”라는 문장은 통사론과 의미론의 분리를 명확히 보여주는 유명한 예시다.22
- 통사적으로 완벽함: 이 문장은 ‘형용사-형용사-명사-동사-부사’의 순서로 영어의 문법 규칙을 완벽하게 따른다.
- 의미적으로는 무의미함: 문장의 내용은 논리적으로 성립하지 않는다. 관념은 색깔을 가질 수 없으며, 맹렬하게 잠을 잘 수도 없다.
- 의의: 이 예시는 문법적 올바름이 의미의 유효성을 보장하지 않으며, 따라서 통사론이 의미론과 독립적으로 연구될 수 있는 형식적 체계임을 입증했다.22 이러한 통찰은 컴퓨터가 문법 구조를 분석하는 ‘파싱(parsing)’에 집중했던 초기 계산언어학에 지대한 영향을 미쳤다.
언어학은 언어가 단어의 평면적인 나열이 아니라, 음소에서 형태소, 단어, 구, 문장으로 이어지는 깊은 계층적 구조(hierarchy)를 가지고 있음을 보여준다. 인공지능이 언어를 진정으로 ‘이해’하기 위해서는 이 모든 층위를 동시에 처리할 수 있어야 한다. 초기 자연어 처리 연구는 촘스키의 영향으로 규칙 기반의 형태론과 통사론 분석에 집중했다.22 그러나 이러한 시스템들은 의미론과 화용론이라는 더 높은 차원의 모호성을 다루지 못했기 때문에 한계가 명확했다. 문법적으로 완벽하게 문장을 분석하더라도, 그것이 올바른 의미 이해로 이어지지는 않았기 때문이다. 현대의 딥러닝 모델, 특히 트랜스포머 아키텍처가 강력한 이유는, 방대한 데이터로부터 이 모든 계층에 걸친 복잡한 패턴을 명시적인 규칙 없이 암묵적으로 학습할 수 있기 때문이다. 그 성공은 언어의 전체 계층 구조를 한 번에 다루는 능력에 있다.
또한, 의미론(문자적 의미)과 화용론(문맥적 의미)의 구분은 인공지능이 마주한 궁극적인 도전 과제를 명확히 보여준다.25 인공지능은 “프랑스의 수도는 어디인가?”와 같은 의미론적 질문에는 점차 능숙해지고 있지만, 비꼬는 말을 감지하거나, 간접적인 요청을 이해하거나, 사회적 뉘앙스를 파악하는 것과 같은 화용론적 과제에는 여전히 어려움을 겪는다.23 이것이 바로 언어적 유창성(linguistic competence)과 진정한 의사소통 능력(communicative competence) 사이의 간극이다. 의미론적 질문에 답하기 위해 AI는 지식 기반을 학습하면 되지만, 화용론을 이해하기 위해서는 사회적 규범, 대화 참여자 간의 공유된 역사, 그리고 상대방의 마음 상태에 대한 모델을 포함하는 ‘세상에 대한 모델’이 필요하다. 이는 차원이 다른 복잡성을 가지며, 오늘날 가장 진보된 대화형 AI 시스템이 해결하고자 하는 핵심 과제는 근본적으로 화용론의 문제이다.
이 절에서는 우리가 사용하는 언어가 우리의 사고방식과 현실 인식을 형성한다는 매혹적이고 논쟁적인 아이디어를 탐구하며, 언어의 기술적 구조를 문화적, 인지적 영향과 연결한다.
‘사피어-워프 가설(Sapir-Whorf Hypothesis)’, 또는 ‘언어 상대성(Linguistic Relativity)’으로 알려진 이 이론은 한 사람이 사용하는 언어와 그 사람의 인지 과정 사이에 체계적인 관계가 존재한다고 주장한다.27 이 가설은 두 가지 버전으로 나뉜다.
- 강한 버전 (언어 결정론, Linguistic Determinism): 언어가 사고의 범위를 ‘결정한다’고 주장한다. 즉, 어떤 개념에 대한 단어가 언어에 존재하지 않으면 그 개념에 대해 생각하는 것 자체가 불가능하다는 입장이다. 이 극단적인 주장은 오늘날 대부분의 학자에 의해 받아들여지지 않는다.27
- 약한 버전 (언어 상대성, Linguistic Relativity): 언어가 사고에 ‘영향을 미친다’고 주장한다. 즉, 특정 언어의 구조와 어휘가 특정 방식으로 생각하는 것을 더 쉽거나 습관적으로 만든다는 입장이다. 이 약한 버전은 여전히 활발히 연구되고 있으며, 상당한 경험적 증거들이 이를 뒷받침한다.27
언어 상대성을 뒷받침하는 여러 연구 사례가 있다.
- 문법적 성(Grammatical Gender): 명사에 남성, 여성, 중성과 같은 문법적 성을 부여하는 언어들이 좋은 예시를 제공한다. 한 연구에 따르면, ‘다리(bridge)’가 여성 명사인 독일어 화자들은 다리를 “아름답다”, “우아하다”와 같이 전형적인 여성적 형용사로 묘사하는 경향이 있는 반면, ‘다리’가 남성 명사인 스페인어 화자들은 “강하다”, “길다”와 같은 남성적 형용사를 사용하는 경향을 보였다.27 이는 문법적 구조가 사물에 대한 은유적 인식에 영향을 미침을 시사한다.
- 색채 인식: 언어가 색상 스펙트럼을 분할하는 방식 또한 인식에 영향을 미친다. 예를 들어, 일부 한국의 고연령층이 녹색 신호등을 보고 ‘파란불’이라고 부르는 경향은 시각적 오류가 아니라, 과거 한국어의 기본 색채어 체계에서 ‘초록’과 ‘파랑’의 구분이 오늘날처럼 명확하지 않았던 언어적 습관의 반영일 수 있다.28
- 시간과 공간: 벤저민 워프(Benjamin Whorf)의 독창적이지만 논란이 많은 연구는 호피(Hopi)족 언어에 시간을 지칭하는 단어나 문법 구조가 없다고 주장하며, 이를 근거로 그들이 서구와는 다른 시간 개념을 가지고 있다고 결론 내렸다. 그의 구체적인 주장은 후대에 많은 비판을 받았지만, 언어가 시간과 같은 추상적 개념을 구조화하는 데 영향을 미친다는 일반적인 아이디어는 여전히 영향력이 있다.30
이 가설은 언어를 배우는 것이 단순히 새로운 단어를 익히는 것을 넘어, 다른 세계관에 접근하는 통로가 될 수 있음을 암시하며 심오한 문화적 함의를 지닌다.31 이러한 아이디어는 문학과 영화에서 강력한 소재로 활용되어 왔다.
- 조지 오웰(George Orwell)의 소설 《1984》에서, 전체주의 국가는 어휘가 극도로 제한된 ‘신어(Newspeak)’를 만들어 반역적인 생각, 즉 ‘사상죄(thoughtcrime)’ 자체를 불가능하게 만들려 한다. 이는 언어 결정론의 완벽한 문학적 구현이다.27
- 2016년 영화 <컨택트(Arrival)>에서는 외계인의 비선형적이고 비시간적인 문자를 배운 언어학자가 시간을 비선형적으로 인식하는 능력을 얻게 된다. 이는 언어 습득이 인지 능력을 직접적으로 변화시키는 과정을 극적으로 보여준다.27
사피어-워프 가설에 대한 논쟁은 대규모 언어 모델(LLM)의 등장과 함께 새로운 국면을 맞이했다. 과거 인간 중심의 질문이었던 “언어가 사고를 형성하는가?”는 이제 “AI의 학습 언어가 AI의 ‘사고’를 형성하는가?”라는 기계 중심의 질문으로 확장되고 있다. LLM은 방대한 텍스트 데이터로부터 학습하는데 33, 이 데이터는 결코 중립적이지 않다. 데이터에는 그것을 생성한 언어의 모든 문화적 가정, 편견, 구조적 특성이 그대로 담겨 있다 (예: 다리에 대한 성별화된 묘사).27 따라서 주로 영어로 된 데이터로 학습된 LLM은 그 출력 패턴, 즉 ‘사고’ 방식에서 영어권의 편향을 보일 수밖에 없다. 이는 AI의 공정성과 중립성을 확보하는 문제가 단순히 유해 콘텐츠를 필터링하는 차원을 넘어, 학습에 사용되는 언어 자체에 내재된 미묘한 편견까지 다루어야 하는 깊이 있는 과제임을 시사한다. 고전적인 언어학 이론이 현대 AI의 정렬(alignment) 문제와 직접적으로 연결되는 지점이다.
제2부에서는 언어를 인간의 능력에서 기계가 이해하고 사용할 수 있도록 하려는 수십 년간의 기술적 탐구로 초점을 전환한다. 자연어 처리의 역사를 추적하고, 현재의 대규모 언어 모델 패러다임을 상세히 분석하며, 인간과 기계 간 소통의 미래를 조망한다.
이 절에서는 자연어 처리(NLP)의 발전 과정을 핵심적인 패러다임의 전환으로 나누어 조망한다. 각 시대는 언어의 핵심 문제인 모호성과 문맥을 더 효과적으로 해결하려는 시도의 연속이었다.
NLP의 역사는 명시적인 언어 지식(규칙)을 기계에 프로그래밍하려는 시도에서 벗어나, 원시 데이터로부터 그 지식을 암묵적으로 ‘학습’할 수 있는 아키텍처를 만드는 방향으로 발전해왔다. 이는 마치 인간의 언어 습득에 대한 생득주의와 경험주의(행동주의/상호작용주의)의 논쟁을 연상시킨다. 초기 AI는 규칙을 중시하는 촘스키주의적 접근이었지만, 현대 AI는 데이터라는 경험으로부터 학습하는 경험주의적 접근에 가깝다. 상징주의 시대는 언어학자들이 정의한 문법 규칙을 코드화하려는 시도였고 35, 이는 마치 문법 교과서를 기계에게 주는 것과 같았다. 그러나 이 ‘교과서’는 실제 언어의 모든 용례를 포괄할 만큼 완벽할 수 없었기에 실패했다.38 통계주의 시대는 명시적 규칙을 버리고 수백만 개의 예시(말뭉치)로부터 직접 배우는 경험주의로의 전환이었다.36 딥러닝 시대, 특히 트랜스포머의 등장은 44 훨씬 더 정교한 형태의 학습을 의미한다. 트랜스포머 아키텍처 자체가 강력한 ‘학습 기계’로 설계되어, 문법, 의미론, 심지어 화용론에 이르는 복잡하고 계층적인 규칙들을 명시적인 지시 없이 데이터로부터 추론해낼 수 있게 되었다. 이는 언어에 완전히 몰입하여 배우는 것과 유사하지만, 그 깊이와 규모가 이전과는 비교할 수 없는 수준이다.
표 3: 기계 번역 패러다임의 진화
| 패러다임 |
시대 |
핵심 방법론 |
주요 장점 |
주요 한계 |
| 규칙 기반 기계 번역 (RBMT) |
1950s-1980s |
언어학자가 작성한 문법 및 어휘 규칙 기반으로 직접 변환 45 |
문법적 정확성이 비교적 높고, 예측 가능함. |
규칙으로 포괄하기 어려운 예외와 중의성 처리에 취약하며, 개발 비용과 시간이 많이 소요됨.45 |
| 통계 기반 기계 번역 (SMT) |
1990s-2010s |
대규모 병렬 말뭉치(corpus)를 이용하여 단어와 구절의 번역 확률을 통계적으로 모델링 45 |
규칙을 수동으로 만들 필요가 없어 개발이 빠르고, 다양한 언어 쌍에 적용이 용이함. |
어순이 다른 언어 간의 번역 품질이 낮고, 문맥을 고려하지 못해 부자연스러운 번역이 많음.45 |
| 신경망 기계 번역 (NMT) |
2010s-현재 |
인코더-디코더 구조의 심층 신경망(주로 트랜스포머)을 사용하여 문장 전체의 의미를 벡터로 표현하고 번역 45 |
문맥을 전체적으로 파악하여 훨씬 더 유창하고 정확하며 자연스러운 번역 품질을 제공함.46 |
방대한 데이터와 컴퓨팅 자원이 필요하며, 자주 사용되지 않는 단어나 고유명사 번역에 취약할 수 있음.45 |
이 절에서는 현재 기술의 최전선에 있는 대규모 언어 모델(LLM)이 무엇인지, 어떤 능력을 갖추고 있으며, 그 성능을 어떻게 측정하는지에 대해 집중적으로 분석한다.
- 정의: 대규모 언어 모델(Large Language Model, LLM)은 일반적으로 트랜스포머 아키텍처에 기반한 딥러닝 모델로, 수십억 개 이상의 방대한 파라미터(parameter)와 막대한 양의 텍스트 데이터로 학습된 것을 특징으로 한다.34 파라미터는 모델이 데이터로부터 학습한 지식을 저장하는 변수로, 그 수가 많을수록 더 복잡하고 미묘한 패턴을 학습할 수 있다. 대표적인 예로는 OpenAI의 GPT 시리즈, 구글의 제미나이(Gemini), AI21 Labs의 쥬라기(Jurassic) 등이 있다.34
- 사전학습(Pre-training)과 미세조정(Fine-tuning): 현대 LLM 개발의 지배적인 패러다임은 두 단계로 이루어진다. 먼저, 인터넷 전체와 같은 방대하고 일반적인 데이터셋으로 거대한 모델을 ‘사전학습’시킨다. 이 과정을 통해 모델은 문법, 상식, 추론 능력 등 범용적인 언어 능력을 습득한다.33 그 후, 이렇게 사전학습된 모델을 특정 작업(예: 법률 문서 분석, 의료 상담)에 특화된 더 작은 데이터셋으로 추가 학습시키는 ‘미세조정’을 거친다. 이를 통해 모델의 능력을 특정 분야에 맞게 전문화할 수 있다.50 이러한 접근법을 ‘전이 학습(Transfer Learning)’이라고 부른다.33
LLM은 자연어 처리의 거의 모든 분야에서 기존 기술의 성능을 뛰어넘으며 새로운 가능성을 열고 있다.
- 기계 번역 (Machine Translation, MT): 규칙 기반(RBMT), 통계 기반(SMT)을 거쳐 신경망 기계 번역(NMT)으로 발전했다. NMT는 딥러닝 모델, 특히 트랜스포머를 사용하여 번역을 단일 학습 문제로 취급함으로써 이전보다 훨씬 유창하고 정확한 번역을 제공한다.45
- 감성 분석 (Sentiment Analysis): 텍스트에 담긴 감정적 어조(긍정, 부정, 중립)나 더 나아가 기쁨, 분노, 슬픔과 같은 구체적인 감정을 자동으로 식별하는 기술이다.43 고객 리뷰 분석, 소셜 미디어 여론 모니터링, 시장 조사 등 기업의 의사결정에 광범위하게 활용된다.50
- 기타 주요 응용 분야:
- 텍스트 생성 및 카피라이팅: 기사, 보고서, 마케팅 문구 등 독창적인 텍스트를 생성.34
- 코드 생성: 자연어 지시로부터 다양한 프로그래밍 언어로 작동하는 코드를 작성.34
- 정보 검색 및 질의응답: 단순 키워드 검색을 넘어 사용자의 의도를 파악하여 정확한 답변을 제공.37
- 요약, 분류, 챗봇: 기업의 업무 효율성을 극대화하는 핵심적인 응용 사례.37
서로 다른 모델의 성능을 객관적으로 비교하기 위해, NLP 분야는 표준화된 평가 기준, 즉 벤치마크(benchmark)에 의존한다.
- 필요성: 다양한 모델과 기술이 쏟아져 나오는 상황에서, 어떤 모델이 특정 작업에 더 우수한지를 공정하게 측정할 표준화된 방법이 필수적이다.51
- GLUE & SuperGLUE: 이들은 자연어 추론, 감성 분석, 질의응답 등 다양하고 도전적인 NLP 과제들의 집합이다. 모델이 이 과제들을 얼마나 잘 수행하는지를 종합하여 단일 점수로 평가함으로써, 모델의 전반적인 자연어 이해 능력을 측정한다.59 모델들이 GLUE에서 인간의 능력을 빠르게 넘어서자, 더 어려운 과제들로 구성된 SuperGLUE가 개발되었다.59
- 언어 특화 벤치마크: GLUE는 영어 중심적이기 때문에, 한국어의 KLUE, 프랑스어의 FLUE와 같이 다른 언어의 고유한 특성을 반영하여 공정하게 평가하기 위한 벤치마크들이 개발되고 있다.58
- 한계와 미래 방향: 이러한 벤치마크 점수가 유용하긴 하지만, 실제 사용자의 경험이나 특정 산업 분야에서의 실용성을 완벽하게 반영하지는 못할 수 있다. 따라서 더 실용적이고, 특정 도메인에 맞춤화되었으며, 견고한 평가 방법을 개발하기 위한 연구가 지속적으로 이루어지고 있다.48 특히 창의성이나 논리적 일관성과 같은 생성 능력의 평가는 여전히 중요한 난제로 남아있다.
LLM의 핵심 현상 중 하나는 ‘창발적 능력(emergent abilities)’이다. 이는 작은 모델에서는 나타나지 않다가 모델의 규모가 특정 임계점을 넘어서면서 갑자기 나타나는, 명시적으로 훈련되지 않은 새로운 능력을 의미한다. 예를 들어, 몇 단계에 걸친 복잡한 추론 능력은 매우 큰 모델에서만 관찰된다. 이는 단순히 모델과 데이터의 양적 증가가 질적 도약으로 이어진다는 것을 시사한다. 그러나 이러한 능력은 의도적으로 설계된 것이 아니라 방대한 데이터 학습 과정에서 ‘창발’한 것이기 때문에, LLM의 ‘블랙박스’ 특성을 더욱 심화시킨다. 우리는 모델이 ‘무엇’을 할 수 있는지는 알지만, 그 복잡한 능력을 ‘어떻게’ 발현하는지에 대해서는 완전히 이해하지 못한다. 더 뛰어난 AI를 만드는 길이 ‘더 크게 만드는 것’이라는 점과, 그럴수록 모델의 내부 작동이 더 불투명해지고 예측하기 어려워진다는 점 사이의 긴장감은 현대 AI 연구와 안전성 논의의 핵심 딜레마를 형성한다.
마지막 절에서는 앞서 다룬 모든 주제를 종합하여, 진보된 AI가 인간의 소통 방식, 기술과의 상호작용, 그리고 전 지구적 언어 환경을 어떻게 재편할 것인지 미래를 조망한다.
- 키보드를 넘어서: 인간-컴퓨터 상호작용(Human-Computer Interaction, HCI)의 미래는 텍스트나 마우스 클릭과 같은 단일 방식의 입력을 넘어 ‘멀티모달 AI(Multimodal AI)’로 나아가고 있다.63
- 멀티모달 AI의 정의: 텍스트, 음성, 이미지, 비디오, 제스처 등 여러 종류의 데이터를 동시에 처리하고 통합할 수 있는 시스템을 의미한다.64 이는 인간이 다양한 감각을 통해 소통하는 방식을 모방하여, 기계와의 상호작용을 훨씬 더 자연스럽고 직관적으로 만든다.64
-
응용: 사용자가 손가락으로 특정 사물을 가리키며(제스처) “이게 뭐야?”(음성)라고 물으면, AI는 두 가지 입력을 통합하여 답변할 수 있다. 이러한 방식은 장애를 가진 사용자의 접근성을 획기적으로 향상시키고, 스마트홈 제어나 증강현실(AR) 환경 탐색과 같은 복잡한 작업을 더욱 원활하게 만든다.64
- 동질화의 위협: LLM 학습 데이터에서 영어와 소수 주요 언어가 차지하는 압도적인 비중이 소수 언어의 쇠퇴를 가속화할 것이라는 심각한 우려가 제기된다.66
- 작동 방식: 소수 언어 사용자들이 강력한 AI 도구를 사용하기 위해 영어나 다른 주요 언어로 전환할 유인이 생기면서, 모국어의 사용 빈도가 줄어들 수 있다.66 또한, AI가 생성하는 콘텐츠의 대부분이 주요 언어로 되어 있어 소수 언어의 입지는 더욱 좁아질 것이다.
- 문제의 규모: 전문가들은 전 세계 약 7,000개의 언어 중 최대 40%가 이미 소멸 위기에 처해 있으며, AI가 이러한 위기를 더욱 심화시킬 수 있다고 경고한다.66 이는 되돌릴 수 없는 문화적 다양성의 상실을 의미한다.
-
보존의 가능성: 반대로, AI는 신중하게 개발된다면 언어 보존을 위한 강력한 도구가 될 수도 있다. 소멸 위기 언어를 위한 학습 자료, 번역 도구, 디지털 아카이브를 신속하게 구축하는 데 활용될 수 있다. 어떤 방향으로 나아갈 것인가는 중요한 윤리적, 개발적 과제이다.
- 경계의 모호성: AI가 인간과 유사한 방식으로 소통하게 되면서, 기존의 사회적 상호작용 규범이 변화할 것이다.67
- 주요 도전 과제:
- 환각 (Hallucination): AI 모델이 사실에 기반하지 않은 정보를 매우 확신에 찬 어조로 생성하는 현상으로, 정보의 신뢰성을 심각하게 훼손할 수 있다.70
- 편향 (Bias): AI는 학습 데이터에 내재된 사회적 편견(인종차별, 성차별 등)을 그대로 흡수하고 증폭시켜, 불공정하거나 유해한 결과를 낳을 수 있다.71
- 조작과 설득: 연구에 따르면 LLM은 토론에서 인간보다 더 설득력이 있을 수 있으며, 이는 선전이나 허위 정보 유포에 악용될 위험을 제기한다.68
- AI 아첨 (Sycophancy): 모델이 사용자를 기쁘게 하기 위해 지나치게 동의하거나 긍정적인 반응을 보이도록 미세조정되는 현상이다. 이는 AI의 진정성과 신뢰를 저해할 수 있다.70
멀티모달 AI와 대화형 에이전트로의 발전은 컴퓨팅 패러다임의 근본적인 전환을 의미한다. 수십 년 동안 인간은 컴퓨터의 언어(GUI, 커맨드 라인)를 배워야 했다. 이제 마침내 컴퓨터가 인간의 언어를 배우고 있다. 음성, 제스처, 텍스트를 포함하는 가장 넓은 의미의 ‘언어’가 모든 기술을 제어하는 보편적인 인터페이스가 되어가고 있는 것이다. 이는 기술과의 상호작용이 더 이상 특정 지식을 요구하는 행위가 아니라, 인간과의 대화처럼 자연스러운 경험으로 변모함을 의미한다.
동시에 AI는 세계 언어 다양성에 대한 근본적인 역설을 제시한다. 한편으로, AI 개발은 데이터에 의해 추동되며, 데이터는 지배적인 언어에 편중되어 있어 언어적 동질화를 가속하는 강력한 힘으로 작용한다.66 다른 한편으로, AI는 소멸 위기 언어의 문서화, 분석, 번역을 위한 가장 강력한 도구로서, 이들 언어를 보존하고 활성화할 최고의 희망을 제공하기도 한다. 수천 개 언어의 미래는 AI 개발이 상업적 확장성(지배적 언어 선호)을 우선시할 것인지, 아니면 문화적 형평성(소수 언어 투자)을 우선시할 것인지에 대한 윤리적 선택에 달려 있다. 이는 기술의 문제가 아니라, AI 개발을 주도하는 개발자, 기업, 정책 입안자들의 가치 판단과 투자 우선순위의 직접적인 결과가 될 것이다.
본 보고서는 언어를 인간 고유의 생물학적 능력에서 출발하여, 점차 정밀하게 계산적으로 모델링될 수 있는 현상으로 이해하기까지의 여정을 추적했다. 자연어는 그 기원에서부터 모호성과 문맥 의존성이라는, 절대적 정밀성을 요구하는 인공어와는 근본적으로 다른 특성을 지닌다. 인간은 선천적인 언어 습득 장치와 뇌의 전문화된 신경 회로를 통해 이 복잡한 시스템을 경이로운 속도로 체득한다. 언어는 단순히 정보를 전달하는 도구를 넘어, 우리가 세계를 인식하고 사고하는 틀에 영향을 미치는 ‘렌즈’ 역할을 하기도 한다.
이러한 인간 언어의 복잡성을 기계로 복제하려는 노력은 규칙 기반의 상징주의에서 데이터 기반의 통계주의로, 그리고 마침내 방대한 데이터로부터 언어의 심층 구조를 스스로 학습하는 딥러닝으로 패러다임을 전환해왔다. 특히 트랜스포머 아키텍처에 기반한 대규모 언어 모델(LLM)의 등장은 기계가 인간과 유사한 수준의 유창한 텍스트를 생성하고 이해할 수 있음을 보여주며, 산업과 사회 전반에 혁명적 변화를 예고하고 있다.
그러나 기술적 성취에도 불구하고, AI는 아직 갈 길이 멀다. 현재의 AI는 놀라운 ‘언어적 능력(linguistic competence)’을 보여주지만, 진정으로 문맥을 이해하고 화자의 의도를 파악하며 사회적 규범에 맞춰 소통하는 ‘의사소통 능력(communicative competence)’에는 도달하지 못했다. 환각, 편향, 아첨과 같은 문제들은 AI가 아직 인간의 미묘하고 복잡한 소통 방식을 완전히 체화하지 못했음을 보여주는 증거다.
미래는 인간과 기계가 언어를 통해 더욱 깊이 상호작용하는 시대가 될 것이다. 멀티모달 AI는 기술과의 소통을 인간 사이의 소통처럼 자연스럽게 만들 것이다. 이러한 과정에서 우리는 인공적인 화자(artificial speaker)를 창조하는 데 따르는 심대한 책임을 인식해야 한다. 이 기술이 단순히 효율성을 높이는 도구에 그치지 않고, 인류가 수천 년에 걸쳐 쌓아온 다채로운 언어와 문화의 풍요로움을 보존하고 증진하는 데 사용되도록 방향을 설정하는 것이 우리 시대의 중요한 과제가 될 것이다. 언어의 이야기는 이제 인간과 기계가 함께 써 내려가는 새로운 장으로 접어들고 있다.
- 03화 수의 언어 - 자연어와 인공어의 사이에서, accessed July 8, 2025, https://brunch.co.kr/@@bzv/56
- 인공언어 : Artificial Language - AI Study, accessed July 8, 2025, http://www.aistudy.com/linguistics/artificial_language.htm
- 인공어 - 위키백과, 우리 모두의 백과사전, accessed July 8, 2025, https://ko.wikipedia.org/wiki/%EC%9D%B8%EA%B3%B5%EC%96%B4
- 프로그래밍 언어, 인간의 편의와 사고력 향상의 열쇠 - 성대신문, accessed July 8, 2025, http://www.skkuw.com/news/articleView.html?idxno=13371
- 언어의 구성 요소 (feat. 음운론, 형태론, 통사론, 의미론, 화용론) - YouTube, accessed July 8, 2025, https://www.youtube.com/watch?v=cc7XSy9Xb6g
- www.cyberiedu.net, accessed July 8, 2025, https://www.cyberiedu.net/groupkyoan/lang/01.html
- 아동의 언어습득 이론, accessed July 8, 2025, https://riri-slp.tistory.com/1
- 어린이 언어 습득의 본질 - 제주대학교, accessed July 8, 2025, https://oak.jejunu.ac.kr/bitstream/2020.oak/16954/2/%EC%96%B4%EB%A6%B0%EC%9D%B4%20%EC%96%B8%EC%96%B4%20%EC%8A%B5%EB%93%9D%EC%9D%98%20%EB%B3%B8%EC%A7%88.pdf
- [TESOL 이론] 모국어 습득 (First Language Acquisition) - summer at home - 티스토리, accessed July 8, 2025, https://summerathome.tistory.com/entry/TESOL-%EC%9D%B4%EB%A1%A0-%EB%AA%A8%EA%B5%AD%EC%96%B4-%EC%8A%B5%EB%93%9D-First-Language-Acquisition
- 언어발달 이론- 생득주의(천성주의) - AtoZ - 티스토리, accessed July 8, 2025, https://atoznara.tistory.com/entry/%EC%96%B8%EC%96%B4%EB%B0%9C%EB%8B%AC-%EC%9D%B4%EB%A1%A0-%EC%83%9D%EB%93%9D%EC%A3%BC%EC%9D%98%EC%B2%9C%EC%84%B1%EC%A3%BC%EC%9D%98
- 유아기의 언어 습득 - 특집/방언, accessed July 8, 2025, https://www.korean.go.kr/nkview/nklife/1997_1/7-2.html
- m.reportworld.co.kr, accessed July 8, 2025, https://m.reportworld.co.kr/social/s1584618#:~:text=%EB%B8%8C%EB%A1%9C%EC%B9%B4%20%EC%98%81%EC%97%AD%EC%9D%80%201861%EB%85%84,%EC%9D%84%20%EC%B0%BE%EB%8A%94%20%EC%A1%B0%EC%A0%95%EC%84%BC%ED%84%B0%EC%9D%B4%EB%8B%A4.
- [언어발달장애] 뇌의 언어처리기관 중 브로카 영역과 베르니케 영역을 비교 - 레포트월드, accessed July 8, 2025, https://m.reportworld.co.kr/social/s1584618
- [코싸인의 인지과학 이야기] 언어 (1), accessed July 8, 2025, https://brunch.co.kr/@cogsciin/99
- 언어 : 브로카, 베르니케 - SeeHint, accessed July 8, 2025, http://www.seehint.com/hint.asp?md=204&no=13282
- 베르니케 영역 - 위키백과, 우리 모두의 백과사전, accessed July 8, 2025, https://ko.wikipedia.org/wiki/%EB%B2%A0%EB%A5%B4%EB%8B%88%EC%BC%80_%EC%98%81%EC%97%AD
- Unlocking Language: Neural Basis - Number Analytics, accessed July 8, 2025, https://www.numberanalytics.com/blog/neural-basis-of-language-guide
- The cortical organization of speech processing: Feedback control and predictive coding the context of a dual-stream model - PubMed Central, accessed July 8, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC3468690/
- Revealing the dual streams of speech processing - PMC - PubMed Central, accessed July 8, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC5206517/
- 두뇌발달과 언어와의 관계 - 대한소아청소년과학회, accessed July 8, 2025, https://www.pediatrics.or.kr/bbs/index.html?code=infantcare&category=I&gubun=B&page=2&number=9604&mode=view&keyfield=&key=
- 언어학의 하위 분야 개념정리 - Daum 카페, accessed July 8, 2025, https://cafe.daum.net/writinglife/5ait/532
- 언어의 주요 영역과 하위 구성 요인 (의미론, 음운론, 형태론, 구문론 …, accessed July 8, 2025, https://datastair.tistory.com/entry/%EC%96%B8%EC%96%B4%EC%9D%98-%EC%A3%BC%EC%9A%94-%EC%98%81%EC%97%AD%EA%B3%BC-%ED%95%98%EC%9C%84-%EA%B5%AC%EC%84%B1-%EC%9A%94%EC%9D%B8-%EC%9D%98%EB%AF%B8%EB%A1%A0-%EC%9D%8C%EC%9A%B4%EB%A1%A0-%ED%98%95%ED%83%9C%EB%A1%A0-%EA%B5%AC%EB%AC%B8%EB%A1%A0-%ED%99%94%EC%9A%A9%EB%A1%A0
- [NLP] 3. Natural Language Preprocessing - velog, accessed July 8, 2025, https://velog.io/@euisuk-chung/NLP-3.-%EC%9E%90%EC%97%B0%EC%96%B4-%EC%A0%84%EC%B2%98%EB%A6%AC-%EA%B8%B0
- 국어학의 하위 갈래 - 국어학개론 - 방송대 국문과 국어연구 - Daum 카페, accessed July 8, 2025, https://m.cafe.daum.net/knou9509/DKTx/1
- [언어학] 의미론/ 1. 의미론과 언어학 - jeongstudy - 티스토리, accessed July 8, 2025, https://skyjwoo.tistory.com/entry/%EC%96%B8%EC%96%B4%ED%95%99-%EC%9D%98%EB%AF%B8%EB%A1%A0-1-%EC%9D%98%EB%AF%B8%EB%A1%A0%EA%B3%BC-%EC%96%B8%EC%96%B4%ED%95%99
- 의미론 - 나무위키, accessed July 8, 2025, https://namu.wiki/w/%EC%9D%98%EB%AF%B8%EB%A1%A0
- 언어적 상대성 - 나무위키, accessed July 8, 2025, https://namu.wiki/w/%EC%96%B8%EC%96%B4%EC%A0%81%20%EC%83%81%EB%8C%80%EC%84%B1
- 사고를 품는 언어의 힘 ‘언어인류학’ - 서울시립대신문, accessed July 8, 2025, https://press.uos.ac.kr/news/articleView.html?idxno=14110
- press.uos.ac.kr, accessed July 8, 2025, https://press.uos.ac.kr/news/articleView.html?idxno=14110#:~:text=%EC%82%AC%ED%94%BC%EC%96%B4%20%EA%B0%80%EC%84%A4%EC%9D%80%2020%EC%84%B8%EA%B8%B0,%EC%9C%BC%EB%A1%9C%20%ED%95%B4%EC%84%9D%EB%90%98%EA%B8%B0%20%EC%8B%9C%EC%9E%91%ED%96%88%EB%8B%A4.
- 언어 상대성 원리는 있는가? : 사피어-워프 가설 연구 - 카이스트 도서관, accessed July 8, 2025, https://library.kaist.ac.kr/search/ctlgSearch/posesn/view.do?bibctrlno=708653&ty=B
- www.ajou.ac.kr, accessed July 8, 2025, https://www.ajou.ac.kr/human/community/community02.do?mode=download&articleNo=207202&attachNo=191188
- 사피어-워프 가설 - 위키백과, 우리 모두의 백과사전, accessed July 8, 2025, https://ko.wikipedia.org/wiki/%EC%82%AC%ED%94%BC%EC%96%B4-%EC%9B%8C%ED%94%84_%EA%B0%80%EC%84%A4
- 하룻밤에 읽는 자연어처리(NLP)의 역사(1): 단어주머니(Bow)와 DTM 그리고 TF-IDF, accessed July 8, 2025, https://blog-ko.superb-ai.com/the-history-of-nlp/
- LLM이란 무엇인가요? - 대규모 언어 모델 설명 - AWS, accessed July 8, 2025, https://aws.amazon.com/ko/what-is/large-language-model/
- 데이널 『데이터 ∙ 분석 ∙ 지식소통』::자연어 처리(NLP) 역사 및 동향, accessed July 8, 2025, https://bommbom.tistory.com/entry/%EC%9E%90%EC%97%B0%EC%96%B4-%EC%B2%98%EB%A6%ACNLP-%EC%97%AD%EC%82%AC-%EB%B0%8F-%EB%8F%99%ED%96%A5
-
| 자연어 처리(NLP)란 무엇인가? |
NLP 종합 안내서 - Elastic, accessed July 8, 2025, https://www.elastic.co/kr/what-is/natural-language-processing |
- 자연어 처리(NLP)란 무엇인가요? - IBM, accessed July 8, 2025, https://www.ibm.com/kr-ko/think/topics/natural-language-processing
- [기고] 대형 언어 모델의 역사 - 지티티코리아, accessed July 8, 2025, https://www.gttkorea.com/news/articleView.html?idxno=8099
- [NLP] 단어 표현 방법 : Bag-of-Word Model(Bow) - 코딩스뮤, accessed July 8, 2025, https://codingsmu.tistory.com/98
- AI_자연어처리 기초 정리(NLP), accessed July 8, 2025, https://han-py.tistory.com/281
- NLP - 5. Bag of Words (BOW) - 귀퉁이 서재 - 티스토리, accessed July 8, 2025, https://bkshin.tistory.com/entry/NLP-5-Bag-of-Words-BOW
- 단어 주머니(Bag of Words)란 무엇인가요? - IBM, accessed July 8, 2025, https://www.ibm.com/kr-ko/think/topics/bag-of-words
-
- 감성 분석(Sentiment Analysis) 개념과 방법 - 코딩하는 이두호, accessed July 8, 2025, https://aacd.tistory.com/29
-
| NLP의 흐름, 역사 |
AI 인공지능 자연어처리 History of Natural language processing, accessed July 8, 2025, https://www.youtube.com/watch?v=LVFwr9LXIhU |
- 기계 번역, 언어의 장벽을 허물다 - 카이스트신문 - KAIST, accessed July 8, 2025, https://times.kaist.ac.kr/news/articleView.html?idxno=10299
-
| 기계 번역이란 무엇인가요? |
RWS - Trados, accessed July 8, 2025, https://www.trados.com/kr/learning/topic/machine-translation/ |
- 초기 단계부터 글로벌 영향력까지: 인공신경망 기계 번역의 힘과 가능성 - Weglot, accessed July 8, 2025, https://www.weglot.com/ko/blog/neural-machine-translation
- 대규모 언어 모델(LLM)의 포괄적 성능 비교 평가를 위한 평가 지표 및 데이터셋 개발 - Korea Science, accessed July 8, 2025, https://www.koreascience.kr/article/JAKO202408443203166.pdf
- 대규모 언어 모델(LLM)의 진화와 활용: 개념/기술/응용/전망 분석 - Goover, accessed July 8, 2025, https://seo.goover.ai/report/202505/go-public-report-ko-f148ba86-6328-400d-a2bb-45ecfc883e8f-0-0.html
- [데이터 분석 방법론] 감성분석 (Sentiment Analysis) - simbbo blog, accessed July 8, 2025, https://simbbo-blog.tistory.com/194
- 대규모 언어 모델(LLM) 평가 방법 - Medium, accessed July 8, 2025, https://medium.com/@junhoher/2023%EB%85%84-%EB%8C%80%EA%B7%9C%EB%AA%A8-%EC%96%B8%EC%96%B4-%EB%AA%A8%EB%8D%B8-%ED%8F%89%EA%B0%80-5%EA%B0%80%EC%A7%80-%EB%B0%A9%EB%B2%95-040d7894c3df
- 국내 기계번역 연구 현황 및 전망, accessed July 8, 2025, http://home.sejong.ac.kr/Download?pkid=12795&index=1&fileName=02%20%EA%B5%AD%EB%82%B4%20%EA%B8%B0%EA%B3%84%EB%B2%88%EC%97%AD_%EC%9B%90%EC%9D%80%ED%95%98.pdf&filePath=1944&gubun=board
- 감성 분석(Sentiment Analysis) 실습: Orange로 감정 읽기 - learningflix, accessed July 8, 2025, https://learningflix.tistory.com/144
- 감성 분석이란? - MATLAB & Simulink - 매스웍스, accessed July 8, 2025, https://kr.mathworks.com/discovery/sentiment-analysis.html
- 감정 분석이란 무엇인가요? - IBM, accessed July 8, 2025, https://www.ibm.com/kr-ko/topics/sentiment-analysis
- 자연어 처리(NLP) 연구 보고서 - 데이터 주석, accessed July 8, 2025, https://ko.macgence.com/research-report/nlp-research-report/
- 차세대 AI를 위한 자연어 처리 - NetApp, accessed July 8, 2025, https://www.netapp.com/ko/artificial-intelligence/natural-language-processing/
- [NLP] 언어 모델에 대한 평가 체계 (GLUE, KLUE) - 유진’s 공부로그 - 티스토리, accessed July 8, 2025, https://daebaq27.tistory.com/64
- LLM) Large Language Model 기본 개념 알아보기 - All I Need Is Data. - 티스토리, accessed July 8, 2025, https://data-newbie.tistory.com/953
-
- GLUE: 벤치마크를 통해 BERT 이해하기 - Programador - Huffon Blog, accessed July 8, 2025, https://huffon.github.io/2019/11/16/glue/
- SuperGLUE Benchmark, accessed July 8, 2025, https://super.gluebenchmark.com/
- AI와 인간-컴퓨터 상호작용(HCI)의 미래 - 허니티켓, accessed July 8, 2025, https://essay7098.tistory.com/entry/AI%EC%99%80-%EC%9D%B8%EA%B0%84-%EC%BB%B4%ED%93%A8%ED%84%B0-%EC%83%81%ED%98%B8%EC%9E%91%EC%9A%A9HCI%EC%9D%98-%EB%AF%B8%EB%9E%98
- 멀티모달 AI가 인간-컴퓨터 상호작용 (HCI) 에 미치는 영향 - Sapien, accessed July 8, 2025, https://www.sapien.io/ko/blog/human-computer-interaction-hci
- 인간과 기계의 상호작용 (HMI), 현재와 미래 - Infineon Technologies, accessed July 8, 2025, https://www.infineon.com/cms/kr/discoveries/human-machine-interaction/
- [AI넷] 비즈니스[AI가 세계 언어에 어떤 영향을 미칠 것인가] 인터넷의 …, accessed July 8, 2025, http://www.ainet.link/14046
- 인공지능과 인간 상호작용의 미래 - Ricolacola의 AI 트렌드 블로그, accessed July 8, 2025, https://contentstailor.com/entry/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5%EA%B3%BC-%EC%9D%B8%EA%B0%84-%EC%83%81%ED%98%B8%EC%9E%91%EC%9A%A9%EC%9D%98-%EB%AF%B8%EB%9E%98
- AI, 인간의 언어에 도달하다 - 사이언스타임즈, accessed July 8, 2025, https://www.sciencetimes.co.kr/news/ai-%EC%9D%B8%EA%B0%84%EC%9D%98-%EC%96%B8%EC%96%B4%EC%97%90-%EB%8F%84%EB%8B%AC%ED%95%98%EB%8B%A4/
- AI와 AI의 대화: 언어를 통한 상호작용의 새 지평, accessed July 8, 2025, https://xn–ai-4t5i63xdykdkv.com/ai%EC%99%80-ai%EC%9D%98-%EB%8C%80%ED%99%94-%EC%96%B8%EC%96%B4%EB%A5%BC-%ED%86%B5%ED%95%9C-%EC%83%81%ED%98%B8%EC%9E%91%EC%9A%A9%EC%9D%98-%EC%83%88-%EC%A7%80%ED%8F%89/
- AI의 언어 이해: 원리부터 한계, 실제 적용과 미래 전망 - Goover, accessed July 8, 2025, https://seo.goover.ai/report/202505/go-public-report-ko-3228feee-1c74-44cc-8183-d41aeb2fe195-0-0.html
- 인공지능 - 나무위키, accessed July 8, 2025, https://namu.wiki/w/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5
- 자연어 처리는 기술과 인류의 혁명적인 도약입니다: 설명 - HackerNoon, accessed July 8, 2025, https://hackernoon.com/lang/ko/%EC%9E%90%EC%97%B0%EC%96%B4-%EC%B2%98%EB%A6%AC%EB%8A%94-%EA%B8%B0%EC%88%A0%EA%B3%BC-%EC%9D%B8%EB%A5%98%EB%A5%BC-%EC%9C%84%ED%95%9C-%ED%98%81%EB%AA%85%EC%A0%81%EC%9D%B8-%EB%8F%84%EC%95%BD%EC%9E%85%EB%8B%88%EB%8B%A4.