3.2 RoBERTa 하이퍼파라미터 최적화의 중요성

2025-12-19, G30DR

트랜스포머(Transformer) 아키텍처의 등장 이후 자연어 처리(NLP) 분야는 거대 언어 모델(Large Language Model)의 캄브리아기 폭발을 맞이했다. 특히 인코더(Encoder) 기반 모델의 대표주자인 BERT(Bidirectional Encoder Representations from Transformers)의 출현은 사전 학습(Pre-training)과 미세 조정(Fine-tuning)이라는 패러다임을 정립하며 NLP의 역사를 새로 썼다. 그러나 BERT가 발표된 직후, 학계와 산업계는 이 모델이 가진 잠재력이 완전히 발현되었는지에 대한 근본적인 의문을 제기하기 시작했다. 이러한 배경에서 등장한 RoBERTa(Robustly Optimized BERT Approach)는 새로운 아키텍처를 제안하기보다는 기존 BERT 모델이 “상당히 과소 학습(significantly undertrained)“되었다는 가설을 바탕으로, 학습 과정과 하이퍼파라미터의 정교한 최적화만으로도 성능의 비약적인 향상이 가능함을 입증하였다.1 본 장에서는 RoBERTa가 제시한 하이퍼파라미터 최적화의 방법론과 그 중요성을 심도 있게 분석하고, 이것이 현대 언어 모델 발전에 미친 영향을 고찰한다.

1. BERT의 과소 학습 가설과 최적화의 필요성

2018년 구글이 발표한 BERT는 양방향 문맥을 고려하는 혁신적인 구조로 GLUE, SQuAD 등 주요 벤치마크를 석권했다. 그러나 페이스북 AI(현 Meta AI) 연구팀은 BERT의 학습 절차가 최적의 성능을 끌어내기에 충분하지 않다고 판단했다. 초기 BERT는 16GB의 텍스트 데이터(BookCorpus와 Wikipedia)를 사용하여 100만 스텝(step) 동안 학습되었으며, 배치 크기(batch size)는 256 시퀀스로 설정되었다.1 연구팀은 이러한 설정이 모델의 수렴을 방해하고 일반화 성능을 제한한다고 보았다.

RoBERTa 연구의 핵심은 모델의 구조적 변경 없이 학습 전략의 수정만으로 성능을 극대화하는 것에 있다. 이는 모델 아키텍처의 복잡성을 높이는 경쟁(예: XLNet 등) 속에서, 기본기로 돌아가 학습 데이터의 양, 배치 크기, 학습 시간, 목적 함수(Objective Function) 등의 하이퍼파라미터가 모델 성능에 미치는 영향을 정량적으로 규명하려는 시도였다.1 연구 결과, BERT는 충분히 오래 학습되지 않았으며, 더 큰 배치 크기와 더 많은 데이터, 그리고 개선된 마스킹 전략을 통해 기존의 모든 후속 모델(Post-BERT models)을 능가하거나 대등한 성능을 낼 수 있음이 밝혀졌다.2 이는 하이퍼파라미터 최적화가 단순한 성능 튜닝을 넘어 모델의 본질적인 언어 이해 능력을 결정짓는 핵심 요소임을 시사한다.

BERT의 과소 학습 가설은 단순히 학습 시간이 부족했다는 것을 넘어, 최적화 환경(Optimization Landscape)을 탐색하는 방식이 비효율적이었음을 의미한다. 딥러닝 모델, 특히 트랜스포머와 같은 초거대 모델의 손실 표면(Loss Surface)은 매우 복잡하며 수많은 국소 최적해(Local Minima)를 포함한다. BERT의 초기 설정값들은 이러한 공간을 충분히 넓고 깊게 탐색하지 못했을 가능성이 제기되었다. 따라서 RoBERTa는 아키텍처라는 ’하드웨어’를 변경하는 대신, 이를 운용하는 ‘소프트웨어’ 격인 학습 레시피를 재설계함으로써 모델의 잠재력을 극한으로 끌어올리는 데 집중했다.

패러다임의 변화

graph TD
    A["Transformer 아키텍처 등장"] --> B["BERT (Inception)"]
    B --> C{"성능 한계의 원인은?"}

    C -- "가설 1: 아키텍처 부족" --> D["XLNet 등 구조 변경 시도"]
    C -- "가설 2: 과소 학습 (Undertrained)" --> E["RoBERTa (Robustly Optimized BERT)"]

    subgraph "RoBERTa의 접근법 (Software Optimization)"
        E1["아키텍처 유지 (Hardware 고정)"] 
        E2["학습 레시피 재설계 (Software 개선)"]
        E3["하이퍼파라미터 최적화"]

        E --> E1
        E --> E2
        E2 --> E3
    end

    E3 --> F["모델 잠재력 극대화"]
    F --> G["SOTA 성능 달성"]

2. 동적 마스킹(Dynamic Masking): 정적 패턴의 한계 극복

BERT의 핵심 사전 학습 과제인 마스크 언어 모델링(Masked Language Modeling, MLM)은 입력 시퀀스의 토큰 중 일부(약 15%)를 무작위로 마스킹하고, 모델이 문맥을 통해 이를 복원하도록 훈련한다. 원본 BERT 구현에서는 데이터 전처리 단계에서 마스킹을 한 번만 수행하는 ‘정적 마스킹(Static Masking)’ 방식을 채택했다. 구체적으로, BERT는 학습 데이터를 10번 복제하여 각기 다른 마스크 패턴을 적용한 후 40 에폭(epoch) 동안 학습을 진행했다. 이는 모델이 훈련 중에 동일한 문장에 대해 단 10가지의 마스크 패턴만을 반복적으로 보게 됨을 의미하며, 각 시퀀스는 동일한 마스크로 4번씩 학습되었다.6

sequenceDiagram
    autonumber
    title "3.2.2 동적 마스킹(Dynamic Masking) vs 정적 마스킹(Static Masking)"
    
    box "BERT (Static Masking)" #f9f9f9
        participant D_Static as Raw<br>Data
        participant P_Static as Preprocessing
        participant M_BERT as BERT<br>Model
    end

    box "RoBERTa (Dynamic Masking)" #e1f5fe
        participant D_Dynamic as Raw<br>Data
        participant T_Trainer as Training<br>Loop<br>(On-the-fly)
        participant M_RoBERTa as RoBERTa<br>Model
    end

    note over D_Static, M_BERT: "BERT:<br>전처리 단계에서 패턴 고정"
    D_Static->>P_Static: 데이터<br>입력
    P_Static->>P_Static: 데이터 10배 복제 &<br>마스킹 (10개 패턴)
    P_Static->>M_BERT: Epoch 1:<br>패턴 A 학습
    P_Static->>M_BERT: Epoch 2:<br>패턴 B 학습
    note right of P_Static: Epoch 40 동안<br>동일 패턴 반복 (약 4회)

    rect rgb(240, 255, 240)
    note over D_Dynamic, M_RoBERTa: RoBERTa:<br>학습 시마다 새로운 패턴
    D_Dynamic->>T_Trainer: 원본 데이터 입력<br>(복제 불필요)
    loop Every Epoch /Step
        T_Trainer->>T_Trainer: 랜덤 마스크 생성<br>(On-the-fly)
        T_Trainer->>M_RoBERTa: 유니크한<br>마스크 패턴 학습
    end
    note right of M_RoBERTa: 무한에 가까운<br>다양성 &<br>과적합 방지
    end

2.1 정적 마스킹의 구조적 한계와 과적합 위험

정적 마스킹 방식은 구현의 편의성을 제공하지만, 다음과 같은 근본적인 한계를 내포한다:

패턴 암기(Overfitting regarding mask patterns): 모델이 문맥적 추론 능력을 키우기보다 특정 위치의 마스크 패턴을 단순히 암기할 위험이 있다. 반복적으로 노출되는 고정된 마스크 위치는 모델이 언어의 구조적 특성보다는 데이터셋의 특이점(Artifacts)에 과적합되게 만들 수 있다.
다양성 부족(Lack of Diversity): 제한된 마스크 변형은 모델이 다양한 언어적 상황에 노출되는 것을 제한하여 일반화 성능을 저해한다. 언어 모델의 목표는 문장 내의 모든 단어 간의 관계를 학습하는 것인데, 고정된 마스크는 학습 가능한 관계의 조합을 인위적으로 제한하는 결과를 낳는다.6

2.2 동적 마스킹의 도입과 학습 역학의 변화

RoBERTa는 이러한 문제를 해결하기 위해 ’동적 마스킹(Dynamic Masking)’을 도입했다. 동적 마스킹은 데이터를 전처리할 때 마스크를 생성하지 않고, 모델에 데이터를 주입하는 시점(on the fly)에 매번 새로운 마스크 패턴을 생성한다.6 이를 통해 모델은 에폭이 진행될 때마다 동일한 문장에 대해 서로 다른 토큰이 마스킹된 버전을 학습하게 된다.

이론적으로 동적 마스킹은 무한에 가까운 마스킹 변형을 제공하므로, 대규모 데이터셋을 장기간 학습할 때 특히 효과적이다. RoBERTa의 소거 연구(Ablation Study) 결과에 따르면, 동적 마스킹은 정적 마스킹 대비 SQuAD 2.0과 MNLI 등의 태스크에서 성능 향상을 가져왔으며, 특히 학습 스텝이 길어지거나 데이터가 많아질수록 그 효과가 두드러졌다.7 이는 모델이 위치 정보나 고정된 패턴에 의존하지 않고, 진정한 의미의 양방향 문맥을 이해하도록 강제하는 효과가 있다.6

동적 마스킹의 또 다른 이점은 학습 효율성이다. 정적 마스킹은 데이터를 미리 10배로 복제하여 저장해야 하므로 막대한 스토리지 공간을 요구한다. 반면, 동적 마스킹은 원본 데이터 하나만 저장하고 학습 시점에 변형을 가하므로 스토리지 효율성이 높고, 더 방대한 데이터를 다루기에 용이하다. 이는 RoBERTa가 160GB라는 거대한 데이터셋을 효과적으로 학습할 수 있었던 기반 기술 중 하나다.

표 1. BERT와 RoBERTa의 마스킹 전략 상세 비교

특성	BERT (정적 마스킹)	RoBERTa (동적 마스킹)
마스크 생성 시점	데이터 전처리 단계 (Pre-processing)	학습 진행 중 실시간 (On-the-fly)
마스크 패턴 다양성	고정된 10개 패턴 (데이터 10배 복제)	매 스텝마다 새로운 패턴 생성 (무한에 가까움)
에폭 간 변화	동일한 마스크 반복 노출 가능 (40 에폭 중 4회 중복)	매 에폭, 매 배치마다 다른 마스크 노출
학습 효율성	전처리 저장 공간 과다 소요, 패턴 고정됨	계산 비용 약간 증가하나 스토리지 효율 및 일반화 성능 우수
주요 효과	특정 패턴에 과적합 가능성, 편향된 학습 위험	문맥 이해력 강화, 강건한(Robust) 표현 학습 유도

출처: 6 기반 재구성

3. 다음 문장 예측(NSP)의 제거와 입력 포맷의 재설계

BERT는 MLM 외에도 두 문장이 연속적인지 판단하는 ‘다음 문장 예측(Next Sentence Prediction, NSP)’ 과제를 수행했다. 이는 질문 응답(QA)이나 자연어 추론(NLI)과 같이 문장 간의 관계 파악이 중요한 다운스트림 태스크(Downstream Tasks)의 성능을 높이기 위해 설계되었다.4 그러나 RoBERTa 연구진은 NSP 과제가 실제로 모델 성능에 기여하는지에 대해 의문을 제기하고, 이에 대한 정밀한 검증을 수행했다.

NSP 제거와 입력 포맷 재설계

graph TD
    Start("입력 포맷 및 보조 과제 설정")
    
    subgraph "BERT의 방식"
        A["Segment-Pair + NSP"]
        A1["주제 예측(Topic Shift)에 집중"]
        A2["문맥 길이 제한 (장거리 의존성 부족)"]
        A --> A1
        A --> A2
    end

    subgraph "RoBERTa의 실험 및 선택"
        Experiment{"NSP 필요한가?"}
        
        Case1["Sentence-Pair"] -- "성능 최저" --> Bad["문맥 너무 짧음"]
        Case2["Doc-Sentences"] -- "성능 우수" --> Good1["가변 배치 구현 복잡"]
        Case3["Full-Sentences"] -- "성능 우수 & 효율적" --> Best["RoBERTa 최종 채택"]
        
        Best --> Effect1["NSP 제거 (MLM만 수행)"]
        Best --> Effect2["512 토큰 꽉 채움 (문서 경계 넘음)"]
        Best --> Effect3["장거리 의존성(Long-range) 학습 강화"]
    end
    
    Start --> A
    Start --> Experiment
    Experiment --> Case1
    Experiment --> Case2
    Experiment --> Case3

3.1 NSP의 효용성에 대한 재평가와 이론적 분석

초기 연구들은 NSP가 문장 간의 논리적 관계를 학습하는 데 필수적이라고 믿었으나, RoBERTa의 실험 결과는 달랐다. 연구진은 NSP 과제를 제거하고 MLM만으로 학습했을 때, 오히려 성능이 유지되거나 소폭 향상되는 현상을 관찰했다.5

분석에 따르면, 기존 BERT의 NSP 과제는 본질적으로 두 가지 요소를 혼합하여 학습한다:

주제 예측(Topic Prediction): 두 문장이 같은 주제를 다루고 있는지 판별.
일관성 예측(Coherence Prediction): 두 문장이 논리적으로 자연스럽게 연결되는지 판별.

기존 BERT의 NSP 데이터 생성 방식은 부정 샘플(Negative Sample)로 다른 문서에서 무작위로 추출한 문장을 사용했다. 이는 두 문장의 주제가 확연히 다른 경우가 많았기 때문에, 모델은 문맥적 일관성을 깊이 있게 파악하기보다는 단순히 주제의 차이(Topic Shift)를 감지하는 쉬운 방법으로 NSP를 해결했을 가능성이 높다.13 즉, 모델이 정교한 추론 능력을 기르는 것이 아니라, 쉬운 지름길(Shortcut Learning)을 학습했을 수 있다는 것이다.

또한, NSP를 수행하기 위해 입력 시퀀스를 두 개의 세그먼트(Segment-Pair)로 구성하는 방식은 단일 문장의 길이를 제한하는 부작용을 낳았다. 트랜스포머의 최대 입력 길이가 512 토큰으로 제한된 상황에서, 두 문장을 억지로 집어넣는 것은 모델이 장거리 의존성(Long-range Dependency)을 학습할 기회를 박탈한다. 이는 긴 문서나 복잡한 구조의 텍스트를 이해하는 데 방해가 된다.

3.2 FULL-SENTENCES와 DOC-SENTENCES: 문맥의 확장

RoBERTa는 NSP를 과감히 제거하는 대신, 입력 시퀀스를 구성하는 방식을 획기적으로 개선했다. 연구진은 다음과 같은 네 가지 설정을 비교 실험했다 1:

SEGMENT-PAIR + NSP (BERT 방식): 두 개의 문장 쌍을 입력으로 사용하며 NSP를 수행한다. 각 쌍은 여러 문장을 포함할 수 있다.
SENTENCE-PAIR + NSP: 각 세그먼트가 단 하나의 문장으로만 구성된다. 이 경우 문맥 길이가 현저히 짧아져 모델이 장거리 의존성을 학습하지 못했고, 결과적으로 다운스트림 태스크 성능이 가장 저조했다.
FULL-SENTENCES (RoBERTa 채택): 하나 이상의 문서에서 추출한 연속된 문장들로 512 토큰 길이를 꽉 채운다. 문서의 경계를 넘어갈 수 있으며, 문서 간에는 구분자 토큰을 삽입한다. NSP는 수행하지 않는다.1
DOC-SENTENCES: FULL-SENTENCES와 유사하지만, 문서 경계를 넘어가지 않는다. 512 토큰보다 짧은 문서는 그대로 사용하되, 배치의 크기를 동적으로 조절하여 계산 효율성을 맞춘다.

실험 결과, NSP를 제거하고 512 토큰 길이의 문맥을 최대한 활용하는 FULL-SENTENCES 또는 DOC-SENTENCES 설정이 BERT의 기본 설정(SEGMENT-PAIR + NSP)보다 GLUE 점수, SQuAD, RACE 등 주요 벤치마크에서 더 우수한 성능을 보였다.5 특히 DOC-SENTENCES가 미세하게 더 좋은 성능을 보였으나, 가변적인 배치 크기를 처리해야 하는 구현상의 복잡함 때문에 RoBERTa는 FULL-SENTENCES 방식을 최종적으로 채택했다.1

이러한 결과는 모델이 인위적인 보조 과제(NSP)를 수행하는 것보다, 더 긴 연속된 텍스트를 통해 자연스러운 언어의 흐름과 문맥을 깊이 있게 이해하는 것이 훨씬 중요하다는 것을 시사한다. 긴 시퀀스 학습은 모델이 문장 간의 연결성뿐만 아니라, 문단 단위의 담화 구조(Discourse Structure)를 파악하는 데 도움을 주어, 결과적으로 SQuAD나 RACE와 같은 독해 과제에서 성능 향상으로 이어졌다.

4. 대규모 배치(Large Batch) 학습의 안정성과 성능 최적화

BERT는 기본적으로 256이라는 비교적 작은 배치 크기로 100만 스텝을 학습했다. 반면, RoBERTa는 배치 크기를 2,000에서 최대 8,000까지 획기적으로 늘렸다.10 이러한 대규모 배치 학습(Large Batch Training)의 도입은 단순한 학습 속도 향상을 넘어 최적화 동역학(Optimization Dynamics) 측면에서 중요한 의미를 가진다.

대규모 배치(Large Batch) 학습의 메커니즘

graph TD
    subgraph "설정 비교"
        BERT["BERT: Batch 256"]
        RoBERTa["RoBERTa: Batch 2K ~ 8K"]
    end

    subgraph "대규모 배치의 효과 (Dynamics)"
        Step1["배치 크기 증가"]
        Step2["Gradient 분산(Variance) 감소"]
        Step3["노이즈 감소 & 방향 정확도 상승"]
        Step4["학습률(Learning Rate) 스케일링 가능"]
        Step5["병렬 처리 효율 극대화"]
    end

    subgraph "최종 결과"
        Result1["빠른 수렴"]
        Result2["더 나은 일반화 (Generalization)"]
        Result3["Perplexity 감소"]
    end

    BERT -.-> Step1
    RoBERTa ==> Step1
    Step1 --> Step2
    Step2 --> Step3
    Step3 --> Step4
    Step4 --> Result1
    Step1 --> Step5
    Step5 --> Result1
    Result1 --> Result2
    Result1 --> Result3

4.1 경사 하강법의 안정화와 학습률 스케일링

배치 크기를 키우면 배치 내의 샘플 다양성이 증가하여 그라디언트(Gradient) 추정의 분산(Variance)이 줄어든다. 즉, 노이즈가 적고 더 정확한 방향으로 가중치를 업데이트할 수 있게 된다. 이는 더 큰 학습률(Learning Rate)을 사용할 수 있게 해주며, 결과적으로 모델이 손실 함수(Loss Function)의 최적점에 더 안정적이고 빠르게 수렴하도록 돕는다.16

BERT의 경우 학습률이 1e-4 수준이었으나, RoBERTa는 큰 배치 크기에 맞춰 학습률을 조정(7e-4 ~ 1e-3 등)하고 웜업(Warm-up) 단계를 최적화했다.1 “Linear Scaling Rule“에 따르면 배치 크기를 k배 늘릴 때 학습률도 k배 늘려야 하는데, RoBERTa는 이러한 이론적 배경을 바탕으로 실험을 통해 최적의 설정을 찾아냈다.

4.2 학습 효율성과 성능의 상관관계: 8K 배치의 위력

RoBERTa 연구진은 배치 크기를 256에서 2,000, 8,000으로 증가시키며 실험을 진행했다. 흥미로운 점은 동일한 데이터 에폭(Pass)을 유지할 때, 배치 크기를 키우는 것이 퍼플렉서티(Perplexity)를 낮추고 다운스트림 태스크의 정확도를 높인다는 사실이다.1

BERT: Batch Size 256, 1M Steps.
RoBERTa: Batch Size 8,000, 31K Steps (데이터 순회 횟수는 유사하게 조정).

배치 크기 8,000으로 학습한 모델은 기존 BERT 대비 학습 속도가 빨라질 뿐만 아니라, 병렬 처리 하드웨어(TPU/GPU Cluster)의 효율을 극대화할 수 있었다. 또한, 대규모 배치는 모델이 국소 최적해(Local Minima)에 빠지는 것을 방지하고 더 넓은 일반화 영역으로 유도하는 효과가 있는 것으로 분석된다.16 특히 RoBERTa는 Adam 옵티마이저의 파라미터(beta2=0.98, epsilon 등)를 튜닝하여 대규모 배치 학습 시 발생할 수 있는 초기 학습 불안정성을 제어했다.1 이는 거대 모델 학습 시 하드웨어 리소스 활용과 최적화 안정성 사이의 균형을 맞추는 중요한 엔지니어링적 발견이었다.

표 2. 배치 크기 변화에 따른 RoBERTa 성능 및 학습 효율 비교 (BookCorpus + Wikipedia 데이터 기준)

배치 크기	학습 스텝 (Steps)	학습률 (Learning Rate)	Perplexity (Dev)	MNLI-m Accuracy	SST-2 Accuracy	비고
256	1,000,000	1e-4	3.99	84.7%	92.5%	BERT 기본 설정
2,000	125,000	7e-4	3.68	85.2%	93.1%	성능 향상 시작
8,000	31,000	1e-3	3.60	85.3%	93.5%	RoBERTa 채택 설정

출처: 1 데이터 기반 재구성. 동일한 에폭 수를 유지하며 배치 크기를 조절했을 때의 결과임.

5. 데이터의 양과 질: 16GB에서 160GB로의 확장과 스케일링 법칙

BERT가 우수한 성능을 보였음에도 불구하고 “과소 학습“되었다고 평가받는 가장 큰 이유는 데이터의 양이었다. BERT는 BookCorpus(800M 단어)와 English Wikipedia(2,500M 단어)를 합친 약 16GB의 텍스트 데이터로 학습되었다.1 RoBERTa는 이를 10배 이상 확장하여 160GB 규모의 데이터를 구축했다. 이는 “데이터가 많을수록 모델의 성능은 향상된다“는 딥러닝의 스케일링 법칙(Scaling Laws)을 NLP 사전 학습에 본격적으로 적용한 사례다.

pie
    title "3.2.5 RoBERTa 학습 데이터셋 구성 (총 160GB)"
    "BookCorpus + Wikipedia (BERT 원본, 16GB)" : 16
    "CC-News (뉴스 기사, 76GB)" : 76
    "OpenWebText (웹 텍스트, 38GB)" : 38
    "Stories (서사/이야기, 31GB)" : 31

5.1 RoBERTa의 데이터셋 구성: 다양성의 확보

RoBERTa 학습에는 다음과 같은 5가지의 대규모 코퍼스가 사용되었으며, 이는 양적 팽창뿐만 아니라 질적 다양성을 확보하기 위한 전략이었다 14:

BookCorpus + Wikipedia (16GB): BERT가 사용한 원본 데이터. 문법적으로 정확하고 형식이 잘 갖춰진 텍스트다.
CC-News (76GB): 2016년 9월부터 2019년 2월까지의 CommonCrawl 뉴스 기사 6,300만 개를 필터링한 데이터. 다양한 주제와 최신 시사 정보, 현대적 언어 사용 패턴을 반영한다. 이는 모델이 뉴스 기사와 같은 사실적 텍스트를 처리하는 능력을 강화했다.
OpenWebText (38GB): Reddit에서 3개 이상의 추천(upvotes)을 받은 URL의 본문을 추출한 데이터(GPT-2 학습 데이터의 오픈 소스 재현판). 구어체, 인터넷 용어, 비공식적인 문체 등이 포함되어 있어 모델이 웹 텍스트의 다양성을 학습하도록 돕는다.
Stories (31GB): CommonCrawl 데이터 중 이야기(Story) 형식을 갖춘 텍스트를 필터링한 것. Winograd Schema와 같은 상식 추론 및 서사 구조 파악 능력 향상에 기여한다.

5.2 데이터 확장의 효과 (Scaling Laws)

16GB 데이터로 학습된 RoBERTa(BERT와 동일 조건)와 160GB 데이터로 학습된 RoBERTa를 비교했을 때, 후자의 성능이 압도적으로 높았다. 이는 현대 LLM의 스케일링 법칙과 일맥상통하는 결과로, 데이터의 양과 다양성이 모델의 언어 이해력, 특히 희귀 단어나 복잡한 구문 구조를 파악하는 능력에 직접적인 영향을 미침을 보여준다.4

GLUE 벤치마크, SQuAD, RACE 등 모든 평가 지표에서 데이터 추가에 따른 성능 향상은 명확하게 관측되었다.1 특히 데이터 크기를 16GB에서 160GB로 늘렸을 때, SQuAD의 F1 점수와 GLUE의 평균 점수가 유의미하게 상승했다. 이는 단순한 양적 증가뿐만 아니라, 뉴스, 웹 텍스트, 이야기 등 다양한 도메인의 데이터를 혼합함으로써 모델의 편향(Bias)을 줄이고 범용성(Generalization)을 확보했기 때문이다. RoBERTa의 이러한 데이터 전략은 이후 등장한 GPT-3, PaLM 등 초거대 언어 모델들이 수백 GB, 수 TB의 데이터를 사용하는 흐름의 시발점이 되었다.

6. 바이트 수준 BPE(Byte-Level BPE)와 어휘 집합의 확장

BERT는 WordPiece 토크나이저를 사용하며 약 30,000개의 어휘 집합(Vocabulary)을 가졌다. 반면, RoBERTa는 GPT-2에서 소개된 바이트 수준 BPE(Byte-Level Byte Pair Encoding)를 채택하고 어휘 집합의 크기를 50,000개로 확장했다.4 이는 사소한 변경처럼 보일 수 있지만, 모델의 유연성과 다국어 처리 능력에 큰 영향을 미치는 기술적 진보였다.

Byte-Level BPE vs WordPiece

graph TD
    subgraph "BERT: WordPiece"
        W1["유니코드 문자 기반"] --> W2["30,000 Vocab"]
        W2 --> W3{"미등록 단어 발생?"}
        W3 -- "Yes" --> W4["[UNK] 토큰으로 대체 (정보 손실)"]
    end

    subgraph "RoBERTa: Byte-Level BPE"
        R1["UTF-8 바이트(Byte) 기반"] --> R2["50,000 Vocab"]
        R2 --> R3{"미등록 단어 발생?"}
        R3 -- "No" --> R4["바이트 조합으로 모든 문자 표현 가능"]
        R4 --> R5["OOV 문제 원천 해결"]
        R4 --> R6["다국어/이모지 처리 유연"]
    end

6.1 Byte-Level BPE의 기술적 우위와 OOV 해결

기존의 문자(Character) 기반 BPE나 WordPiece는 유니코드 문자를 기본 단위로 하기에, 학습 데이터에 등장하지 않은 드문 유니코드 문자나 이모지 등을 처리할 때 ’알 수 없는 토큰([UNK])’으로 대체하는 경우가 발생한다. 이는 정보의 손실을 의미한다. 그러나 바이트 수준 BPE는 텍스트를 UTF-8 인코딩의 바이트(Byte) 단위로 분해하여 처리한다.23 모든 텍스트는 바이트의 시퀀스로 표현될 수 있으므로, 이론적으로 [UNK] 토큰 없이 세상의 모든 문자, 심지어 오타나 새로운 신조어까지도 바이트 조합으로 표현할 수 있다.24

6.2 어휘 집합 크기와 성능의 트레이드오프

RoBERTa는 50,000개의 서브워드(Subword) 단위를 사용함으로써 BERT(30,000개)보다 더 많은 단어를 하나의 토큰으로 처리하거나, 더 의미 있는 단위로 쪼갤 수 있게 되었다. 이는 다음과 같은 장점을 제공한다:

OOV(Out-Of-Vocabulary) 문제의 원천적 해결: 거의 모든 단어를 인코딩할 수 있어 모델의 적용 범위를 넓힌다. 이는 특히 의학, 법률 등 전문 용어가 많은 도메인에서 유리하다.
다국어 및 특수 문자 처리: 유니코드 호환성이 높아 다양한 언어적 입력을 유연하게 처리한다.

비록 어휘 집합의 크기가 커짐에 따라 임베딩 레이어의 파라미터 수가 약 1,500만 개에서 2,000만 개 정도 증가하지만, RoBERTa 연구진은 이러한 비용 증가가 성능 향상으로 충분히 상쇄된다고 판단했다.4 실제로 실험 결과, Byte-Level BPE는 WordPiece와 비교하여 성능 저하 없이 더 넓은 커버리지를 제공하는 것으로 나타났으며, 특히 복잡한 형태소 구조를 가진 언어나 노이즈가 많은 웹 텍스트 처리에서 강점을 보였다.26

7. 실증적 검증: GLUE, SQuAD, RACE 벤치마크 결과

RoBERTa의 하이퍼파라미터 최적화 효과는 주요 NLP 벤치마크에서 명확하게 드러난다. RoBERTa는 아키텍처가 BERT와 동일함에도 불구하고, 최적화된 학습만으로 당시 SOTA(State-of-the-Art)였던 XLNet과 대등하거나 능가하는 성능을 기록했다.

7.1 GLUE (General Language Understanding Evaluation)

GLUE 벤치마크에서 RoBERTa는 BERT-Large보다 월등히 높은 점수를 기록했다.

BERT-Large: 평균 점수 82.1 (MNLI 86.6, SST-2 93.2)
RoBERTa: 평균 점수 88.5 (MNLI 90.2, SST-2 96.4) 1

특히 MNLI(자연어 추론)와 SST-2(감성 분석)에서의 성능 향상은 RoBERTa가 문맥적 뉘앙스를 파악하는 능력이 크게 개선되었음을 보여준다. 표 3에 따르면 RoBERTa는 모든 GLUE 태스크에서 BERT를 능가했으며, 이는 데이터 크기와 학습 시간의 증가, 그리고 NSP 제거의 효과가 복합적으로 작용한 결과다.1 주목할 점은 RoBERTa가 GLUE 리더보드에서 1위를 차지하며, 아키텍처의 복잡성 없이도 SOTA를 달성할 수 있음을 증명했다는 것이다.

표 3. BERT-Large와 RoBERTa의 GLUE 벤치마크 성능 비교

모델	MNLI	QNLI	QQP	RTE	SST-2	MRPC	CoLA	STS-B	GLUE Avg
BERT-Large	86.6	92.3	91.3	70.4	93.2	88.0	60.6	90.0	82.1
RoBERTa	90.2	94.7	92.2	86.6	96.4	90.9	68.0	92.4	88.5

데이터 출처: 1 참조 및 재구성. 수치는 Dev set 또는 Test set 기준에 따라 미세한 차이가 있을 수 있으며, RoBERTa의 점수는 단일 모델 기준 최고 성능을 나타냄.

7.2 SQuAD (Stanford Question Answering Dataset)

기계 독해 능력을 평가하는 SQuAD 데이터셋에서도 RoBERTa는 탁월한 성능을 보였다.

SQuAD v1.1: RoBERTa는 F1 점수 94.6을 기록하며 BERT-Large(90.9)를 크게 앞섰다.
SQuAD v2.0: 대답할 수 없는 질문이 포함된 더 어려운 버전인 v2.0에서도 RoBERTa는 F1 89.4를 기록해 BERT-Large(81.8) 대비 7.6점의 비약적인 향상을 이뤘다.21

SQuAD v2.0에서의 큰 성능 격차는 RoBERTa가 단순히 정답을 찾는 것을 넘어, 문맥을 깊이 이해하고 정답이 없는 상황을 판단하는 능력(Robustness)이 강화되었음을 시사한다.29 이는 NSP 제거가 문장 간 관계 추론에 악영향을 미치지 않았을 뿐만 아니라, 오히려 더 긴 문맥 학습을 통해 전체적인 독해력을 증진시켰음을 방증한다.

7.3 RACE (ReAding Comprehension from Examinations)

RACE는 중·고등학생 수준의 긴 지문 독해 능력을 평가하는 데이터셋으로, 긴 문맥에 대한 고차원적인 추론이 필요하다.

BERT-Large: 정확도 72.0%
RoBERTa: 정확도 86.5% 21

RACE에서의 14.5% 포인트라는 압도적인 성능 차이는 RoBERTa의 긴 시퀀스 학습(512 토큰 꽉 채우기)과 대규모 데이터 학습이 장문 독해 및 추론 능력에 결정적인 기여를 했음을 증명한다.30 BERT는 최대 길이가 짧은 경우가 많아 긴 지문을 제대로 처리하지 못하는 경우가 있었으나, RoBERTa는 입력 파이프라인 최적화를 통해 이 문제를 해결했다.

8. 소거 연구(Ablation Study): 성능 향상의 원인 분석

RoBERTa 논문의 백미는 각 하이퍼파라미터 변경이 성능에 미치는 영향을 분리하여 분석한 소거 연구(Ablation Study)다. 논문의 Table 2와 관련 분석 1은 다음과 같은 사실을 밝혀냈다. 이 연구는 “왜 RoBERTa가 잘 되는가?“에 대한 과학적 해답을 제공한다.

데이터 크기 통제 시(16GB): BERT와 동일한 16GB 데이터(BookCorpus+Wiki)만 사용하더라도, 동적 마스킹과 NSP 제거, 배치 크기 최적화를 적용한 RoBERTa 설정이 원본 BERT보다 우수한 성능을 보였다. 이는 데이터 양이 같아도 학습 방법론(Recipe)이 성능에 큰 영향을 미침을 입증한다.31
NSP 제거의 효과: NSP를 제거하고 FULL-SENTENCES를 사용했을 때, SQuAD 2.0과 MNLI 점수가 상승했다. 이는 NSP가 필수적이라는 기존의 통념을 뒤집는 결과였다.
데이터 추가의 효과(160GB): 최적화된 학습 설정 위에 데이터 양을 160GB로 늘렸을 때 성능이 한 번 더 퀀텀 점프했다. 이는 최적화된 아키텍처 위에서 데이터 스케일링이 얼마나 강력한지를 보여준다.
학습 시간(Steps): 학습 스텝을 10만(100K)에서 30만(300K), 50만(500K)으로 늘릴수록 성능은 계속해서 향상되었으며, 과적합(Overfitting) 징후는 나타나지 않았다. 이는 트랜스포머 모델이 방대한 데이터를 소화할 수 있는 용량(Capacity)이 매우 큼을 의미하며, 기존 BERT가 심각하게 과소 학습되었음을 확인시켜주었다.1

결론적으로 RoBERTa의 성공은 단일 요인이 아닌, NSP 제거 + 동적 마스킹 + 대규모 배치 + 대용량 데이터 + 장시간 학습의 시너지 효과다.

mindmap
  root((RoBERTa
  성능 향상 요인))
    데이터 스케일링
      ::id("16GB -> 160GB")
      ::id("다양한 도메인 혼합")
      ::id("Scaling Laws 입증")
    학습 전략 최적화
      ::id("Dynamic Masking")
      ::id("NSP 제거")
      ::id("Full-Sentences 입력")
    하이퍼파라미터 튜닝
      ::id("Large Batch (8K)")
      ::id("Peak Learning Rate 상향")
      ::id("장시간 학습 (500K Steps)")
    토크나이저 개선
      ::id("Byte-Level BPE")
      ::id("Vocab 50K로 확장")

9. 결론: 인코더 시대의 정점과 유산

RoBERTa는 “새로운 모델이 항상 더 나은 성능을 보장하는가?“라는 질문에 대해, “기존 모델도 올바르게 학습시키면 최강이 될 수 있다“는 답을 제시했다. 아키텍처의 수정 없이 하이퍼파라미터 최적화와 데이터 스케일링만으로 달성한 RoBERTa의 성과는 이후 등장하는 모델들(ALBERT, DeBERTa 등)과 현대의 초거대 언어 모델(LLM) 학습 파이프라인의 표준이 되었다.

RoBERTa가 남긴 유산은 명확하다.

첫째, NSP와 같은 인위적인 보조 과제보다는 양질의 텍스트를 많이, 오래 보여주는 것이 낫다. 이는 이후 GPT-3와 같은 생성형 모델들이 단순한 다음 단어 예측(Next Token Prediction)만으로도 놀라운 성능을 내는 기반이 되었다.

둘째, 배치 크기와 학습률의 조화는 모델의 수렴과 일반화에 결정적이다. 대규모 배치 학습은 이제 LLM 학습의 기본 소양이 되었다.

셋째, 데이터는 다다익선(The more, the better)이며, 모델은 생각보다 더 많은 학습을 필요로 한다. 이는 오늘날 수조 개의 토큰을 학습하는 파운데이션 모델 경쟁의 서막을 알리는 신호탄이었다.

이러한 발견들은 언어 모델의 캄브리아기 폭발을 가속화하는 기폭제가 되었으며, RoBERTa는 단순한 BERT의 복제품이 아닌, 딥러닝 학습 방법론의 정수를 담은 이정표(Milestone)로서 그 가치를 인정받고 있다. RoBERTa의 하이퍼파라미터 최적화 전략은 인코더 모델을 넘어 생성형 모델(GPT 계열)의 학습 레시피에도 지대한 영향을 미치며, 오늘날 우리가 목격하는 AI 기술 혁신의 숨은 공신으로 자리 잡았다.

결론: BERT vs RoBERTa 최종 비교

graph LR
    subgraph "BERT (The Baseline)"
        B_Data["16GB Data"]
        B_Mask["Static Masking"]
        B_Task["MLM + NSP"]
        B_Batch["Batch Size 256"]
        B_Train["1M Steps"]
    end

    subgraph "RoBERTa (The Optimized)"
        R_Data["160GB Data (+Scaling)"]
        R_Mask["Dynamic Masking"]
        R_Task["MLM Only (Full-Sentences)"]
        R_Batch["Batch Size 8,000"]
        R_Train["Longer Training"]
    end

    B_Data -.-> R_Data
    B_Mask -.-> R_Mask
    B_Task -.-> R_Task
    B_Batch -.-> R_Batch
    B_Train -.-> R_Train

    style R_Data fill:#d4e157,stroke:#333
    style R_Mask fill:#d4e157,stroke:#333
    style R_Task fill:#d4e157,stroke:#333
    style R_Batch fill:#d4e157,stroke:#333
    style R_Train fill:#d4e157,stroke:#333

10. 참고 자료

ROBERTA: A ROBUSTLY OPTIMIZED BERT PRE- TRAINING APPROACH - OpenReview, https://openreview.net/pdf?id=SyxS0T4tvS
[PDF] RoBERTa: A Robustly Optimized BERT Pretraining Approach | Semantic Scholar, https://www.semanticscholar.org/paper/RoBERTa%3A-A-Robustly-Optimized-BERT-Pretraining-Liu-Ott/077f8329a7b6fa3b7c877a57b81eb6c18b5f87de
[1907.11692] RoBERTa: A Robustly Optimized BERT Pretraining Approach - arXiv, https://arxiv.org/abs/1907.11692
RoBERTa vs. BERT: Exploring the Evolution of Transformer Models - DS Stream, https://www.dsstream.com/post/roberta-vs-bert-exploring-the-evolution-of-transformer-models
arXiv:1907.11692v1 [cs.CL] 26 Jul 2019, https://arxiv.org/pdf/1907.11692
Dynamic mask for RoBERTa VS static mask for BERT | by Dr.Tiya Vaj - Medium, https://vtiya.medium.com/dynamic-mask-for-roberta-vs-static-mask-for-bert-c997edc9a939
Large Language Models: RoBERTa - A Robustly Optimized BERT Approach, https://towardsdatascience.com/roberta-1ef07226c8d8/
What is the difference between BERT and Roberta - Data Science Stack Exchange, https://datascience.stackexchange.com/questions/97310/what-is-the-difference-between-bert-and-roberta
Can you explain the concept of dynamic masking in RoBERTa and how it differs from static masking in BERT? - Massed Compute, https://massedcompute.com/faq-answers/?question=Can%20you%20explain%20the%20concept%20of%20dynamic%20masking%20in%20RoBERTa%20and%20how%20it%20differs%20from%20static%20masking%20in%20BERT?
Overview of RoBERTa model - GeeksforGeeks, https://www.geeksforgeeks.org/machine-learning/overview-of-roberta-model/
Review — RoBERTa: A Robustly Optimized BERT Pretraining Approach | by Sik-Ho Tsang, https://sh-tsang.medium.com/review-roberta-a-robustly-optimized-bert-pretraining-approach-d1be4014e5ce
Improving BERT – Lessons from RoBERTa - Stanford University, https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1244/final-projects/ChanningLeeHannahGailPrausnitzWeinbaumHaomingSong.pdf
Next sentence prediction in RoBERTa - Data Science Stack Exchange, https://datascience.stackexchange.com/questions/76872/next-sentence-prediction-in-roberta
A Gentle Introduction to RoBERTa - Analytics Vidhya, https://www.analyticsvidhya.com/blog/2022/10/a-gentle-introduction-to-roberta/
How do the hyperparameters of BERT and RoBERTa differ in terms of their impact on long-range contextual relationships? - Massed Compute, https://massedcompute.com/faq-answers/?question=How+do+the+hyperparameters+of+BERT+and+RoBERTa+differ+in+terms+of+their+impact+on+long-range+contextual+relationships%3F
What is the impact of batch size on the performance of BERT and RoBERTa? - Massed Compute, https://massedcompute.com/faq-answers/?question=What%20is%20the%20impact%20of%20batch%20size%20on%20the%20performance%20of%20BERT%20and%20RoBERTa?
The importance of batch size during training? Is it misunderstood? : r/LocalLLaMA - Reddit, https://www.reddit.com/r/LocalLLaMA/comments/1cc2ssx/the_importance_of_batch_size_during_training_is/
Papers Explained 03: RoBERTa. RoBERTa presents a replication study of… | by Ritvik Rastogi | DAIR.AI | Medium, https://medium.com/dair-ai/papers-explained-03-roberta-81db014e35b9
Introducing RoBERTa Base Model: A Comprehensive Overview | by Novita AI - Medium, https://medium.com/@marketing_novita.ai/introducing-roberta-base-model-a-comprehensive-overview-330338afa082
FacebookAI/roberta-base - Hugging Face, https://huggingface.co/FacebookAI/roberta-base
RoBERTa vs BERT: A Comprehensive Comparison - DhiWise, https://www.dhiwise.com/post/roberta-vs-bert-a-comprehensive-comparison
What are the key differences between BERT and RoBERTa tokenization methods?, https://massedcompute.com/faq-answers/?question=What%20are%20the%20key%20differences%20between%20BERT%20and%20RoBERTa%20tokenization%20methods?
What are the differences between BPE and byte-level BPE? - Data Science Stack Exchange, https://datascience.stackexchange.com/questions/126715/what-are-the-differences-between-bpe-and-byte-level-bpe
A Comparative Analysis of Byte-Level and Token-Level Transformer Models in Natural Language Processing - Greg Robison, https://gregrobison.medium.com/a-comparative-analysis-of-byte-level-and-token-level-transformer-models-in-natural-language-9fb4331b6acc
Byte Pair Encoding: The Secret Sauce of Modern NLP Tokenization | Data Science Dojo, https://datasciencedojo.com/blog/byte-pair-encoding/
[R][1907.11692] RoBERTa: A Robustly Optimized BERT Pretraining Approach - Reddit, https://www.reddit.com/r/MachineLearning/comments/cjbcxm/r190711692_roberta_a_robustly_optimized_bert/
Performance difference between ByteLevelBPE and Wordpiece tokenizers, https://discuss.huggingface.co/t/performance-difference-between-bytelevelbpe-and-wordpiece-tokenizers/10203
Large Language Models: Comparing Gen 1 Models (GPT, BERT, T5 and More), https://dev.to/admantium/large-language-models-comparing-gen-1-models-gpt-bert-t5-and-more-74h
Comparative Analysis of State-of-the-Art Q&A Models: BERT, RoBERTa, DistilBERT, and ALBERT on SQuAD v2 Dataset - ADBA Scientific Journals, https://journals.adbascientific.com/chf/article/download/17/18/200
Why RoBERTa is better than BERT? I would prefer if I had a different answer than “RoBERTa gets trained on a much larger dataset”.? | ResearchGate, https://www.researchgate.net/post/Why_RoBERTa_is_better_than_BERT_I_would_prefer_if_I_had_a_different_answer_than_RoBERTa_gets_trained_on_a_much_larger_dataset
MPNet: Masked and Permuted Pre-training for Language Understanding - Microsoft, https://www.microsoft.com/en-us/research/wp-content/uploads/2020/11/NIPS_MPNet.pdf