12.1 Whisper 약지도 학습을 통한 음성 인식의 일반화

12.1 Whisper 약지도 학습을 통한 음성 인식의 일반화

2025-12-23, G30DR

1. 서론: 음성 인식 패러다임의 전환과 일반화의 난제

현대 인공지능 연구, 특히 자동 음성 인식(Automatic Speech Recognition, ASR) 분야는 지난 수십 년간 괄목할 만한 성장을 이루었다. 은닉 마르코프 모델(HMM)과 가우시안 혼합 모델(GMM)에 의존하던 초기 통계적 접근 방식에서 시작하여, 심층 신경망(DNN), 순환 신경망(RNN), 그리고 최근의 트랜스포머(Transformer) 아키텍처의 도입에 이르기까지, 모델의 구조적 혁신은 인식 정확도를 비약적으로 향상시키는 원동력이 되었다.1 그러나 OpenAI가 Whisper를 발표하기 전까지 학계와 산업계가 직면한 가장 큰 난제는 ’일반화(Generalization)’와 ’견고성(Robustness)’의 확보였다.

기존의 주류 연구는 LibriSpeech와 같이 고도로 정제되고 통제된 환경에서 수집된 골드 라벨(Gold-label) 데이터셋을 활용한 지도 학습(Supervised Learning)이나, 레이블이 없는 방대한 오디오 데이터를 사전 학습(Pre-training)한 후 소량의 레이블 데이터로 미세 조정(Fine-tuning)하는 자기 지도 학습(Self-Supervised Learning, SSL)에 집중되어 있었다.3 Wav2Vec 2.0으로 대표되는 이러한 모델들은 특정 벤치마크 데이터셋에서는 인간을 능가하는 낮은 단어 오류율(WER)을 기록했으나, 훈련 데이터와 음향적 특성이 다른 실제 환경(In-the-wild)—배경 소음이 심하거나, 다양한 방언이 섞이거나, 화자의 발화 스타일이 자유분방한 경우—에서는 성능이 급격히 저하되는 ’취약성(Brittleness)’을 드러냈다.5 이는 모델이 언어의 본질적인 음성-텍스트 매핑 규칙을 학습하기보다는 특정 데이터셋의 통계적 아티팩트(Artifact)에 과적합(Overfitting)되었음을 시사한다.

Whisper는 이러한 한계를 극복하기 위해 “대규모 약지도 학습(Large-Scale Weak Supervision)“이라는 새로운 패러다임을 제시한다. 680,000시간이라는 전례 없는 규모의 데이터셋을 활용하여 별도의 미세 조정 없이도 제로샷(Zero-shot) 설정에서 다양한 도메인과 언어를 아우르는 강력한 일반화 성능을 입증했다.6 본 장에서는 Whisper 모델이 어떻게 데이터의 양과 다양성을 통해 음성 인식의 일반화를 달성했는지, 그 이면에 있는 데이터 처리 방법론, 모델 아키텍처의 공학적 설계, 그리고 다중 작업 학습 전략을 심층적으로 분석한다.

2. 데이터 중심의 접근: 680,000시간의 약지도 학습 데이터셋

Whisper 프로젝트의 핵심은 정교한 모델 아키텍처보다는 데이터의 규모와 다양성에 있다. 기존의 지도 학습 방식이 고품질의 레이블을 확보하기 위해 막대한 비용과 시간을 투입했던 것과 달리, Whisper는 인터넷상에 존재하는 방대한 양의 오디오와 자막(Transcript) 페어를 활용하는 약지도 학습 방식을 채택했다.

2.1 데이터셋 구성과 규모의 경제

Whisper 모델 학습에는 총 680,000시간 분량의 레이블링된 오디오 데이터가 사용되었다. 이는 기존의 표준 지도 학습 데이터셋인 LibriSpeech(960시간)의 약 708배에 달하는 규모이며, Whisper의 강력한 일반화 능력의 근간이 된다.3 데이터셋의 구성은 다음과 같이 세분화된다.

[표 12.1-1] Whisper 학습 데이터셋의 구성 상세

데이터 유형시간 (Hours)비중 (%)역할 및 특징
영어 전사 (English Transcription)438,00065%다양한 화자, 억양, 배경 소음을 포함한 영어 오디오 데이터. 모델의 영어 인식 견고성을 확보하는 주축.
다국어 전사 (Multilingual Transcription)117,00017%영어를 제외한 98개 언어의 오디오-텍스트 쌍. 다국어 인식 능력의 기초.
음성 번역 (Speech Translation)125,00018%비영어(X) 오디오와 영어(En) 텍스트 쌍 (X \rightarrow En). 모델이 언어 간의 의미적 매핑을 학습하도록 유도.
합계680,000100%

이러한 방대한 데이터는 모델이 특정 화자나 환경에 편향되지 않고 다양한 음향적 변이를 포괄할 수 있도록 한다. 특히 117,000시간의 다국어 데이터와 125,000시간의 번역 데이터가 결합됨으로써, Whisper는 단순한 음성 인식기를 넘어 다국어 번역기로서의 기능까지 수행하게 된다.4 연구진은 데이터의 양이 성능에 미치는 영향을 검증하기 위해 데이터셋의 크기를 0.5%에서 100%까지 변화시키며 모델을 훈련했고, 데이터의 양이 로그 스케일로 증가함에 따라 모델의 성능과 일반화 능력이 선형적으로 향상됨을 확인했다. 이는 약지도 학습에서 “데이터의 양이 질을 압도한다“는 가설을 뒷받침하는 강력한 증거이다.6

2.2 “Transcript-ese” 탈피와 역 텍스트 정규화의 배제

Whisper 데이터셋 구축 철학의 또 다른 핵심은 “자연어 그대로의 학습“이다. 기존 ASR 시스템들은 텍스트를 정규화(Normalization)하여 숫자, 통화 기호, 날짜 등을 풀어서 표기하거나(예: “$50” \rightarrow “fifty dollars”), 구두점을 제거한 텍스트를 학습 데이터로 사용했다. 이러한 정규화는 모델 학습을 용이하게 하지만, 결과적으로 모델이 출력하는 텍스트는 사람이 실제로 읽고 쓰는 언어와는 거리가 먼, 이른바 “Transcript-ese“라는 부자연스러운 형태를 띠게 된다.6

Whisper는 이러한 “Transcript-ese“를 피하고, 복잡한 역 텍스트 정규화(Inverse Text Normalization, ITN) 후처리 과정을 생략하기 위해, 구두점과 대소문자, 숫자 표기가 포함된 원시 텍스트(Raw Text)를 그대로 예측하도록 훈련되었다. 이는 시퀀스-투-시퀀스 모델의 표현력을 신뢰하고, 모델이 음성 신호에서 텍스트의 서식과 문장 부호까지 추론하도록 유도한 것이다.9 그 결과, Whisper의 출력물은 별도의 후처리 없이도 즉시 가독성이 높은 텍스트로 활용될 수 있다.

3. 데이터 정제 및 필터링 파이프라인의 공학적 설계

인터넷에서 수집한 데이터는 필연적으로 노이즈를 포함한다. 특히 기존의 저성능 ASR 시스템이 자동 생성한 자막이 학습 데이터에 혼입될 경우, 모델은 이전 세대의 오류를 답습하게 되어 성능 향상이 제한된다. 따라서 Whisper 연구진은 “수영장의 물을 정화하듯(chlorinated)” 데이터를 필터링하는 정교한 휴리스틱 파이프라인을 구축했다.11

3.1 기계 생성 트랜스크립트 탐지 (Machine-generated Transcript Detection)

기계가 생성한 자막을 걸러내는 것은 데이터 품질 관리의 최우선 과제였다. 연구진은 인간이 작성한 텍스트와 기계가 생성한 텍스트를 구분하기 위해 다음과 같은 휴리스틱을 적용했다.

  • 구두점 및 대소문자 검사: 인간의 전사는 문맥에 맞는 구두점(콤마, 마침표, 물음표 등)과 대소문자 구분을 포함한다. 반면, 많은 ASR 시스템은 모두 소문자이거나 구두점이 없는 텍스트를 출력한다. Whisper 파이프라인은 텍스트에 구두점이나 대소문자 구분이 전혀 없는 샘플을 기계 생성 데이터로 간주하고 과감히 학습에서 제외했다.6
  • 부적절한 텍스트 필터링: 유튜브 자막 등에서 흔히 볼 수 있는 “음악 소리”, “박수 소리“와 같은 비발화 설명이나, 과도한 반복 텍스트 등을 필터링하여 순수한 발화 내용만을 학습하도록 유도했다.14

3.2 언어 식별 및 일관성 검증 (Language Consistency Check)

데이터의 신뢰성을 높이기 위해 오디오의 언어와 자막의 언어가 일치하는지를 검증했다. 이를 위해 VoxLingua107 데이터셋으로 미세 조정된 오디오 언어 감지 모델을 프로토타입으로 사용하여 오디오의 언어를 식별했다.

  1. ASR 데이터 분류: 오디오 언어와 자막 언어가 일치하는 경우(예: 오디오-독일어, 자막-독일어), 이를 음성 인식(ASR) 훈련 데이터로 분류했다.
  2. 번역 데이터 분류: 오디오 언어와 자막 언어가 다르지만, 자막이 영어인 경우(예: 오디오-독일어, 자막-영어), 이를 음성 번역(Speech Translation) 훈련 데이터로 분류하여 활용했다.6
  3. 데이터 폐기: 두 언어가 불일치하고 자막이 영어가 아닌 경우에는 잘못 매핑된 데이터로 간주하여 데이터셋에서 제외했다.

이러한 엄격한 필터링 과정을 통해 Whisper는 680,000시간이라는 방대한 양을 유지하면서도, 약지도 학습의 단점인 “레이블 노이즈(Label Noise)” 문제를 효과적으로 제어할 수 있었다. 이는 단순히 데이터를 많이 모으는 것을 넘어, 데이터의 품질을 관리하는 엔지니어링 역량이 모델 성능에 결정적인 영향을 미침을 시사한다.

4. Whisper 모델 아키텍처의 심층 분석

Whisper 모델은 트랜스포머(Transformer) 기반의 인코더-디코더(Encoder-Decoder) 구조를 따른다. 이는 자연어 처리 분야에서 검증된 시퀀스-투-시퀀스 모델링을 음성 도메인에 적용한 것으로, 입력 오디오를 고정된 차원의 잠재 표현으로 인코딩한 뒤 이를 텍스트 토큰으로 디코딩하는 방식이다. 그러나 오디오 신호의 특성을 반영하기 위해 인코더 앞단에 합성곱(Convolution) 기반의 스템(Stem) 구조를 추가하는 등 세심한 설계가 적용되었다.2

4.1 입력 표현 및 Conv1D 스템 (Audio Encoder Stem)

Whisper는 모든 입력 오디오를 16,000Hz로 리샘플링한다. 이후 25ms 윈도우와 10ms 스트라이드를 사용하여 로그 멜 스펙트로그램(Log-Mel Spectrogram)을 계산한다. 초기의 Large-v1, v2 모델은 80개의 멜 주파수 빈(Mel bins)을 사용했으나, Large-v3 모델부터는 이를 128개로 확장하여 음향적 해상도를 높였다.1 입력값은 전역적으로 -1에서 1 사이의 값으로 스케일링되어 정규화된다.

트랜스포머 인코더에 입력되기 전, 스펙트로그램은 “스템(Stem)“이라 불리는 두 개의 1D 합성곱 레이어를 통과한다. 이 과정은 다음과 같은 구체적인 파라미터로 구성된다.4

  1. 첫 번째 Conv1D: 커널 크기(Kernel Size) 3, 스트라이드(Stride) 1, 패딩(Padding) 1을 사용하여 입력 신호의 국소적인 특징을 추출한다. 활성화 함수로는 GELU(Gaussian Error Linear Unit)가 사용된다.
  2. 두 번째 Conv1D: 커널 크기 3, 스트라이드 2, 패딩 1을 사용한다. 여기서 스트라이드 2 설정이 매우 중요하다. 이는 시간 축(Time Dimension)의 길이를 절반으로 다운샘플링(Downsampling)하는 역할을 한다.

결과적으로 10ms 단위의 멜 스펙트로그램 프레임은 이 스템을 통과하며 20ms 단위의 특징 벡터로 압축된다. 예를 들어, 30초 길이의 오디오는 3,000 프레임의 멜 스펙트로그램으로 변환되지만, 인코더에 입력될 때는 1,500개의 시퀀스 길이를 갖게 된다. 이는 트랜스포머의 연산 복잡도(O(N^2))를 고려할 때 계산 효율성을 크게 높이는 설계이다.17 합성곱 레이어 이후에는 사인파 위치 임베딩(Sinusoidal Positional Embedding)이 더해져 오디오의 시간적 순서 정보를 보존한다.

4.2 인코더-디코더 트랜스포머의 구성

트랜스포머 블록은 프리-액티베이션(Pre-activation) 잔차 연결(Residual Block)과 레이어 정규화(Layer Normalization)를 채택하여 학습의 안정성을 높였다. 모델의 크기에 따라 레이어 수와 임베딩 차원이 달라지며, 이는 모델의 용량(Capacity)과 추론 속도 사이의 트레이드오프를 결정한다.6

[표 12.1-2] Whisper 모델 크기별 아키텍처 사양

모델명파라미터 수레이어 수 (Enc/Dec)d_modelAttention Heads비고
Tiny39 M4 / 43846엣지 디바이스용 초경량 모델
Base74 M6 / 65128
Small244 M12 / 1276812
Medium769 M24 / 24102416
Large (v1/v2/v3)1550 M32 / 32128020최고의 정확도, 대규모 모델
Large-v3 Turbo809 M32 / 4128020디코더 경량화로 속도 개선

인코더는 셀프 어텐션(Self-Attention)을 통해 오디오 전체의 문맥을 파악하고, 디코더는 크로스 어텐션(Cross-Attention)을 통해 인코더의 출력을 참조하며 텍스트를 생성한다. 디코더는 자기회귀(Autoregressive) 방식으로 동작하며, 이전에 생성된 토큰들을 바탕으로 다음 토큰을 예측한다.

5. 다중 작업 학습(Multitask Learning)과 토큰 메커니즘

Whisper가 단일 모델로 음성 인식, 번역, 언어 식별, 음성 구간 탐지(VAD) 등 다양한 작업을 수행할 수 있는 비결은 입력 시퀀스의 시작 부분에 배치되는 특수 토큰(Special Tokens)을 활용한 다중 작업 포맷에 있다. 모델은 디코더의 첫 입력으로 주어지는 토큰 조합에 따라 수행해야 할 작업을 인지하고 모드를 전환한다.2

5.1 작업 제어 토큰 시퀀스

Whisper의 입력 포맷은 다음과 같은 구조를 따른다:

[<|startoftranscript|>, <|language|>, <|task|>, <|timestamps|>]

  1. <|startoftranscript|>: 전사의 시작을 알리는 필수 토큰이다.
  2. <|language|> (예: <|en|>, <|ko|>): 발화된 언어를 지정한다. 만약 이 토큰이 주어지지 않으면, 모델은 첫 번째 출력으로 언어 ID 토큰을 예측함으로써 언어 식별(Language Identification) 작업을 수행한다. 학습 데이터의 99개 언어 각각에 대한 고유 토큰이 존재한다.22
  3. <|task|> (<|transcribe|> vs <|translate|>): 수행할 작업을 명시한다. <|transcribe|>는 오디오 언어 그대로 받아쓰기를, <|translate|>는 해당 오디오를 영어로 번역하여 텍스트를 생성하도록 지시한다. 이를 통해 별도의 번역 모델 없이도 음성 번역이 가능하다.
  4. <|notimestamps|> vs Time Tokens: 타임스탬프 예측 여부를 제어한다. <|notimestamps|>가 입력되면 텍스트만 출력하고, 그렇지 않으면 텍스트와 함께 발화의 시간 정보를 포함한 토큰을 생성한다.21

5.2 타임스탬프 예측과 0.02초의 해상도

Whisper는 발화의 텍스트뿐만 아니라 정확한 시간 정보를 예측할 수 있다. 이를 위해 어휘 집합(Vocabulary)에 시간 정보를 나타내는 특수 토큰들을 추가했다. 0초부터 30초까지의 시간을 0.02초(20ms) 단위로 양자화(Quantization)하여, <|0.00|>부터 <|30.00|>까지 약 1,500개의 타임스탬프 토큰을 정의했다.17

이 1,500개의 토큰 수는 인코더 스템을 통과한 오디오 특징 벡터의 시퀀스 길이와 일치한다. 디코더는 텍스트 토큰 사이사이에 시작 시간 토큰과 종료 시간 토큰을 삽입하여 출력한다 (예: <|0.00|> Hello world <|1.50|>). 이러한 메커니즘은 모델이 음성 신호와 텍스트 간의 정밀한 정렬(Alignment)을 학습하게 하며, 자막 생성이나 화자 분리와 같은 응용 작업에 필수적인 정보를 제공한다.20

6. 제로샷 성능과 유효 견고성(Effective Robustness) 평가

Whisper 논문의 핵심 주장은 “약지도 학습으로 훈련된 모델이 특정 데이터셋에 과적합된 지도 학습 모델보다 훨씬 견고하다(Robust)“는 것이다. 이를 입증하기 위해 연구진은 표준 벤치마크 데이터셋에 대한 미세 조정 없이(Zero-shot) Whisper의 성능을 기존 SOTA 모델인 Wav2Vec 2.0과 비교 분석했다.

6.1 Wav2Vec 2.0과의 비교: 과적합 vs 일반화

Wav2Vec 2.0은 LibriSpeech와 같은 특정 데이터셋으로 미세 조정될 경우, 해당 데이터셋의 ‘Test-clean’ 분할에서 매우 낮은 단어 오류율(WER)을 기록한다. 그러나 학습 데이터 분포에서 벗어난(Out-of-distribution) 데이터셋에서는 성능이 급격히 저하된다. 반면 Whisper는 다양한 데이터셋에서 일관되게 우수한 성능을 보인다.6

[표 12.1-3] Whisper Large-v2(Zero-shot)와 Wav2Vec 2.0(Fine-tuned)의 WER 비교

데이터셋Wav2Vec 2.0 (WER %)Whisper Large-v2 (WER %)분석 및 시사점
LibriSpeech Clean1.8 ~ 2.72.5 ~ 2.7학습 데이터와 유사한 통제된 환경에서는 지도 학습 모델이 소폭 우세하거나 대등함.
LibriSpeech Other3.3 ~ 4.05.2 ~ 6.2소음이 섞인 환경에서도 데이터셋 특화 모델이 유리함.
Common Voice16.1 ~ 29.99.0다양한 화자와 환경이 섞인 크라우드 소싱 데이터에서 Whisper가 압도적 우위.
Fleurs (En)14.64.4다국어 및 다양한 억양 데이터에서 Whisper의 일반화 성능이 드러남.
Kincaid / CallHome34.8 (CallHome)17.6전화 대화와 같은 저음질 실제 환경 데이터에서 Whisper가 2배 이상 우수한 성능.
Artie24.56.2실제 대화체 및 자연스러운 발화 환경에서 Whisper의 강점이 극대화됨.

위 표에서 알 수 있듯이, Wav2Vec 2.0은 LibriSpeech 이외의 데이터셋(Common Voice, Artie 등)에서 오류율이 2배에서 5배까지 치솟는 극심한 성능 저하를 겪는다. 반면 Whisper는 모든 데이터셋에서 안정적인 성능을 유지하며, 특히 실제 환경(Real-world) 데이터에서 경쟁 모델을 압도한다.6 이는 Whisper가 특정 데이터셋의 특성을 암기한 것이 아니라, 음성을 텍스트로 변환하는 보편적인 규칙을 학습했음을 방증한다.

6.2 유효 견고성(Effective Robustness)의 개념

OpenAI는 이러한 현상을 설명하기 위해 Taori et al.(2020)이 제안한 “유효 견고성(Effective Robustness)” 개념을 적용했다. 이는 모델이 이상적인 분포(In-distribution)에서 보여주는 성능과 분포 외(Out-of-distribution) 데이터에서 보여주는 성능 간의 관계를 측정한다. 연구 결과, Whisper 모델들은 기존의 지도 학습 모델들이 형성하는 추세선보다 훨씬 상위에 위치하며 높은 유효 견고성을 보였다. 이는 Whisper가 동일한 LibriSpeech 성능을 가진 다른 모델들에 비해, 새로운 데이터셋이나 환경에서도 훨씬 더 잘 작동함을 의미한다.6 즉, Whisper의 제로샷 성능은 단순한 우연이 아니라 방대한 데이터 다양성에서 비롯된 구조적인 견고함이다.

7. 모델의 진화와 경량화 전략: Large-v1에서 Turbo까지

Whisper 모델은 발표 이후 지속적인 업데이트를 거치며 성능과 효율성을 동시에 개선해 왔다. 각 버전의 변화는 대규모 약지도 학습 모델의 발전 방향을 보여주는 중요한 기술적 지표이다.

7.1 Large-v1에서 Large-v3로의 도약

초기 Large-v1 모델 이후 공개된 Large-v2는 동일한 아키텍처에 SpecAugment, Stochastic Depth, BPE Dropout 등의 정규화 기법을 적용하고 학습 에포크를 2.5배 늘려 성능을 개선했다.15 이어 2023년 공개된 Large-v3는 더욱 급진적인 변화를 도입했다.

  • 입력 해상도 확장: 멜 주파수 빈을 기존 80개에서 128개로 확장하여, 음성 신호의 세밀한 주파수 정보를 모델이 학습할 수 있도록 했다.1
  • 의사 라벨링(Pseudo-labeling) 데이터 활용: 기존의 약지도 데이터 100만 시간에 더해, Large-v2 모델로 생성한 400만 시간 분량의 의사 라벨 데이터를 혼합하여 총 500만 시간 이상의 데이터로 학습했다. 이는 자기 학습(Self-training)의 효과를 극대화한 전략이다.
  • 언어 확장: 광둥어(Cantonese)와 같은 새로운 언어 토큰을 추가하고, 전반적인 오류율을 10~20% 감소시켰다.1

7.2 Large-v3 Turbo: 디코더 경량화의 혁신

2024년 9월, OpenAI는 추론 속도와 효율성에 최적화된 Large-v3 Turbo 모델을 공개했다. 이 모델은 기존의 ’모델이 클수록 좋다’는 통념을 깨고, 과감한 아키텍처 다이어트를 감행했다.26

  • 디코더 프루닝(Pruning): 인코더 레이어는 32개로 유지하여 음향 특징 추출 능력은 보존하되, 디코더 레이어 수를 32개에서 4개로 대폭 줄였다. 이는 가장 작은 모델인 Tiny와 동일한 디코더 깊이이다.
  • 학습 전략: Distil-Whisper와 같이 교사 모델(Teacher Model)의 지식을 증류(Distillation)하는 방식 대신, 줄어든 레이어 구조에서 기존 데이터셋으로 2 에포크 동안 추가 미세 조정(Fine-tuning)하는 방식을 택했다. 단, 번역 데이터는 제외되었다.
  • 성능과 속도의 트레이드오프: 디코더가 얇아지면서 추론 속도는 Large-v3 대비 약 6배에서 8배 빨라졌다(Groq 인프라 기준 216x Real-time factor).29 번역 성능은 다소 하락했으나, ASR 성능(WER)은 Large-v2와 유사하거나 일부 데이터셋에서는 더 우수한 결과를 보여주었다.

Turbo 모델의 성공은 음성 인식 작업에서 인코더의 역할(음향 정보의 문맥화)이 디코더의 역할(언어 모델링)보다 상대적으로 더 중요할 수 있으며, 강력한 인코더가 있다면 얇은 디코더로도 충분히 고품질의 텍스트 생성이 가능함을 시사한다.27

8. 한계점, 파급 효과 및 향후 연구 방향

Whisper의 등장은 음성 인식 기술의 민주화를 가속화했으나, 여전히 해결해야 할 과제들이 남아있다.

첫째, 환각 현상(Hallucination) 문제이다. 시퀀스-투-시퀀스 모델의 특성상, 오디오에 긴 침묵이 있거나 배경 음악만 흐르는 구간에서 모델이 존재하지 않는 텍스트를 생성하거나 특정 문구를 무한히 반복하는 현상이 발생한다.31 이를 완화하기 위해 온도(Temperature) 스케일링이나 이전 토큰 조건화(Condition on previous tokens)와 같은 디코딩 휴리스틱이 적용되지만, 근본적인 해결책은 아니다.1

둘째, 저자원 언어의 토큰화 비효율성이다. Whisper의 토크나이저는 GPT-2 기반의 영어 중심 BPE를 사용하므로, 한국어를 포함한 비영어권 언어는 바이트 단위로 파편화되어 토큰 길이가 불필요하게 길어지는 문제가 있다. 이는 추론 속도 저하와 문맥 학습의 비효율을 초래한다.32

셋째, 실시간 처리의 자원 요구량이다. Large 모델은 높은 정확도를 제공하지만, 상당한 VRAM과 연산 능력을 요구하여 온디바이스(On-device) AI나 지연 시간에 민감한 실시간 애플리케이션에 적용하기에는 제약이 있었다. Turbo 모델이 이를 일부 해소했지만, 여전히 경량화에 대한 연구가 지속적으로 필요하다.30

결론적으로 Whisper 프로젝트는 “약지도 학습을 통한 대규모 데이터의 활용“이 음성 인식 시스템의 일반화를 달성하는 가장 강력한 도구임을 입증했다. 정제된 소량의 데이터보다 노이즈가 섞인 대량의 데이터가 다양성 측면에서 우월하다는 Whisper의 교훈은 향후 ASR 연구가 모델 아키텍처의 복잡성을 높이는 방향보다는, 데이터 파이프라인을 고도화하고 효율적인 학습 전략을 수립하는 방향으로 나아가야 함을 시사한다. Whisper는 단순한 모델을 넘어, 인공지능이 인간의 언어를 이해하는 방식에 대한 근본적인 통찰을 제공하는 파운데이션 모델(Foundation Model)로서 그 가치를 증명하고 있다.

9. 참고 자료

  1. openai/whisper-large-v3 - Hugging Face, https://huggingface.co/openai/whisper-large-v3
  2. openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision - GitHub, https://github.com/openai/whisper
  3. openai/whisper-small - Hugging Face, https://huggingface.co/openai/whisper-small
  4. Whisper — Robust Speech Recognition via Large-Scale Weak Supervision - Isaac Kargar, https://kargarisaac.medium.com/whisper-robust-speech-recognition-via-large-scale-weak-supervision-4081fa089ff7
  5. Novel Speech Recognition Systems Applied to Forensics within Child Exploitation: Wav2vec2.0 vs. Whisper - Preprints.org, https://www.preprints.org/manuscript/202212.0426/v1/download
  6. Robust Speech Recognition via Large-Scale Weak Supervision - OpenAI, https://cdn.openai.com/papers/whisper.pdf
  7. [2212.04356] Robust Speech Recognition via Large-Scale Weak Supervision - arXiv, https://arxiv.org/abs/2212.04356
  8. Whisper Openai | PDF | Speech Recognition | Robust Statistics - Scribd, https://www.scribd.com/document/600381237/598985324-Whisper-Openai
  9. [2212.04356] Robust Speech Recognition via Large-Scale Weak Supervision - ar5iv, https://ar5iv.labs.arxiv.org/html/2212.04356
  10. arXiv:2212.04356v1 [eess.AS] 6 Dec 2022, https://arxiv.org/pdf/2212.04356
  11. Whisper (speech recognition system) - Wikipedia, https://en.wikipedia.org/wiki/Whisper_(speech_recognition_system)
  12. OpenAI Whisper for developers: Choosing between API, local, or server-side transcription, https://www.assemblyai.com/blog/openai-whisper-developers-choosing-api-local-server-side-transcription
  13. Generative Modelling is Still Accelerating - Sorta Insightful, https://www.alexirpan.com/2022/10/01/generative-modeling.html
  14. Efficient Ensemble of Deep Neural Networks for Multimodal Punctuation Restoration and the Spontaneous Informal Speech Dataset - MDPI, https://www.mdpi.com/2079-9292/14/5/973
  15. Review — OpenAI Whisper: Robust Speech Recognition via Large-Scale Weak Supervision, https://sh-tsang.medium.com/review-openai-whisper-robust-speech-recognition-via-large-scale-weak-supervision-f7b9bb646356
  16. Many but not all deep neural network audio models capture brain responses and exhibit correspondence between model stages and br - bioRxiv, https://www.biorxiv.org/content/10.1101/2022.09.06.506680v4.full.pdf
  17. Understanding Whisper’s Encoder–Decoder Transformer Architecture | by Mayank Bambal, https://medium.com/@mayankbambal/understanding-whispers-encoder-decoder-transformer-architecture-6d1beea51569
  18. whisper/whisper/audio.py at main · openai/whisper - GitHub, https://github.com/openai/whisper/blob/main/whisper/audio.py
  19. whisper/model-card.md at main · openai/whisper - GitHub, https://github.com/openai/whisper/blob/main/model-card.md
  20. tokenizer.py - openai/whisper - GitHub, https://github.com/openai/whisper/blob/main/whisper/tokenizer.py
  21. Whisper - Hugging Face, https://huggingface.co/docs/transformers/model_doc/whisper
  22. Whisper: Functionality and Finetuning | by Okezie Okoye - Medium, https://medium.com/@okezieowen/whisper-functionality-and-finetuning-ba7f9444f55a
  23. transformers/src/transformers/models/whisper/tokenization_whisper.py at main - GitHub, https://github.com/huggingface/transformers/blob/main/src/transformers/models/whisper/tokenization_whisper.py
  24. linto-ai/whisper-timestamped: Multilingual Automatic Speech Recognition with word-level timestamps and confidence - GitHub, https://github.com/linto-ai/whisper-timestamped
  25. A Deep Dive into OpenAI Whisper’s Technology - Vatis Tech, https://vatis.tech/blog/a-deep-dive-into-openai-whispers-technology
  26. openai/whisper-large-v3-turbo - Hugging Face, https://huggingface.co/openai/whisper-large-v3-turbo
  27. turbo model release · openai whisper · Discussion #2363 - GitHub, https://github.com/openai/whisper/discussions/2363
  28. Whisper Large V3 Turbo: High-Accuracy and Fast Speech Recognition Model - Medium, https://medium.com/axinc-ai/whisper-large-v3-turbo-high-accuracy-and-fast-speech-recognition-model-be2f6af77bdc
  29. Whisper Large v3 Turbo – Fast Speech Recognition Now on Groq, https://groq.com/blog/whisper-large-v3-turbo-now-available-on-groq-combining-speed-quality-for-speech-recognition
  30. Best open source speech-to-text (STT) model in 2025 (with benchmarks) | Blog - Northflank, https://northflank.com/blog/best-open-source-speech-to-text-stt-model-in-2025-benchmarks
  31. Comparative Review of Speech-to-Text APIs (2025) : r/speechtech - Reddit, https://www.reddit.com/r/speechtech/comments/1m1l0zu/comparative_review_of_speechtotext_apis_2025/
  32. Probing Whisper’s Sub‑token Decoder Across Diverse Language Resource Levels - arXiv, https://arxiv.org/html/2509.25516v1