Contrastive Language-Image Pre-training (CLIP, 다중모달 융합의 초석)

1. 시각적 인식의 새로운 패러다임

1.1 A. 기존 지도 학습 기반 컴퓨터 비전의 한계점 분석

현대의 컴퓨터 비전 시스템은 대부분 ImageNet과 같은 대규모의, 인간이 직접 레이블링한 데이터셋을 기반으로 한 지도 학습(supervised learning) 패러다임 위에서 발전해왔다. 이러한 접근법은 특정 이미지 분류 작업에서 인간을 뛰어넘는 성능을 달성하는 등 괄목할 만한 성공을 거두었으나, 동시에 몇 가지 근본적인 한계점을 내포하고 있었다.

첫 번째 문제는 데이터셋 구축에 수반되는 막대한 비용과 노동력이다. 고품질의 지도 학습용 데이터셋을 만들기 위해서는 수백만 장의 이미지에 대해 인간이 직접 정교한 레이블을 부착하는 과정이 필수적이다. 이 과정은 상당한 시간과 재정적 자원을 소모할 뿐만 아니라, 지속적인 데이터 관리와 업데이트를 요구하여 확장성에 제약을 가한다. 결과적으로, 모델이 학습할 수 있는 시각적 개념의 범위는 데이터셋 구축에 투입된 자원의 한계를 넘어서기 어려웠다.1

두 번째 문제는 모델의 제한된 일반성과 유연성이다. 지도 학습 모델은 훈련 데이터셋에 미리 정의된 고정된 수의 객체 카테고리(a fixed set of predetermined object categories)를 예측하도록 설계된다. 예를 들어, 1000개의 클래스로 구성된 ImageNet으로 훈련된 모델은 해당 1000개의 클래스 외의 새로운 시각적 개념을 인식할 수 없다. 새로운 개념을 학습시키기 위해서는 해당 개념에 대한 레이블링된 데이터를 추가로 수집하고, 모델을 다시 미세조정(fine-tuning)하거나 재훈련해야만 했다. 이러한 경직성은 실제 세계의 무한하고 동적인 시각적 다양성에 대응하기에는 역부족이었으며, 모델의 실용적 적용 범위를 심각하게 제한하는 요인으로 작용했다.

1.2 B. 자연어 감독(Natural Language Supervision)을 통한 학습의 부상

이러한 기존 지도 학습의 한계를 극복하기 위한 대안으로, 자연어 감독(Natural Language Supervision)이라는 새로운 패러다임이 주목받기 시작했다. 이 접근법의 핵심 아이디어는 인터넷상에 자연스럽게 존재하는 방대한 양의 이미지와 그에 연관된 텍스트(예: 캡션, 제목, 설명글)를 직접적인 학습 데이터로 활용하는 것이다. 레이블링된 데이터셋에 의존하는 대신, 이미 존재하는 비정형 텍스트 데이터를 감독(supervision)의 원천으로 삼음으로써, 훨씬 더 광범위하고 다양한 시각적 개념을 학습할 수 있는 잠재력을 열었다.

자연어를 유연한 예측 공간으로 사용하여, 훈련 데이터에서 보지 못한 새로운 객체 카테고리로 일반화하려는 시도는 이미 2010년대 초반부터 존재했다.1 그러나 초기 연구들은 개념적 가능성을 제시하는 수준에 머물렀으며, 실제 벤치마크에서의 성능은 기존 지도 학습 모델에 크게 미치지 못했다. 이미지와 텍스트를 연관 짓는 학습 방식이 비효율적이었고, 대규모 데이터셋을 효과적으로 처리할 계산적, 방법론적 토대가 부족했기 때문이다.

1.3 C. CLIP의 등장 배경 및 핵심 철학

이러한 배경 속에서 2021년 1월, OpenAI는 자연어 감독을 전례 없는 규모와 효율성으로 구현한 Contrastive Language-Image Pre-training (CLIP) 모델을 발표하며 컴퓨터 비전 연구의 새로운 장을 열었다. CLIP의 등장은 단순히 더 많은 데이터를 사용한 것을 넘어, 학습 방법론 자체의 근본적인 전환을 의미했다.

CLIP의 핵심 철학은 매우 단순하면서도 강력한 하나의 목표에 기반한다: “주어진 이미지와 텍스트 묶음 중에서, 어떤 캡션이 어떤 이미지와 실제로 짝을 이루는지 예측하라”. OpenAI는 이 간단한 사전 훈련 과제를 인터넷에서 수집한 4억 개의 (이미지, 텍스트) 쌍으로 구성된 방대한 데이터셋에 적용했다. 이 과제를 성공적으로 수행하기 위해, 모델은 이미지에 나타난 수많은 시각적 개념(객체, 장면, 속성, 행동 등)을 깊이 있게 이해하고, 이를 자연어 텍스트로 표현된 의미와 정확하게 연결하는 능력을 스스로 학습해야만 했다.

이러한 학습 방식의 가장 중요한 결과는 특정 작업에 대한 직접적인 최적화 없이도 거의 모든 종류의 시각적 분류 작업에 즉시 적용할 수 있는 ‘제로샷(zero-shot)’ 일반화 능력의 획득이었다. 이는 기존 모델들이 특정 데이터셋에 과적합(overfitting)되어 실제 환경에서는 성능이 저하되는 ‘견고성 격차(robustness gap)’ 문제를 해결하는 중요한 실마리를 제공했다.1

CLIP의 성공을 가능하게 한 결정적인 요인은 단순히 데이터의 규모가 아니었다. 그것은 대규모 학습을 계산적으로 실현 가능하게 만든 알고리즘적 혁신에 있었다. OpenAI는 초기에 이미지로부터 텍스트를 생성하는 생성 모델(generative model) 접근법을 시도했으나, 이 방식은 훈련 효율성이 낮아 대규모로 확장하는 데 어려움을 겪었다. 결정적인 돌파구는 ‘대조 학습(contrastive learning)’ 목표를 채택하면서 마련되었다. 이 대조적 목표는 생성 모델 방식에 비해 제로샷 ImageNet 분류 작업에서 4배에서 10배 더 높은 훈련 효율성을 보였다. 여기에 더해, 이미지 인코더로 기존의 ResNet 대신 Vision Transformer (ViT)를 채택함으로써 3배의 추가적인 효율성 향상을 이루었다. 결국, 대조 학습이라는 효율적인 알고리즘적 선택이 웹 스케일의 방대한 자연어 감독 데이터의 잠재력을 마침내 폭발시킨 기폭제가 된 것이다.

2. CLIP의 구조와 작동 원리

CLIP의 핵심은 이미지와 텍스트라는 서로 다른 두 양식(modality)의 정보를 효과적으로 처리하고, 이들을 의미적으로 비교 가능한 공통의 공간으로 매핑하는 데 있다. 이를 위해 CLIP은 ‘이중 인코더(Dual-Encoder)’ 아키텍처를 채택했다.

2.1 A. 이중 인코더 아키텍처

이중 인코더 구조는 각각 이미지와 텍스트를 독립적으로 처리하는 두 개의 신경망으로 구성된다. 이 두 인코더는 서로 다른 데이터를 입력받지만, 훈련 과정을 통해 상호 보완적으로 학습된다.

2.1.1 이미지 인코더 (Image Encoder)

이미지 인코더의 역할은 입력된 이미지의 픽셀 데이터로부터 핵심적인 시각적 특징(salient visual features)을 추출하여 고차원의 벡터 표현, 즉 임베딩(embedding)을 생성하는 것이다. CLIP에서는 두 가지 종류의 아키텍처가 주로 실험되고 사용되었다.

ResNet-50 변형: 컴퓨터 비전 분야에서 표준적으로 사용되던 합성곱 신경망(CNN)인 ResNet-50 아키텍처를 수정하여 사용했다. 이는 기존의 검증된 구조를 활용하여 안정적인 특징 추출을 목표로 한다.
Vision Transformer (ViT): 자연어 처리 분야에서 혁명을 일으킨 Transformer 아키텍처를 이미지 도메인에 적용한 모델이다. ViT는 이미지를 여러 개의 작은 패치(patch)로 분할하고, 각 패치를 하나의 토큰처럼 취급하여 시퀀스로 만든 뒤 Transformer 인코더에 입력한다. OpenAI의 연구에 따르면, ViT 기반의 이미지 인코더는 동일한 성능을 달성하는 데 있어 ResNet 기반 모델보다 훈련 효율성이 약 3배 더 높았다. 이는 대규모 데이터셋을 처리해야 하는 CLIP의 훈련 과정에서 매우 중요한 이점으로 작용했다.

2.1.2 텍스트 인코더 (Text Encoder)

텍스트 인코더는 자연어 텍스트 입력(예: “a photo of a dog”)의 의미론적 내용을 포착하여 이미지 임베딩과 동일한 차원의 벡터 표현으로 인코딩하는 역할을 한다. 이를 위해 표준적인 Transformer 아키텍처가 사용되었다. 입력된 텍스트는 먼저 더 작은 단위인 토큰(token)으로 분할되고, 각 토큰은 임베딩 벡터로 변환된다. 이 임베딩 시퀀스는 여러 개의 Transformer 레이어를 통과하며 문맥적 의미가 풍부하게 반영된 최종 텍스트 임베딩으로 변환된다.

2.2 B. 다중모달 임베딩 공간

CLIP의 진정한 마법은 두 인코더가 생성한 각각의 임베딩을 하나의 공유된 ’다중모달 임베딩 공간(Multimodal Embedding Space)’으로 매핑하는 과정에서 일어난다.

이미지 인코더와 텍스트 인코더는 각각 고유한 특징 공간에서 벡터를 생성하지만, 이 벡터들은 학습 가능한 선형 투영(linear projection) 행렬을 통해 동일한 차원(de)을 갖는 공유 공간으로 변환된다. 이 공간은 CLIP의 학습 목표에 따라 특정한 기하학적 구조를 갖도록 설계된다. 즉, 의미적으로 유사한 이미지와 텍스트 쌍(예: 개 사진과 “a photo of a dog” 텍스트)의 임베딩 벡터는 이 공간상에서 서로 가까운 위치에 자리 잡게 되고, 반대로 의미적으로 관련이 없는 쌍(예: 개 사진과 “a photo of a cat” 텍스트)의 벡터는 서로 멀리 떨어지도록 배치된다.

이러한 공간적 배치를 효과적으로 학습하기 위해 중요한 전처리 단계가 포함되는데, 바로 L2 정규화(L2 Normalization)이다. 각 인코더에서 출력된 특징 벡터는 공유 공간으로 투영된 후, 벡터의 크기(magnitude)가 1이 되도록 정규화된다. 이 과정을 통해 모든 임베딩 벡터는 단위 초구(unit hypersphere) 상에 위치하게 된다. 이렇게 하면 두 벡터 간의 유사도를 측정할 때 벡터의 크기는 무시하고 오직 방향, 즉 두 벡터가 이루는 각도만을 고려하게 된다. 수학적으로 이는 두 벡터 간의 코사인 유사도(cosine similarity) 계산이 정규화된 벡터들의 단순 내적(dot product) 계산과 동일해지는 효과를 가져와 계산 효율성을 높인다. 이 공유 임베딩 공간의 존재 덕분에, 서로 다른 양식의 데이터인 이미지와 텍스트를 직접적으로 비교하고 그 의미적 유사성을 정량화하는 것이 가능해진다.

아래 표는 OpenAI가 발표한 주요 CLIP 모델 변형들의 아키텍처 구성을 요약한 것이다.

모델명	이미지 인코더 백본	텍스트 인코더 레이어 수	임베딩 차원	파라미터 수
RN50x64	Modified ResNet-50 (64x width)	-	1024	304M (Image), 97M (Text)
ViT-B/32	Vision Transformer (Base, 32x32 patch)	12	512	86M (Image), 63M (Text)
ViT-L/14	Vision Transformer (Large, 14x14 patch)	12	768	304M (Image), 123M (Text)

표 1: CLIP 모델 아키텍처 요약. 모델명, 이미지 인코더, 텍스트 인코더, 임베딩 차원, 파라미터 수를 포함하여 다양한 모델 변형을 비교한다. 이 정보는 모델의 복잡성과 용량을 이해하는 데 중요한 기준을 제공한다.

3. 대조 학습 (Contrastive Learning) 기반 훈련 방법론

CLIP의 핵심적인 학습 메커니즘은 ’대조 학습(Contrastive Learning)’에 기반한다. 이는 명시적인 레이블 없이 데이터 자체의 구조로부터 학습 신호를 생성하는 자기 지도 학습(self-supervised learning)의 한 갈래로, 유사한 샘플은 가깝게, 다른 샘플은 멀게 만드는 방식으로 표현(representation)을 학습한다.

3.1 A. 대조적 사전 훈련 (Contrastive Pre-training)의 목표

CLIP의 사전 훈련 과정은 대규모의 (이미지, 텍스트) 쌍 데이터셋을 활용하여 진행된다. 이 과정의 목표는 이미지 인코더와 텍스트 인코더가 의미적으로 일관된 표현을 생성하도록 만드는 것이다.

훈련은 미니배치(mini-batch) 단위로 이루어진다. 크기가 N인 하나의 미니배치에는 N개의 이미지와 각각에 대응하는 N개의 텍스트 캡션이 포함되어 있다. 이 N개의 (이미지, 텍스트) 쌍은 ’긍정적 쌍(Positive Pairs)’으로 정의된다. 즉, 이들은 실제로 서로 짝이 맞는 관계이다.

대조 학습의 핵심은 이 긍정적 쌍뿐만 아니라, ’부정적 쌍(Negative Pairs)’을 효과적으로 활용하는 데 있다. 미니배치 내의 한 이미지에 대해, 그 이미지와 짝이 맞는 텍스트를 제외한 나머지 N−1개의 텍스트는 모두 부정적 쌍을 구성한다. 마찬가지로, 한 텍스트에 대해서도 짝이 맞는 이미지를 제외한 나머지 N−1개의 이미지가 부정적 쌍이 된다. 결과적으로, N개의 이미지와 N개의 텍스트가 주어졌을 때, 모델은 총 N×N개의 가능한 모든 조합을 고려하게 된다. 이 N2개의 조합 중에서 대각선에 해당하는 N개의 쌍만이 긍정적 쌍이며, 나머지 N2−N개의 쌍은 모두 부정적 쌍이다.

따라서 CLIP의 훈련 목표는 명확하다: 다중모달 임베딩 공간 내에서 N개의 긍정적 쌍에 대한 유사도 점수(코사인 유사도)를 최대화하고, 동시에 N2−N개의 방대한 부정적 쌍에 대한 유사도 점수를 최소화하는 것이다. 이 과정을 통해 모델은 단순히 개별 이미지나 텍스트를 이해하는 것을 넘어, 두 양식 간의 미묘한 의미적 관계를 학습하게 된다.

3.2 B. InfoNCE 손실 함수 심층 분석

이러한 대조적 목표를 수학적으로 구현하기 위해 CLIP은 InfoNCE (Information Noise Contrastive Estimation) 손실 함수를 사용한다. InfoNCE는 본질적으로 다중 클래스 분류 문제의 손실 함수인 교차 엔트로피(Cross-Entropy)와 유사한 형태를 띤다.

먼저, 임베딩 공간에서 두 벡터 A와 B 사이의 유사도는 코사인 유사도(Cosine Similarity)를 통해 측정된다. 코사인 유사도는 두 벡터 사이의 각도(θ)의 코사인 값으로, 두 벡터의 방향이 얼마나 유사한지를 나타낸다. 값의 범위는 -1(완전 반대 방향)부터 1(완전 동일 방향)까지이며, 0은 두 벡터가 직교함을 의미한다. 수식은 다음과 같다.
$\text{Cosine Similarity}(A, B) = \frac{A \cdot B}{\|A\|\|B\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}$
N개의 이미지 임베딩 ${i_1, i_2,..., i_N}$ 과 N개의 텍스트 임베딩 ${t_1, t_2,..., t_N}$ 이 주어졌을 때, i-번째 이미지에 대한 InfoNCE 손실 $L_{i}$ 는 다음과 같이 정의된다. 이는 i-번째 이미지가 N개의 텍스트 중에서 자신의 짝인 ti를 올바르게 분류할 확률을 최대화하는 것과 같다.
$L_{i}^{\text{image}} = -\log \frac{\exp(\text{sim}(i_i, t_i) / \tau)}{\sum_{j=1}^{N} \exp(\text{sim}(i_i, t_j) / \tau)}$
여기서 $\text{sim}(i_i, t_j)$ 는 이미지 ii와 텍스트 tj의 임베딩 간 코사인 유사도를 의미한다. τ는 학습 가능한 온도(temperature) 하이퍼파라미터로, 유사도 점수 분포의 집중도를 조절하는 역할을 한다. τ가 작을수록 모델은 어려운 부정적 샘플에 더 집중하게 된다.

CLIP의 손실 함수는 대칭적(symmetric)이다. 즉, 이미지 관점에서의 손실뿐만 아니라 텍스트 관점에서의 손실도 함께 계산하여 최적화한다. j-번째 텍스트에 대한 손실 $L_{j}^{\text{text}}$ 는 다음과 같다.
$L_{j}^{\text{text}} = -\log \frac{\exp(\text{sim}(i_j, t_j) / \tau)}{\sum_{k=1}^{N} \exp(\text{sim}(i_k, t_j) / \tau)}$
최종적으로 전체 미니배치에 대한 총 손실 $\mathcal{L}$ 은 모든 이미지 기반 손실과 텍스트 기반 손실의 평균으로 계산된다.
$\mathcal{L} = \frac{1}{2} \left( \frac{1}{N} \sum_{i=1}^{N} L_{i}^{\text{image}} + \frac{1}{N} \sum_{j=1}^{N} L_{j}^{\text{text}} \right)$
이 대칭적 손실 함수를 통해 이미지 인코더와 텍스트 인코더는 양방향으로 서로의 표현을 학습하며, 더욱 견고하고 의미적으로 풍부한 다중모달 임베딩 공간을 구축하게 된다.

3.3 C. 훈련 알고리즘 의사 코드

CLIP의 전체적인 사전 훈련 과정은 아래의 의사 코드(pseudocode)로 요약될 수 있다.

# image_encoder: 이미지 인코더 (ViT 또는 ResNet)
# text_encoder: 텍스트 인코더 (Transformer)
# I: N개의 이미지로 구성된 배치
# T: N개의 텍스트로 구성된 배치
# W_i, W_t: 학습 가능한 투영 행렬
# tau: 학습 가능한 온도 파라미터

# 1. 각 인코더로부터 특징 임베딩 추출
I_f = image_encoder(I)  # 형상: [N, d_i]
T_f = text_encoder(T)  # 형상: [N, d_t]

# 2. 공유 임베딩 공간으로 투영 및 정규화
I_e = l2_normalize(I_f @ W_i, dim=1)  # 형상: [N, d_e]
T_e = l2_normalize(T_f @ W_t, dim=1)  # 형상: [N, d_e]

# 3. 코사인 유사도 계산 (정규화된 벡터의 내적)
# logits은 N x N 크기의 유사도 행렬
logits = (I_e @ T_e.T) * exp(tau)  # 형상: [N, N]

# 4. 대칭적 손실 함수 계산
# 정답 레이블은 대각선 성분 (0, 1, 2,..., N-1)
labels = arange(N)
loss_i = cross_entropy_loss(logits, labels, axis=0)  # 이미지 기준 손실
loss_t = cross_entropy_loss(logits, labels, axis=1)  # 텍스트 기준 손실
total_loss = (loss_i + loss_t) / 2

# 5. 역전파를 통한 모델 가중치 업데이트
total_loss.backward()
optimizer.step()

4. 핵심 역량: 제로샷 학습 (Zero-Shot Learning)

CLIP이 컴퓨터 비전 분야에 가져온 가장 큰 파급력은 바로 ‘제로샷 학습(Zero-Shot Learning)’ 능력에 있다. 이는 모델이 특정 분류 작업을 위해 단 하나의 예제도 학습하지 않은 상태에서, 즉 훈련 데이터에 존재하지 않았던 새로운 클래스에 대해서도 분류를 수행할 수 있는 능력을 의미한다.

4.1 A. 제로샷 추론(Zero-Shot Inference)의 메커니즘

CLIP의 제로샷 추론은 대조 학습을 통해 구축된 다중모달 임베딩 공간의 특성을 영리하게 활용한다. 그 과정은 다음과 같은 단계로 이루어진다.

분류기 동적 생성 (Dynamic Classifier Creation): 먼저, 분류하고자 하는 대상 클래스들의 목록(예: [“dog”, “cat”, “car”])을 준비한다. 그 다음, 이 클래스 이름들을 자연어 문장으로 변환한다. 이때 “a photo of a {class}“와 같은 프롬프트 템플릿을 사용하는 것이 일반적이다. 예를 들어, “dog“는 “a photo of a dog“으로, “cat“은 “a photo of a cat“으로 변환된다. 이 과정은 사실상 텍스트 설명을 통해 동적으로 ’분류기’를 생성하는 것과 같다.
텍스트 임베딩 생성 (Text Embedding Generation): 생성된 텍스트 설명들(예: “a photo of a dog”, “a photo of a cat”,…)을 CLIP의 텍스트 인코더에 입력한다. 이를 통해 각 클래스에 해당하는 고유한 텍스트 임베딩 벡터들을 얻는다. 이 벡터들은 다중모달 임베딩 공간에서 각 클래스가 차지하는 의미론적 위치를 나타낸다.
이미지 임베딩 생성 (Image Embedding Generation): 분류하고자 하는 입력 이미지를 CLIP의 이미지 인코더에 통과시켜 이미지 임베딩 벡터를 생성한다. 이 벡터는 해당 이미지가 임베딩 공간에서 갖는 시각적, 의미적 위치를 나타낸다.
유사도 계산 및 예측 (Similarity Calculation and Prediction): 마지막으로, 생성된 하나의 이미지 임베딩과 모든 클래스의 텍스트 임베딩들 간의 코사인 유사도를 각각 계산한다. 계산된 유사도 점수 중 가장 높은 값을 기록한 텍스트 임베딩에 해당하는 클래스가 최종 예측 결과로 선택된다. 예를 들어, 개 사진의 이미지 임베딩은 “a photo of a dog“의 텍스트 임베딩과 가장 높은 코사인 유사도를 보일 것이므로, 모델은 해당 이미지를 “dog” 클래스로 분류하게 된다.

이 메커니즘은 기존의 분류 모델처럼 고정된 출력층(output layer)을 갖는 대신, 텍스트 프롬프트를 통해 무한히 많은 수의 클래스로 확장 가능한 유연성을 제공한다.

4.2 B. 프롬프트 엔지니어링(Prompt Engineering)의 역할과 민감성

CLIP의 제로샷 성능은 입력으로 사용되는 텍스트 프롬프트의 구체적인 형태에 상당히 민감하게 반응한다. 이는 ’프롬프트 엔지니어링(Prompt Engineering)’의 중요성을 부각시킨다.1

단순히 클래스 이름(예: “dog”)을 입력하는 것보다, 모델이 사전 훈련 과정에서 접했을 법한 문맥을 제공하는 프롬프트(예: “a photo of a dog”, “an image of a dog”)를 사용할 때 일반적으로 더 높은 성능을 보인다. 이는 모델이 특정 단어보다는 문맥 속에서의 의미를 더 잘 이해하도록 학습되었기 때문이다. 또한, 여러 다른 프롬프트 템플릿을 사용하여 예측 결과를 앙상블(ensemble)하는 기법도 성능 향상에 효과적인 것으로 알려져 있다. 이처럼 최적의 프롬프트를 설계하는 과정은 CLIP의 성능을 최대한으로 끌어내는 데 있어 중요한 요소로 작용한다.

4.3 C. 기존 완전 지도 학습 모델과의 성능 비교

CLIP의 제로샷 성능은 단순히 새로운 개념을 분류할 수 있다는 점을 넘어, 많은 경우 기존의 완전 지도 학습(fully supervised) 모델과 필적하거나 이를 능가하는 수준의 정확도를 보여준다.1

가장 상징적인 사례는 이미지 분류 분야의 표준 벤치마크인 ImageNet 데이터셋에서의 성능이다. OpenAI의 연구에 따르면, 제로샷 CLIP 모델은 ImageNet의 훈련 데이터 128만 장을 단 한 장도 사용하지 않고도, 해당 데이터셋으로 처음부터 끝까지 훈련된 강력한 베이스라인 모델인 ResNet-50의 정확도와 거의 동등한 수준을 달성했다. 이는 특정 작업에 대한 데이터 없이도 범용적인 시각-언어 지식만으로 높은 수준의 성능을 낼 수 있음을 실증적으로 보여준 놀라운 결과였다.

아래 표는 다양한 이미지 분류 벤치마크에서 제로샷 CLIP 모델들과 완전 지도 학습으로 훈련된 ResNet-50의 성능을 비교한 것이다.

데이터셋	지도학습 ResNet-50	제로샷 CLIP (RN50)	제로샷 CLIP (ViT-B/32)	제로샷 CLIP (ViT-L/14)
ImageNet	76.2%	76.2%	73.0%	75.5%
Food101	88.5%	88.0%	86.2%	89.1%
CIFAR10	95.3%	94.6%	95.0%	96.3%
CIFAR100	80.3%	78.4%	78.1%	82.5%
STL10	98.6%	99.3%	99.2%	99.4%
Stanford Cars	92.2%	63.3%	65.5%	71.9%
Flowers102	97.4%	68.6%	70.4%	72.5%

표 2: 제로샷 CLIP vs. 지도학습 ResNet-50 성능 비교. 이 표는 다양한 벤치마크 데이터셋에서 제로샷 CLIP 모델들의 Top-1 정확도를 지도학습 ResNet-50과 비교한다. ImageNet, Food101, CIFAR 등 일반적인 객체 인식 데이터셋에서는 지도 학습 모델과 대등한 성능을 보이지만, Stanford Cars나 Flowers102와 같은 세밀한 분류(fine-grained classification) 데이터셋에서는 성능 격차가 나타남을 확인할 수 있다.1

이 결과는 CLIP의 강점과 약점을 명확히 보여준다. 일반적인 객체와 장면에 대해서는 놀라운 제로샷 성능을 발휘하지만, 전문가 수준의 미세한 구분이 필요한 전문 분야에서는 여전히 지도 학습 모델이 우위를 점하고 있음을 시사한다.

5. CLIP의 확장성과 응용 분야

CLIP의 진정한 가치는 단일 작업(예: 분류)을 수행하는 모델을 넘어, 다양한 AI 시스템의 핵심 구성 요소로 기능하는 범용성과 확장성에 있다. CLIP이 구축한 다중모달 임베딩 공간은 이미지와 텍스트를 연결하는 강력한 ’인식 계층(perception layer)’으로서, 후속 AI 기술 발전에 지대한 영향을 미쳤다. 이는 CLIP이 단순히 분류나 검색을 위한 도구가 아니라, 기계가 시각 세계를 의미론적으로 이해하고 다른 AI 시스템, 특히 언어 모델과 소통할 수 있게 만드는 근본적인 기반 기술임을 의미한다.

5.1 A. 이미지-텍스트 검색

CLIP의 가장 직관적이면서도 강력한 응용 분야는 교차 모달 검색(cross-modal retrieval)이다. 공유 임베딩 공간 덕분에 사용자는 텍스트 쿼리(query)를 사용하여 의미적으로 관련된 이미지를 검색하거나, 반대로 이미지를 쿼리로 사용하여 관련된 텍스트나 다른 유사 이미지를 찾을 수 있다.

작동 원리는 제로샷 분류와 유사하다. 사용자가 “해변에서 노을을 바라보는 사람“과 같은 텍스트 쿼리를 입력하면, 이 텍스트는 CLIP의 텍스트 인코더를 통해 임베딩 벡터로 변환된다. 시스템은 이 쿼리 벡터와 데이터베이스에 미리 인코딩되어 저장된 수백만 개의 이미지 임베딩 벡터들 간의 코사인 유사도를 신속하게 계산한다. 그 결과, 쿼리 벡터와 가장 가까운, 즉 유사도가 가장 높은 이미지들이 검색 결과로 반환된다. 이 방식은 기존의 키워드 기반 이미지 검색과 달리, 이미지의 실제 내용과 문맥을 이해하여 검색하므로 훨씬 더 정확하고 유연한 검색이 가능하다.

5.2 B. 생성 모델 가이던스

CLIP은 DALL-E, Stable Diffusion, Midjourney와 같은 혁신적인 텍스트-이미지 생성 모델(text-to-image generative models)의 탄생에 결정적인 역할을 했다. 이 모델들은 확산 모델(Diffusion Models)이라는 기술을 기반으로 하는데, 무작위 노이즈로부터 시작하여 점진적으로 노이즈를 제거해 나가며 이미지를 생성한다. 이때 CLIP은 생성 과정이 사용자의 텍스트 프롬프트를 충실히 따르도록 ’안내(guide)’하는 역할을 수행한다.

생성 과정의 각 단계에서, 현재 생성되고 있는 중간 결과물 이미지와 사용자가 입력한 텍스트 프롬프트가 CLIP의 이미지 및 텍스트 인코더에 각각 입력된다. 두 임베딩 간의 코사인 유사도를 계산하여, 이 이미지가 얼마나 프롬프트의 의미와 일치하는지를 정량적으로 평가한다. 이 유사도 점수는 손실(loss)로 사용되어, 다음 단계의 노이즈 제거 과정이 프롬프트와의 유사도를 높이는 방향으로 진행되도록 이미지 생성 방향을 조정하는 그래디언트(gradient) 신호를 제공한다. 즉, CLIP은 생성 과정 전반에 걸쳐 미분 가능한 심사관(differentiable judge) 또는 예술 감독처럼 작동하여, 최종 결과물이 텍스트의 의미를 시각적으로 정확하게 구현하도록 보장한다.

5.3 C. 다중모달 대형 언어 모델(MLLMs)의 시각 백본

최근 AI 연구의 주류를 이루는 다중모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)의 발전 역시 CLIP 없이는 상상하기 어렵다. LLaVA, Kosmos-2, Ferret 등 수많은 최신 MLLM들은 CLIP의 이미지 인코더를 핵심적인 ’시각 백본(vision backbone)’으로 채택하고 있다.

이러한 MLLM에서 CLIP 이미지 인코더는 입력된 이미지를 처리하여 시각적 특징을 담은 일련의 벡터 시퀀스(visual tokens)로 변환하는 역할을 한다. 이 시각적 토큰들은 대형 언어 모델(LLM)의 입력으로 텍스트 토큰과 함께 제공된다. 이를 통해 LLM은 마치 텍스트를 읽듯이 이미지를 “보고” 이해할 수 있게 되며, 이미지 내용에 대한 질문에 답하거나, 이미지를 상세히 묘사하거나, 이미지와 관련된 복잡한 추론을 수행하는 등 진정한 의미의 다중모달 상호작용이 가능해진다. CLIP의 강력한 시각-언어 정렬 능력은 LLM이 시각 정보를 효과적으로 이해하고 처리하는 데 필수적인 기반을 제공한다. 후속 MLLM들의 시각적 이해 능력의 한계는 종종 그들이 기반으로 하는 CLIP 인코더의 한계에서 비롯되는 경우가 많다.

5.4 D. 특수 도메인 적용 사례

CLIP의 유연성은 일반적인 인터넷 이미지를 넘어 특정 전문 분야로까지 확장된다. 예를 들어, 데이터 수집 및 레이블링이 특히 어려운 제조업 분야의 품질 관리(quality control) 공정에서 CLIP의 잠재력이 입증되었다.

한 연구에서는 금속 팬 표면 검사, 3D 프린팅 압출 프로파일 분석, 자동차 조립 검사 등 5가지 실제 제조 환경 사례에 CLIP을 적용했다. 그 결과, 각 클래스당 50개에서 100개 정도의 매우 적은 수의 샘플만을 사용한 소량 데이터 학습(Few-Shot Learning)을 통해서도 높은 분류 정확도를 달성할 수 있음을 보여주었다. 이는 전통적인 딥러닝 접근법이 수천, 수만 개의 레이블링된 데이터를 요구하는 것과 극명한 대조를 이룬다. 이처럼 CLIP은 데이터가 부족한 특수 도메인에서 빠르고 효율적으로 적용 가능한 기준 모델(baseline)로서의 실용적 가치를 지니며, 복잡한 솔루션을 도입하기 전에 시도해볼 수 있는 효과적인 초기 접근법을 제공한다.

6. 성능 평가 및 한계점

CLIP은 다중모달 AI의 새로운 가능성을 열었지만, 동시에 여러 명확한 기술적 한계와 해결해야 할 사회적 과제를 안고 있다. 이러한 한계점을 비판적으로 고찰하는 것은 CLIP의 능력을 올바르게 이해하고 향후 연구 방향을 설정하는 데 필수적이다.

6.1 A. 기술적 한계와 비판적 고찰

CLIP의 성능은 특정 유형의 과제에서는 뛰어나지만, 다른 유형의 과제에서는 현저한 약점을 보인다.

세밀한 분류 (Fine-grained Classification): CLIP은 일반적인 객체(개, 고양이, 자동차)를 구별하는 데는 능숙하지만, 매우 미세한 시각적 차이를 구분해야 하는 전문적인 분류 작업에서는 성능이 저하된다. 예를 들어, 특정 자동차 모델(예: 2012년형 혼다 시빅 vs. 2015년형 도요타 코롤라), 여러 종류의 꽃, 유사한 종의 새를 구별하는 작업에서는 해당 도메인에 특화되어 훈련된 지도 학습 모델에 비해 정확도가 크게 떨어진다.1 이는 CLIP의 학습 방식이 전반적인 의미론적 개념을 포착하는 데 중점을 두기 때문에, 미세한 텍스처나 형태의 차이를 학습하는 데는 한계가 있음을 시사한다.
추상적/체계적 과제 (Abstract/Systematic Tasks): CLIP은 시각적 개념을 자연어와 연결하지만, 이미지에 대한 깊은 논리적 또는 수학적 추론 능력은 거의 없다. 이미지 안에 있는 객체의 개수를 정확히 세거나(counting), 두 객체 사이의 상대적 거리를 예측하거나, 복잡한 기하학적 패턴을 이해하는 등의 추상적인 과제에서는 무작위 추측과 비슷한 수준의 성능을 보인다.1
구성적 이해 부족 (Lack of Compositional Understanding): CLIP의 가장 잘 알려진 약점 중 하나는 ’구성성(compositionality)’의 부족이다. 모델은 “빨간색”, “큐브”, “파란색”, “공“과 같은 개별 개념은 잘 이해하지만, “빨간색 큐브와 파란색 공“이라는 문장이 주어졌을 때 각 속성(색상)을 올바른 객체에 정확히 결합(binding)하는 데 어려움을 겪는다. 또한 “고양이 위에 있는 개“와 같이 객체 간의 공간적 관계를 이해하는 능력도 매우 취약하다. 이러한 문제는 CLIP이 이미지를 ’단어의 가방(bag-of-words)’처럼 처리하는 경향이 있으며, 문장이나 장면의 구조적, 관계적 정보를 제대로 포착하지 못함을 보여준다. 일부 연구는 이러한 한계가 코사인 유사도에 기반한 임베딩 공간의 근본적인 기하학적 제약에서 비롯될 수 있다고 분석한다.
분포 외 데이터에 대한 취약성 (Vulnerability to Out-of-Distribution Data): CLIP은 방대한 인터넷 데이터로 학습했지만, 그 데이터의 분포에서 크게 벗어나는 이미지에 대해서는 일반화 성능이 급격히 저하될 수 있다. 대표적인 예로, 손으로 쓴 숫자 데이터셋인 MNIST에 대한 제로샷 분류 정확도는 88%에 불과하다.1 이는 인간에게는 매우 쉬운 이 과제에 대해 모델이 예상외로 낮은 성능을 보인 것으로, 훈련 데이터에 유사한 형태의 데이터가 부족했기 때문으로 추정된다.
인코더 편향 (Encoder Biases): 통제된 환경에서의 실험을 통해 CLIP의 인코더들이 특정 편향을 가지고 있음이 밝혀졌다. 이미지 인코더는 이미지 내에서 더 큰 면적을 차지하는 객체에 더 높은 가중치를 두는 경향이 있으며, 텍스트 인코더는 캡션에서 더 앞쪽에 언급된 객체를 우선시하는 경향이 있다. 이러한 편향은 다수의 객체가 등장하는 복잡한 장면을 해석할 때 모델의 성능에 부정적인 영향을 미칠 수 있다.

6.2 B. 사회적 편향 문제

CLIP의 가장 심각한 문제 중 하나는 학습 데이터로부터 비롯되는 사회적 편향(social bias)이다. CLIP은 별도의 필터링이나 정제 과정 없이 인터넷의 방대한 데이터를 그대로 학습 소스로 사용한다. 그 결과, 인터넷 공간에 만연한 인종, 성별, 연령, 종교 등에 대한 유해한 고정관념과 사회적 편견을 무비판적으로 학습하고 심지어 증폭시킬 수 있다.

실제 연구 사례들은 이 문제의 심각성을 보여준다. 특정 연구에서는 CLIP이 “테러리스트“라는 텍스트 프롬프트에 대해 중동 남성의 이미지를 주로 검색하는 경향을 보였으며, “가정주부(homemaker)“라는 단어는 특정 국적의 여성 이미지와 매우 강하게 연관 짓는 교차적 편향(intersectional bias)을 나타냈다. 또한, 범죄와 관련된 부정적인 단어들을 특정 인구 집단과 부당하게 연결하는 사례도 보고되었다.1

더욱 문제적인 것은, 한 연구에서 CLIP의 성능에 가장 중요한 역할을 하는 어텐션 헤드(attention heads)가 이러한 사회적 편향을 학습하고 증폭시키는 데에도 핵심적인 역할을 한다는 사실이 밝혀졌다는 점이다. 이는 모델의 성능과 공정성 사이에 상충 관계가 존재할 수 있음을 시사하는 ’성능-편향의 역설(paradox of performance and social biases)’을 제기한다.

이러한 편향을 완화하기 위해 데이터의 인구통계학적 균형을 맞추거나(data balancing), 학습된 임베딩에서 편향과 관련된 정보를 제거하려는 후처리 기법 등 다양한 연구가 시도되고 있다. 그러나 이러한 접근법들은 종종 모델의 핵심 능력인 시각-언어 정렬(vision-language alignment) 성능을 저하시키는 ’과잉-편향 제거(over-debiasing)’라는 또 다른 문제를 야기하기도 해, 효과적인 편향 완화는 여전히 어려운 과제로 남아있다.

아래 표는 CLIP의 주요 한계점과 이를 해결하기 위한 관련 연구 방향을 요약한 것이다.

한계 유형	상세 설명	관련 연구 방향
구성적 이해	속성-객체 결합, 공간 관계, 부정(negation) 등 문장의 구조적 의미 파악에 취약함.	잠재 공간의 기하학적 구조 개선, 어텐션 메커니즘을 통한 명시적 관계 모델링, 신경-기호(neuro-symbolic) 접근법 도입.
추상적 추론	객체 수 세기, 거리 예측 등 논리적/수학적 추론 능력이 부재함.1	시각적 추론을 위한 특화된 모듈 통합, 외부 지식 그래프(knowledge graph) 연동.
사회적 편향	인터넷 데이터로부터 인종, 성별 등에 대한 유해한 고정관념을 학습하고 증폭시킴.	편향 완화 데이터셋 구축, 공정성 제약 조건 하의 모델 훈련, 임베딩 공간에서의 편향 제거(debiasing) 알고리즘 개발.
세밀한 인식	유사한 하위 카테고리(예: 새의 종, 자동차 모델) 간의 미세한 차이 구분에 어려움을 겪음.1	지역적 특징(local features)에 더 집중하는 아키텍처 개발(예: CLOC), 계층적 분류 접근법, 도메인 특화 데이터로의 미세조정.
OOD 일반화	훈련 데이터 분포와 상이한 데이터(예: 스케치, 손글씨)에 대한 성능이 저하됨.1	데이터 증강(data augmentation) 기법 강화, 도메인 적응(domain adaptation) 및 일반화 기술 연구, 다양한 데이터 소스 통합.

표 3: CLIP의 한계점 및 해결 과제 요약. 이 표는 CLIP이 직면한 주요 기술적, 사회적 과제들을 정리하고, 이를 극복하기 위한 현재 및 미래의 연구 방향을 제시한다.

7. 결론: CLIP의 유산과 미래 전망

7.1 A. CLIP이 다중모달 AI 연구에 미친 영향

CLIP은 다중모달 인공지능 연구의 역사에서 하나의 분기점을 마련한 기념비적인 모델이다. 자연어 감독을 통해 확장 가능하고 전이 가능한(transferable) 시각 표현 학습이 가능하다는 것을 대규모로 입증함으로써, 컴퓨터 비전 및 다중모달 AI 연구의 패러다임을 근본적으로 전환시켰다.

CLIP의 가장 큰 공헌은 제로샷 학습의 잠재력을 현실 세계의 복잡한 데이터에 대해 증명하고 대중화했다는 점이다. 이는 수많은 다운스트림 시각 과제에 대한 접근 방식을 바꾸어 놓았다. 더 이상 특정 작업을 위해 막대한 양의 레이블링된 데이터를 수집하고 모델을 처음부터 훈련할 필요 없이, 사전 훈련된 CLIP 모델을 기반으로 빠르고 효율적인 베이스라인을 구축할 수 있게 되었다.

궁극적으로 CLIP은 그 자체로 완벽하게 완성된 최종 애플리케이션이라기보다는, 더 복잡하고 지능적인 차세대 AI 시스템을 구축하기 위한 핵심적인 ‘구성 요소(building block)’ 또는 ’기반 기술(foundational technology)’로서의 역할을 확립했다. 텍스트-이미지 생성 모델에서부터 다중모달 대형 언어 모델에 이르기까지, CLIP이 제공하는 강력한 시각-언어 연결 능력은 후속 연구들의 상상력을 자극하고 기술적 토대를 제공하는 촉매제가 되었다.

7.2 B. OpenCLIP, LAION 등 오픈소스 생태계의 발전

CLIP의 등장은 기술적 성취만큼이나 AI 연구 커뮤니티에 큰 자극을 주었다. OpenAI가 비공개 데이터셋으로 훈련한 CLIP 모델을 발표하자, 연구 커뮤니티에서는 이러한 혁신을 재현하고, 투명하게 검증하며, 더 나아가 누구나 접근 가능하도록 만들려는 움직임이 일어났다. 이는 폐쇄적 혁신과 개방적 혁신 사이의 역동적인 상호작용을 촉발시켰다.

OpenAI의 폐쇄적인 접근(명제, Thesis)에 대한 직접적인 반응으로, 개방형 대안을 만들려는 노력이 구체화되었다(반명제, Antithesis). 그 중심에는 LAION(Large-scale Artificial Intelligence Open Network)과 OpenCLIP이 있었다.

LAION: 독일의 비영리 단체인 LAION은 웹에서 수집한 이미지-텍스트 쌍을 필터링하여 대규모 공개 데이터셋을 구축하는 프로젝트를 시작했다. LAION-400M(4억 개)을 시작으로 LAION-5B(58.5억 개)에 이르는 방대한 데이터셋이 공개되면서, 학계와 독립 연구자들도 OpenAI와 같은 거대 기업과 유사한 규모의 데이터에 접근할 수 있는 길이 열렸다.
OpenCLIP: LAION 데이터셋을 기반으로 CLIP 아키텍처를 충실히 재구현하고 훈련하는 오픈소스 프로젝트인 OpenCLIP이 등장했다. OpenCLIP은 다양한 크기의 모델과 데이터셋 조합으로 훈련된 수많은 사전 훈련 가중치를 공개함으로써, 연구자들이 모델 규모, 데이터 규모, 계산량에 따른 성능 변화를 체계적으로 분석하는 ‘재현 가능한 스케일링 법칙(reproducible scaling laws)’ 연구를 수행할 수 있는 토대를 마련했다.

이러한 오픈소스 생태계의 발전은 다중모달 AI 연구의 민주화를 이끌었으며, 폐쇄적 모델과 개방형 모델이 서로 경쟁하고 상호 영향을 주며 전체 분야의 발전을 가속하는 새로운 구도(종합, Synthesis)를 만들어냈다.

7.3 C. 후속 연구 및 경쟁 모델과의 비교

CLIP의 성공은 다른 대형 기술 기업들도 유사한 방향의 연구에 박차를 가하는 계기가 되었다. 이들은 CLIP의 기본 아이디어를 계승하면서도, 각자의 강점을 살려 모델을 개선하고 확장하려는 시도를 했다.

Google ALIGN: CLIP과 거의 동시에 발표된 ALIGN은 유사한 이중 인코더와 대조 학습 방식을 사용하지만, 데이터 철학에서 차이를 보인다. CLIP이 비교적 정제된 데이터셋을 사용한 반면, ALIGN은 18억 개에 달하는, 훨씬 더 크고 ‘노이즈가 많은(noisy)’ 웹상의 이미지-대체 텍스트(alt-text) 쌍을 그대로 사용하여 훈련했다. 이는 모델이 현실 세계의 비정형적이고 불완전한 데이터에 대해 더 높은 강건성(robustness)을 갖도록 하려는 의도였다.
Microsoft Florence: Florence는 CLIP과 같은 이중 인코더를 넘어, 다양한 컴퓨터 비전 과제(분류, 객체 탐지, 이미지 캡셔닝 등)를 단일 모델로 통합하려는 ’비전 파운데이션 모델(vision foundation model)’을 목표로 한다. 이를 위해 계층적 구조의 Vision Transformer(예: CoSwin Transformer)를 사용하여 이미지의 다양한 스케일(scale)에서 특징을 추출하고, 객체 탐지와 같은 더 세분화된(fine-grained) 작업을 효과적으로 처리할 수 있도록 설계되었다.

7.4 D. 향후 다중모달 융합 기술의 발전 방향성

CLIP이 열어젖힌 다중모달 융합 기술은 이제 시작 단계에 있으며, 앞으로 해결해야 할 과제와 발전 가능성은 무궁무진하다.

한계 극복을 향한 진화: 향후 연구는 CLIP의 명확한 약점들을 극복하는 데 집중될 것이다. 구성적 이해 능력, 세밀한 지역 정보 인식 능력, 그리고 논리적 추론 능력을 강화하는 것이 핵심 과제이다. 이미지 전체와 텍스트 전체를 비교하는 전역적(global) 정렬을 넘어, 이미지의 특정 영역과 텍스트의 특정 구절을 연결하는 지역적(local) 의미 이해 모델(예: CLOC)이 중요한 연구 방향이 될 것이다.
데이터의 질과 편향 문제: 모델의 성능과 공정성은 결국 학습 데이터의 질에 달려있다. 단순히 데이터의 양을 늘리는 것을 넘어, 고품질의, 다양성을 갖춘, 그리고 편향이 최소화된 데이터셋을 구축하는 노력이 계속될 것이다. 또한, 데이터에 내재된 편향을 모델이 학습하는 과정에서 완화하거나, 학습 후 제거하는 기술의 중요성은 더욱 커질 것이다.
새로운 모달리티와의 통합: 현재의 이미지-텍스트 융합을 넘어, 비디오, 오디오, 3D, 심지어는 뇌파나 촉각과 같은 새로운 감각 데이터까지 통합하려는 시도가 이루어질 것이다. 이를 통해 세계에 대한 더욱 총체적이고 깊이 있는 이해를 갖춘 AI 모델이 등장할 것으로 기대된다. CLIP은 이러한 미래를 향한 여정의 중요한 첫걸음으로서 그 유산을 남길 것이다.

8. 참고 자료

CLIP: Connecting text and images | OpenAI, https://openai.com/index/clip/
Learning Transferable Visual Models From Natural … - OpenAI, https://cdn.openai.com/papers/Learning_Transferable_Visual_Models_From_Natural_Language_Supervision.pdf