비전 트랜스포머 (Vision Transformers)

Vision Transformer(ViT)는 자연어 처리(NLP) 분야에서 혁신을 일으킨 트랜스포머(Transformer) 아키텍처를 컴퓨터 비전(이미지 인식) 분야에 거의 그대로 도입한 모델이다. 이 모델은 이미지를 픽셀 단위로 처리하는 대신 고정된 크기의 ’패치(patch)’로 잘게 쪼개어 이를 문장 속 단어처럼 순차적인 시퀀스(sequence)로 변환해 입력한다. 기존의 합성곱 신경망(CNN)이 지역적인 특징(local feature) 추출에 강점이 있다면, ViT는 ‘셀프 어텐션(Self-Attention)’ 메커니즘을 통해 이미지 패치들 간의 상호 관계를 파악하여 이미지 전체의 전역적인 문맥(global context)을 학습하는 데 탁월하다. 다만, CNN과 달리 이미지의 지역적 패턴에 대한 가정(Inductive Bias)이 적기 때문에 일반화 성능을 높이기 위해서는 훨씬 더 방대한 양의 학습 데이터가 필요하다는 특징이 있다.