58.8 CLIP(Contrastive Language-Image Pre-training)의 구조