2.3 셀프 어텐션(Self-Attention)과 Q, K, V 연산의 기하학적 의미

2025-12-18, G30DR

1. 어텐션 메커니즘의 기하학적 패러다임 전환과 시퀀스 모델링의 혁신

트랜스포머 아키텍처의 도래는 자연어 처리와 시퀀스 모델링 분야에서 단순한 성능 향상을 넘어선 근본적인 패러다임의 전환을 의미한다. 기존의 순환 신경망(RNN)이나 장단기 메모리(LSTM) 모델이 정보를 시간의 흐름에 따라 순차적으로 압축하여 고정된 크기의 은닉 상태(Hidden State)에 밀어 넣으려 했던 것과 달리, 트랜스포머의 셀프 어텐션(Self-Attention) 메커니즘은 시퀀스 내의 모든 요소가 동시에 서로를 참조하고 관계를 맺을 수 있는 고차원적인 기하학적 구조를 제안한다.1 이러한 접근 방식은 정보의 병목 현상을 제거하고, 장거리 의존성(Long-range dependency) 문제를 기하학적인 정렬(Alignment)과 투영(Projection)의 문제로 치환함으로써 시퀀스 모델링의 새로운 장을 열었다.1

기하학적 관점에서 볼 때, 셀프 어텐션은 입력된 토큰 벡터들을 고차원 임베딩 공간 내에서 재배치하는 일종의 ‘비선형 좌표 변환’ 혹은 ‘동적 매니폴드 학습’ 과정으로 정의될 수 있다.5 초기 단계에서 각 토큰은 문맥과 무관한 정적인 벡터 위치를 점유하지만, 셀프 어텐션 층을 통과할 때마다 주변 토큰들과의 상호작용을 통해 자신의 좌표를 수정한다. 이는 정적인 단어 임베딩이 동적인 문맥적 표현(Contextual Representation)으로 진화하는 과정이며, 이 거대한 기하학적 연산의 중심에는 Query(Q), Key(K), Value(V)라는 세 가지 추상화된 벡터의 상호작용이 자리 잡고 있다.4

graph TD
    subgraph "기존 패러다임: RNN/LSTM"
        R1["정보의 순차적 압축"] --> R2["시간 t의 은닉 상태"]
        R2 --> R3["시간 t+1로 정보 전달"]
        R3 --> R4["정보 병목 현상 발생"]
        R4 --> R5["장거리 의존성 문제"]
    end

    subgraph "새로운 패러다임: Transformer"
        T1["입력 토큰들"] --> T2["동시 상호작용 (Self-Attention)"]
        T2 --> T3["고차원 기하학적 구조 형성"]
        T3 --> T4["모든 요소가 서로 참조"]
        T4 --> T5["기하학적 정렬 및 투영"]
        T5 --> T6["비선형 좌표 변환"]
    end

    R5 -.->|"패러다임 전환"| T1

2. Q, K, V 행렬: 학습 가능한 선형 투영과 부분 공간의 분리

셀프 어텐션의 첫 번째 핵심은 입력 데이터 $X$ 를 세 개의 서로 다른 학습 가능한 가중치 행렬 $W_Q, W_K, W_V$ 를 통해 서로 다른 특징 부분 공간(Feature Subspaces)으로 투영하는 것이다.7 이 과정은 선형 대수학적으로는 행렬 곱셈에 불과하지만, 기하학적으로는 원본 데이터가 가진 다면적인 정보를 세 가지 기능적 역할로 분리하는 행위이다.7

구성 요소	기하학적 투영의 의미	기능적 역할 및 비유	수학적 정의
Query (Q)	검색 의도 공간으로의 사상	“내가 지금 어떤 특징을 가진 정보를 찾고 있는가?” (질문자)	$Q = XW_Q$
Key (K)	인덱스/라벨 공간으로의 사상	“나는 타인에게 어떤 특징을 가진 정보로 비춰지는가?” (검색 태그)	$K = XW_K$
Value (V)	실제 정보 내용 공간으로의 사상	“내가 실제로 전달할 구체적인 정보의 실체는 무엇인가?” (데이터 본체)	$V = XW_V$

이러한 삼중 투영은 모델이 입력 토큰의 동일한 물리적 상태로부터 서로 다른 추상적 의미를 추출할 수 있게 한다.1 만약 모델이 동일한 가중치 행렬을 사용한다면, 검색을 위한 표현과 검색을 당하기 위한 표현, 그리고 실제 정보가 혼재되어 유연한 관계 학습이 불가능해진다.10 서로 다른 전용 투영 행렬을 사용함으로써 트랜스포머는 각 토큰이 문맥에 따라 때로는 강력한 ’질문자’로, 때로는 중요한 ’답변 후보’로, 때로는 풍부한 ’정보 제공자’로 기능하도록 최적화한다.1

Q, K, V 행렬: 학습 가능한 선형 투영

graph TD    
    
    Input["입력 데이터 X (물리적 상태)"] --> Split{"공간 분리 및 투영"}
    
    Split -->|"W_Q (가중치)"| Q_Space["Query (Q)"]
    Split -->|"W_K (가중치)"| K_Space["Key (K)"]
    Split -->|"W_V (가중치)"| V_Space["Value (V)"]

    subgraph "Query: 검색 의도"
        Q_Space --> Q_Role["역할: 질문자"]
        Q_Role --> Q_Desc["내가 찾고 있는 정보는?"]
    end

    subgraph "Key: 인덱스/라벨"
        K_Space --> K_Role["역할: 검색 태그"]
        K_Role --> K_Desc["나를 어떻게 정의하는가?"]
    end

    subgraph "Value: 정보 내용"
        V_Space --> V_Role["역할: 데이터 본체"]
        V_Role --> V_Desc["실제 전달할 정보는?"]
    end

    Q_Space -.->|"내적 연산 (상호작용)"| K_Space

2.1 학습을 통한 공간적 정렬의 최적화

가중치 행렬 $W_Q, W_K, W_V$ 는 역전파를 통해 학습되며, 이 과정에서 모델은 토큰 간의 의미론적 관계를 기하학적 정렬도로 변환하는 법을 배운다.13 학습 초기에는 무작위로 흩어져 있던 벡터들이 훈련이 진행됨에 따라 관련성 높은 의미를 공유하는 경우 Query 공간과 Key 공간에서 서로 가까운 방향을 가리키도록 정렬된다.8 이는 마치 도서관의 책들이 주제별로 분류되고, 검색 키워드가 해당 도서의 인덱스와 일치하도록 조정되는 것과 유사한 과정이다.1

3. 내적 어텐션과 코사인 유사도의 기하학적 메커니즘

셀프 어텐션에서 두 토큰 $i$ 와 $j$ 사이의 연관성을 측정하는 근본적인 도구는 두 벡터 간의 내적(Dot-product)이다.8 기하학적으로 내적은 두 벡터의 크기와 그 사이 각도의 코사인 값의 곱인 $q_i \cdot k_j = \|q_i\|\|k_j\|\cos\theta$ 로 정의된다.8

내적 연산은 두 벡터가 유사한 방향을 가리킬수록 높은 양수 값을 반환하고, 수직(Orthogonal)일 때 0, 반대 방향일 때 음수 값을 반환한다.8 트랜스포머는 이러한 수치를 사용하여 “토큰 $i$ 가 토큰 $j$ 에게 얼마나 많은 주의를 기울여야 하는가“를 결정한다. 즉, 어텐션 스코어는 고차원 공간상에서 두 토큰의 기능적 정렬도를 정량화한 지표이다.4

이러한 방식은 기존의 유클리드 거리(Euclidean Distance) 기반 접근법보다 강력하다. 내적은 단순한 물리적 거리가 아니라, 특정 부분 공간에서의 ’지향성’을 측정하기 때문이다.8 예를 들어, “eat“이라는 단어의 Query 벡터는 “apple“이나 “bread“의 Key 벡터와는 높은 내적 값을 갖도록 학습되지만, “car“나 “sky“와는 낮은 값을 갖도록 공간적으로 배치된다.18

어텐션 메커니즘의 연산 파이프라인

graph TD

    Start["Query(i) & Key(j)"] --> DotProd["내적 (Dot-product) 연산"]
    
    DotProd -->|"결과값: 유사도"| RawScore["Raw Attention Score"]
    
    subgraph "기하학적 의미: 방향성 측정"
        RawScore --"양수"--> Sim["유사한 방향 (높은 연관성)"]
        RawScore --"0"--> Ortho["수직 (무관계)"]
        RawScore --"음수"--> Opp["반대 방향"]
    end

    RawScore --> HighDimProblem{"문제: 차원(d_k) 증가"}
    HighDimProblem -->|"분산 팽창"| Unstable["극단적인 값 발생"]
    Unstable -->|"Softmax 포화"| GradVanishing["그래디언트 소실 위험"]

    Unstable --> Solution["스케일링 (나누기 sqrt(d_k))"]
    Solution -->|"분산 정규화"| ScaledScore["조정된 Score"]
    
    ScaledScore --> SoftmaxFunc["Softmax 함수 적용"]
    SoftmaxFunc -->|"확률적 단순체 투영"| ProbDist["정규화된 어텐션 가중치"]
    
    ProbDist -->|"동적 인접 행렬 역할"| FinalWeights["최종 가중치 맵"]

4. 스케일링 인자 $\sqrt{d_k}$ 와 고차원 공간의 안정성

트랜스포머의 어텐션 공식에서 내적 값을 $\sqrt{d_k}$ 로 나누는 스케일링 과정은 단순한 수학적 기교를 넘어, 고차원 기하학에서 발생하는 통계적 불안정성을 해결하기 위한 필수적인 조치이다.8

4.1 고차원에서의 분산 팽창과 그래디언트 소실

벡터의 차원 $d_k$ 가 커질수록 내적 연산의 결과물인 어텐션 스코어의 분산은 선형적으로 증가한다.7 각 성분이 평균 0, 분산 1인 독립적인 확률 변수라고 가정할 때, $d_k$ 차원 내적의 분산은 $d_k$ 가 된다.8 차원이 높아질수록 내적 값은 극단적으로 크거나 작은 값으로 치닫게 되며, 이는 소프트맥스(Softmax) 함수의 입력값으로 들어갔을 때 치명적인 문제를 야기한다.8

소프트맥스 함수는 지수 함수를 사용하기 때문에 입력값 간의 작은 차이도 출력 확률 분포에서 큰 격차로 증폭시킨다.21 만약 내적 값이 스케일링 없이 매우 커진다면, 소프트맥스 출력은 단 하나의 토큰에만 1에 가까운 확률을 부여하고 나머지는 0으로 만들어버리는 ‘포화(Saturation)’ 현상을 겪게 된다.8 기하학적으로 이는 모델이 단 하나의 극단적인 방향으로만 정보를 수집하려 함을 의미하며, 수학적으로는 소프트맥스 함수의 기울기가 0에 수렴하여 그래디언트 소실 문제를 일으킨다.8

4.2 기하학적 곡률의 조정과 부드러운 전이

$\sqrt{d_k}$ 로 나누는 행위는 내적의 분산을 다시 1로 정규화하여, 소프트맥스 함수가 입력값의 미세한 차이를 변별할 수 있는 ’부드러운 구역(Sweet spot)’에서 작동하게 만든다.8 이는 고차원 공간의 기하학적 곡률을 낮추어 정보의 전이가 급격하게 일어나지 않도록 제어하는 장치이다. 결과적으로 모델은 단 하나의 토큰에 매몰되지 않고, 여러 유관 토큰들로부터 정보를 균형 있게 수집할 수 있는 기하학적 토대를 확보하게 된다.8

5. 소프트맥스: 정규화된 상호작용 지도의 생성

스케일링된 내적 값들에 소프트맥스를 적용하는 단계는 기하학적으로 모든 토큰 쌍의 관계를 확률적 단순체(Probability Simplex) 상으로 투영하는 과정이다.8 이 과정을 통해 생성된 어텐션 가중치 행렬은 시퀀스 내의 모든 요소가 서로에게 미치는 영향력을 정의하는 일종의 ‘동적 인접 행렬(Dynamic Adjacency Matrix)’ 역할을 수행한다.8

단계	수학적 연산	기하학적/통계적 의미
Dot Product	$QK^T$	두 벡터 사이의 정렬도 및 유사성 측정
Scaling	$\frac{QK^T}{\sqrt{d_k}}$	고차원 분산 제어 및 소프트맥스 포화 방지
Softmax	$\text{Softmax}(\cdot)$	가중치 합이 1인 확률 분포로의 변환 및 중요도 증폭

소프트맥스는 기하학적으로 ‘승자 독식’ 경쟁을 유도하면서도, 스케일링을 통해 그 경쟁이 지나치게 파괴적이지 않도록 관리한다.8 결과적으로 각 쿼리 토큰은 시퀀스 전체를 훑으며 자신이 결합해야 할 가치(Value) 벡터들의 목록과 그 비중을 결정하게 된다.1

6. 가중 합산과 벡터 공간상의 이동: 문맥적 인력의 작용

어텐션 연산의 최종 단계는 소프트맥스로 계산된 가중치를 사용하여 Value 벡터들을 선형 결합하는 것이다.3 이 수식 $Z = \text{Attention}(Q, K, V) \cdot V$ 는 기하학적으로 매우 심오한 의미를 지닌다. 이는 특정 토큰 벡터를 현재 위치에서 주변 문맥의 영향을 받은 새로운 위치로 이동시키는 과정으로 해석될 수 있다.5

graph LR
    title["2.3.6 문맥적 인력에 의한 벡터 이동"]

    Values["Value 벡터들 (V)"] --> Interaction{"가중 합산 (Weighted Sum)"}
    Weights["Attention 가중치 (Prob)"] --> Interaction

    subgraph "기하학적 이동 메커니즘"
        StaticPos["단어의 고정된 위치 (Bank)"] --"입력"--> Process["문맥적 인력 작용"]
        
        Context1["문맥: River (지리적 인력)"] -.->|"당김 (Nudge)"| Process
        Context2["문맥: Money (금융적 인력)"] -.->|"당김 (Nudge)"| Process
        
        Process --> NewPos["새로운 기하학적 좌표 (Z)"]
    end

    NewPos --> Meaning["최적화된 문맥적 표현"]

6.1 임베딩의 “동적 이동“과 문맥화

고정된 임베딩 공간에서 “bank“라는 단어는 항상 동일한 좌표를 갖지만, 셀프 어텐션의 가중 합산 과정을 거치면서 이 벡터는 주변에 “river“가 있다면 지형지물 쪽으로, “money“가 있다면 금융 쪽으로 끌어당겨진다(Nudge).5 기하학적으로 각 토큰은 시퀀스 내의 다른 토큰들로부터 일종의 ’의미론적 인력’을 받는 입자와 같다.5 어텐션 가중치는 그 인력의 강도를 결정하며, 가중 합산은 그 모든 인력의 결과로 발생하는 입자의 새로운 변위(Displacement)를 계산하는 행위이다.6

이 과정을 통해 출력되는 벡터 $Z$ 는 입력 벡터 $X$ 의 차원과 동일하지만, 그 내부 정보는 시퀀스 전체의 맥락이 함축된 고도의 농축된 표현으로 진화한다.5 이는 단순히 정보를 섞는 것이 아니라, 각 토큰이 문맥 속에서 가져야 할 최적의 ’기하학적 위치’를 찾아가는 능동적인 과정이다.5

7. 멀티 헤드 어텐션: 다차원적 관점에서의 공간 분할

트랜스포머는 단일 어텐션 메커니즘을 사용하는 대신, 여러 개의 어텐션 헤드를 병렬로 운용하는 멀티 헤드 어텐션(Multi-Head Attention) 구조를 취한다.2 기하학적으로 이는 입력 벡터 공간을 여러 개의 저차원 부분 공간으로 쪼개어, 각 공간에서 서로 다른 관계를 동시에 포착하도록 하는 전략이다.17

하나의 어텐션 헤드는 문법적인 구조(예: 주어와 동사의 관계)를 포착하기 위해 벡터들을 정렬하고, 다른 헤드는 의미적인 유사성이나 대명사의 지칭 대상을 찾기 위해 다른 방식으로 벡터들을 정렬한다.9 각각의 헤드는 자신만의 가중치 행렬 세트( $W_Q^h, W_K^h, W_V^h$ )를 가짐으로써, 동일한 데이터로부터 서로 다른 기하학적 특징을 추출한다.2 마지막에 이 모든 헤드의 결과를 결합(Concatenation)하고 선형 투영하는 과정은 각 부분 공간에서 얻은 파편화된 문맥 정보를 하나의 통합된 기하학적 좌표계로 재조립하는 작업과 같다.2

mindmap
  root(("Self-Attention의 확장 및 이론"))
    Multi_Head_Attention["2.3.7 멀티 헤드 어텐션"]
      Spatial_Split["공간 분할"]
        Subspace1["헤드 1: 문법적 구조"]
        Subspace2["헤드 2: 의미적 유사성"]
      Mechanism["독립적 가중치 행렬"]
      Integration["결합(Concat) 및 재조립"]
    
    Theoretical_Basis["2.3.8 이론적 관점 (RKHS/범주론)"]
      Kernel_Method["커널 트릭의 구현"]
        Infinite_Dim["무한 차원 매핑"]
        Non_Linear["비선형 관계 학습"]
      Category_Theory["범주론적 해석"]
        Endofunctor["매개변수화된 엔도펑터"]
        Equivariance["순열 등변성 유지"]
        
    Visualization["2.3.9 해석 가능성 (Visualization)"]
      Attention_Map["히트맵 (Heatmap)"]
        Interaction_Strength["상호작용 강도 확인"]
      Attention_Rollout["정보 흐름 추적"]
      Embedding_Proj["임베딩 투영 (PCA/t-SNE)"]
        Clustering["문맥화된 군집 확인"]

8. 고급 이론적 관점: RKHS와 범주론적 해석

셀프 어텐션의 기하학적 의미는 더욱 심오한 수학적 틀로 확장될 수 있다. 특히 재생 커널 힐베르트 공간(Reproducing Kernel Hilbert Space, RKHS) 이론에 따르면, 어텐션의 내적 연산은 고차원 특징 공간에서의 커널 함수로 볼 수 있다.26

8.1 커널 근사와 비선형 관계 학습

어텐션 메커니즘은 입력 데이터를 무한 차원의 특징 공간으로 매핑하여 복잡한 비선형 관계를 학습하는 ’커널 트릭’의 현대적인 구현체이다.26 연구에 따르면, 어텐션은 대칭적인 양의 정부호 관계 함수를 근사하는 범용 근사자(Universal Approximator)로서의 성질을 갖는다.27 이는 트랜스포머가 단순히 데이터를 처리하는 것을 넘어, 데이터들 사이의 추상적인 순서나 관계적 구조(Preorder) 자체를 학습하고 있음을 시사한다.27

8.2 범주론적 함자와 불변성

최근의 범주론적(Category-theoretic) 연구는 셀프 어텐션을 매개변수화된 엔도펑터(Endofunctor)로 정의한다.30 기하학적 딥러닝 관점에서 어텐션은 입력 토큰의 순열(Permutation)에 대해 등변성(Equivariance)을 유지하면서도 풍부한 상호작용을 포착할 수 있는 유일무이한 연산 구조를 제공한다.30 이러한 수학적 견고함은 트랜스포머가 언어뿐만 아니라 이미지, 오디오, 그래프 등 기하학적 구조가 상이한 다양한 도메인에서 범용적인 성능을 발휘하는 근본적인 이유가 된다.30

9. 어텐션 행렬의 시각화와 기계적 해석 가능성

셀프 어텐션의 기하학적 연산 결과물은 어텐션 맵(Attention Map)이라는 시각적 도구를 통해 해석될 수 있다.23 어텐션 맵은 쿼리 토큰과 키 토큰 간의 상호작용 강도를 히트맵 형태로 나타낸 것으로, 모델이 특정 예측을 수행할 때 어떤 데이터 포인트에 ’주목’했는지를 보여준다.23

시각화 기법	기하학적 의미 추출 방식	주요 용도
Attention Heatmap	$QK^T$ 가중치 직접 시각화	특정 단어 간의 의존성 및 관계 분석 8
Attention Rollout	여러 층의 어텐션 맵을 합성하여 정보 흐름 추적	입력 데이터로부터 결과값까지의 경로 가시화 31
Embedding Projection	고차원 벡터를 PCA/t-SNE로 저차원 투영	문맥화된 벡터들의 군집(Clustering) 상태 확인 6

이러한 시각화는 트랜스포머 모델의 내부 작동 방식을 블랙박스에서 투명한 상자로 전환하는 데 기여한다. 예를 들어, 대명사 “it“을 처리할 때 어텐션 헤드가 원형 명사인 “robot“에 강하게 집중하는 기하학적 정렬을 확인 함으로써 모델의 논리적 타당성을 검증할 수 있다.6

10. 결론: 기하학적 지능의 실현

셀프 어텐션과 Q, K, V 연산은 단순한 수학적 계산을 넘어, 언어와 세계를 벡터 공간상의 기하학적 구조로 재구성하는 혁신적인 프로세스이다.1 Query와 Key의 상호작용을 통해 정보의 ’가치’를 발견하고, Scaling을 통해 공간의 ’안정성’을 확보하며, Value의 가중 합산을 통해 벡터의 ’문맥적 진화’를 이끌어내는 이 일련의 과정은 트랜스포머가 인간과 유사한 유연한 인지 능력을 가질 수 있게 하는 원동력이다.1

2025년 현재, 멀티모달 에이전트와 추론 모델들이 텍스트를 넘어 물리적 세계의 복잡한 데이터를 처리할 수 있는 것은 모두 이 강력한 기하학적 연산 체계에 기반하고 있다.31 트랜스포머의 셀프 어텐션은 데이터를 단순히 처리하는 단계를 지나, 데이터 사이의 관계를 공간적으로 조망하고 재배치함으로써 인공지능이 세계의 본질적인 구조를 파악하게 하는 ’기하학적 지능’의 정수를 보여준다.

11. 참고 자료

What is Query, Key, and Value (QKV) in the Transformer Architecture …, https://epichka.com/blog/2023/qkv-transformer/
Attention Is All You Need - Wikipedia, https://en.wikipedia.org/wiki/Attention_Is_All_You_Need
Self - Attention in NLP - GeeksforGeeks, https://www.geeksforgeeks.org/nlp/self-attention-in-nlp/
What is self-attention? | IBM, https://www.ibm.com/think/topics/self-attention
Self-Attention Explained with Code | by Bradney Smith | TDS Archive - Medium, https://medium.com/data-science/contextual-transformer-embeddings-using-self-attention-explained-with-diagrams-and-python-code-d7a9f0f4d94e
Mathematical details behind self-attention | Reflections, https://lakshyamalhotra.github.io/2024/06/10/Mathematical-details-behind-self-attention.html
Understanding and Coding the Self-Attention Mechanism of Large …, https://sebastianraschka.com/blog/2023/self-attention-from-scratch.html
Scaled Dot-Product Attention | ML & CV Consultant - Abhik Sarkar, https://www.abhik.xyz/concepts/attention/scaled-dot-product
Transformer Architecture Explained With Self-Attention Mechanism - Codecademy, https://www.codecademy.com/article/transformer-architecture-self-attention-mechanism
The Q, K, V Matrices - Arpit Bhayani, https://arpitbhayani.me/blogs/qkv-matrices/
Attention Projection Matrix | Envisioning Vocab, https://www.envisioning.com/vocab/attention-projection-matrix
Understanding Attention in Transformers: A Visual Guide | by Nitin Mittapally | Medium, https://medium.com/@nitinmittapally/understanding-attention-in-transformers-a-visual-guide-df416bfe495a
Training attention QKV matrices [D] : r/MachineLearning - Reddit, https://www.reddit.com/r/MachineLearning/comments/1bbgsbi/training_attention_qkv_matrices_d/
The Attention Mechanism in Deep Learning — An Example | by George Ginis | Medium, https://medium.com/@gginis/the-attention-mechanism-in-deep-learning-an-example-fb6b27c30cff
Why Deep Learning Loves the Dot Product and Matrix Multiplication | by Sophie Zhao, https://medium.com/@sophiezhao_2990/from-alignment-to-attention-how-the-dot-product-empowers-deep-learning-b7e670787fee
[트렌스포머 모델 이해하기] Self-Attention에서 Q, K, V(Query, Key, Value)의 의미, https://cn-c.tistory.com/68
What is the intuition behind the dot product attention? - Educative.io, https://www.educative.io/answers/what-is-the-intuition-behind-the-dot-product-attention
Understanding Q,K,V In Transformer( Self Attention) | by mustafac | Analytics Vidhya, https://medium.com/analytics-vidhya/understanding-q-k-v-in-transformer-self-attention-9a5eddaa5960
Inside Transformers: An In-depth Look at the Game-Changing Machine Learning Architecture — Part 3 - Isaac Kargar, https://kargarisaac.medium.com/inside-transformers-an-in-depth-look-at-the-game-changing-machine-learning-architecture-part-3-429858be2f6f
What is the rationale behind square root scaling in attention - DeepLearning.AI Community, https://community.deeplearning.ai/t/what-is-the-rationale-behind-square-root-scaling-in-attention/441193
Softmax function - Wikipedia, https://en.wikipedia.org/wiki/Softmax_function
Scaling Is All You Need: Understanding sqrt(dₖ) in Self-Attention …, https://dev.to/samyak112/scaling-is-all-you-need-understanding-sqrtd-in-self-attention-29pk
Generating and Visualizing Context Vectors in Transformers - MachineLearningMastery.com, https://machinelearningmastery.com/generating-and-visualizing-context-vectors-in-transformers/
Attention in transformers, step-by-step | Deep Learning Chapter 6 - 3Blue1Brown, https://www.3blue1brown.com/lessons/attention
Self Attention and Transformers | Towards Data Science, https://towardsdatascience.com/self-attention-and-transformers-882e9de5edda/
Reproducing kernel Hilbert space - Wikipedia, https://en.wikipedia.org/wiki/Reproducing_kernel_Hilbert_space
Approximation of relation functions and attention mechanisms - arXiv, https://arxiv.org/pdf/2402.08856
Reproducing Kernel Hilbert Space for Machine Learning | by Jonathan Hui - Medium, https://jonathan-hui.medium.com/reproducing-kernel-hilbert-space-for-machine-learning-8de67b6b5377
The underlying structures of self-attention: symmetry, directionality, and emergent dynamics in Transformer training | OpenReview, https://openreview.net/forum?id=gpizm0I3lp
Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures - arXiv, https://arxiv.org/html/2501.02931v2
Exploring Visual Attention in Transformer Models | by Niv Leibovitch - Medium, https://medium.com/@nivonl/exploring-visual-attention-in-transformer-models-ab538c06083a