단어의미간 거리가 문장에서는 너무 가깝다.

문장마다 해석에 중요한 위치가 다 다르다.

두 행렬 G1H(t) =G2 에서 H(t)= QL*Q^(-1)에서 L행렬의 연산을 담당하는 축이 Attention 이라고 볼 수 있을 것 같다.

Attention에 대해서는 수학적으로 신호적으로 인간적으로 접근하여 문제를 해결하고자한 의지가 보인다.

어떤 맥락의 파악을 함에 있어 문장의(임베딩의) 부분마다 해석에 있어 중요도가 다름을 가정하여 한 문장에 대해서 중요도를 나타내는 맥락 즉 단어간 연결을 모델로 구상하였다.

잘생각해보면 사람도 마찬가지로 그런식으로 사고하고 문장을 해석한다. 수능 국어지문을 읽을때 우리는 항상 중요한 단어에 집중한다. 이또한 마찬가지인 것이다.

그렇다면 이 주요한 단어를 학습에 적용하기 위해서 수학적으로 어떻게 모델링을 해야할까?

단어라는 것은 일단 문장내에서 주어 동사 형용사 명사 대명사 보어 목적어로 나뉘게 된다. 이를 다시 좀 더 나눠보면 토크나이징 이되고, 토큰을 바탕으로 문장의 해석을 좀 더 모델링해보면 3개로 분할된다.

  1. 문장에서 핵심적 단어(토큰 합),
  2. 그리고 실질적 의미를 해석하는데 중요한 위치(대명사 case 또는 핵심적 단어의 위치), 또는 중의적 의미
  3. 단어(토큰)간 연결

이러한 가정을 한다면 해당 1,2,3에 대해 어떻게 문장하나를 통해서 정보를 확인할 수 있을까?

1차원의 형태의 문장에서는 이러한 것은 확인하기 어려울 것이다. 이 이유는 단어간 가지는 의미가 공간상에서 너무 가깝기 때문이라고 생각되는데 이러한 것은 개인적인 철학이다. 아무튼 1,2,3에 대해서 수학적으로 해석하기 위해서는 단어의 의미간 거리를 멀게해야하고, 앞에서 1,2,3을 정의했기 때문에 3차원정도로 거리를 멀게한다면 충분히 의미있다고 판단될 것이다. 따라서 V*V_transpose_V를 진행하여(다만이를 왜 Q,K,V로 해석했을까) 일차적으로 Digonal matrix의 형태를 통해 차원에서의 단어간의 거리를 벌려주고 해당 단어와 들어오는 해석에 대해 행렬을 유추하게 함으로써 어떤 임의의 두 문법구조 G1(v),G2(w)에 대해