목록Attention (1)
sihyeon.train()
Transformer 아키텍처의 Self-Attention 메커니즘 효용성은 2025년 현재에도 여전히 건재하다. LLM, Multimodal, Diffusion & Generation 등 많은 분야의 모델에서 사용되는 Self-Attention이란 무엇인지 직관적으로 이해해보자. 1. Self-Attention이란 컴퓨터가 자연어를 입력받을 때, 자연어 시퀀스 내 각 단어들은 벡터 형태로 인코딩된다. 해당 벡터들의 의미를 파악하기 위해선 단어와 단어의 관계를 파악하는 일이 정말 중요한데, 기존 RNN 구조를 활용하게 되면 문제가 하나 생겼다. 시퀀스의 길이가 길어질 수록 멀리 떨어진 단어끼리의 관계 계산이 점차 흐려진다는 장기 의존성 문제였다. CNN 역시 local receptive field를 보기..
딥러닝/이론
2025. 6. 23. 01:07