Question
학습형 포지셔널 임베딩 vs 사인파 인코딩, 실제 차이가 클까요?
논문에선 sinusoidal과 학습형 임베딩 성능이 거의 같다고 했는데(3.5절), 학습 길이를 넘어가는 외삽(extrapolation)에서는 사인파가 유리하다는 후속 연구가 많더라고요. 길이 일반화가 중요할 때 어떤 걸 쓰시나요?
논문에선 sinusoidal과 학습형 임베딩 성능이 거의 같다고 했는데(3.5절), 학습 길이를 넘어가는 외삽(extrapolation)에서는 사인파가 유리하다는 후속 연구가 많더라고요. 길이 일반화가 중요할 때 어떤 걸 쓰시나요?
Accepted answer
외삽이 중요하면 상대 위치 인코딩(RoPE/ALiBi)이나 사인파가 확실히 안정적이에요. 학습형 절대 임베딩은 학습 길이를 넘어가면 급격히 무너집니다.
Agreed — most modern LLMs moved to RoPE/ALiBi precisely for length generalization. Learned absolute embeddings are rarely the right default now.