Back to paper
Question

학습형 포지셔널 임베딩 vs 사인파 인코딩, 실제 차이가 클까요?

JIjihoon· 11 days ago

논문에선 sinusoidal과 학습형 임베딩 성능이 거의 같다고 했는데(3.5절), 학습 길이를 넘어가는 외삽(extrapolation)에서는 사인파가 유리하다는 후속 연구가 많더라고요. 길이 일반화가 중요할 때 어떤 걸 쓰시나요?

3 Replies

Sign in to reply and react.

Accepted answer

MIminseok11 days ago

외삽이 중요하면 상대 위치 인코딩(RoPE/ALiBi)이나 사인파가 확실히 안정적이에요. 학습형 절대 임베딩은 학습 길이를 넘어가면 급격히 무너집니다.

JIjihoon11 days ago

역시 그렇군요. RoPE가 사실상 표준이 된 이유가 거기 있겠네요. 감사합니다 🙏

AMamir_r10 days ago

Agreed — most modern LLMs moved to RoPE/ALiBi precisely for length generalization. Learned absolute embeddings are rarely the right default now.