Question

학습형 포지셔널 임베딩 vs 사인파 인코딩, 실제 차이가 클까요?

JIjihoon· about 2 months ago

논문에선 sinusoidal과 학습형 임베딩 성능이 거의 같다고 했는데(3.5절), 학습 길이를 넘어가는 외삽(extrapolation)에서는 사인파가 유리하다는 후속 연구가 많더라고요. 길이 일반화가 중요할 때 어떤 걸 쓰시나요?

3 Replies

Accepted answer

MIminseokabout 2 months ago

외삽이 중요하면 상대 위치 인코딩(RoPE/ALiBi)이나 사인파가 확실히 안정적이에요. 학습형 절대 임베딩은 학습 길이를 넘어가면 급격히 무너집니다.

JIjihoonabout 2 months ago

역시 그렇군요. RoPE가 사실상 표준이 된 이유가 거기 있겠네요. 감사합니다 🙏

AMamir_rabout 2 months ago

Agreed — most modern LLMs moved to RoPE/ALiBi precisely for length generalization. Learned absolute embeddings are rarely the right default now.