트랜스포머

    Attention Is All You Need 리뷰

    Attention Is All You Need 리뷰

    링크: https://arxiv.org/pdf/1706.03762.pdf Introduction 게이트를 가진 RNN(LSTM)은 sequence modeling과 language modeling , 기계 번역에서 뛰어난 성과를 보였다. 그러나 RNN은 은닉상태 ht가 이전의 은닉상태 ht-1과 시각 t에서의 input의 함수이기에 sequential하고, 따라서 학습시 병렬화가 배제되어 긴 시계열을 다룰 때 좋지 않다. attention은 input과 output간의 거리에 상관없이 dependencies modeling을 가능케 하여 다양한 분야에서 중요하게 사용되고 있다. 이 논문에선 recurrence를 없애고 encoder와 decoder 모두에 attention을 사용함으로써 input과 ou..