Attention mechanism
-
attentionなしseq2seq
- 1つの固定長ベクトルに入力の情報を全て詰め込んでdecoderに渡す
- そのベクトルは変化しない
- 最初に入力された情報がdecoderまで伝わりにくい問題がある
-
attentionありseq2seq
- とで計算されるベクトルがdecoderに渡る
- 重みはとの関数で,動的に変化する
- で,確率としても解釈可能
- 複数のベクトルに対して,どのベクトルを重要視するかを含めて学習させる仕組み
- とで計算されるベクトルがdecoderに渡る
-
種類
- soft attention mechanism
- 複数のベクトルの重み付き平均を使う方法
- hard attention mechanism
- 重みに応じた確率分布に基づき,1つをサンプリングする方法
- local attention mechanism
- soft attention mechanism