Attention mechanism
- attentionなしseq2seq
- 1つの固定長ベクトル$\bold{h}^{(s)}_I$に入力の情報を全て詰め込んでdecoderに渡す
- そのベクトルは変化しない
- 最初に入力された情報がdecoderまで伝わりにくい問題がある
-
attentionありseq2seq
- $\bold{h}^{(t)}_I$と$\bar{\bold{h}}$で計算されるベクトルがdecoderに渡る
- $\bar{\bold{h}} = \sum_{i=1}^I a_i \bold{h}^{(s)}_i$
- 重み$a_i$は$\bold{h}^{(s)}_i$と$\bold{h}^{(t)}_j$の関数で,動的に変化する
- $\sum a_i=1$で,確率としても解釈可能
- 複数のベクトルに対して,どのベクトルを重要視するかを含めて学習させる仕組み
- $\bold{h}^{(t)}_I$と$\bar{\bold{h}}$で計算されるベクトルがdecoderに渡る
-
種類
- soft attention mechanism
- 複数のベクトルの重み付き平均を使う方法
- hard attention mechanism
- 重みに応じた確率分布に基づき,1つをサンプリングする方法
- local attention mechanism
- soft attention mechanism