Attention mechanism

attentionなしseq2seq
- 1つの固定長ベクトル$\bold{h}^{(s)}_I$に入力の情報を全て詰め込んでdecoderに渡す
- そのベクトルは変化しない
- 最初に入力された情報がdecoderまで伝わりにくい問題がある
attentionありseq2seq
- $\bold{h}^{(t)}_I$と$\bar{\bold{h}}$で計算されるベクトルがdecoderに渡る
  - $\bar{\bold{h}} = \sum_{i=1}^I a_i \bold{h}^{(s)}_i$
- 重み$a_i$は$\bold{h}^{(s)}_i$と$\bold{h}^{(t)}_j$の関数で，動的に変化する
- $\sum a_i=1$で，確率としても解釈可能
- 複数のベクトルに対して，どのベクトルを重要視するかを含めて学習させる仕組み
種類
- soft attention mechanism
  - 複数のベクトルの重み付き平均を使う方法
- hard attention mechanism
  - 重みに応じた確率分布に基づき，1つをサンプリングする方法
- local attention mechanism