Attention mechanism

  • attentionなしseq2seq
    • 1つの固定長ベクトル$\bold{h}^{(s)}_I$に入力の情報を全て詰め込んでdecoderに渡す
    • そのベクトルは変化しない
    • 最初に入力された情報がdecoderまで伝わりにくい問題がある
  • attentionありseq2seq

    • $\bold{h}^{(t)}_I$と$\bar{\bold{h}}$で計算されるベクトルがdecoderに渡る
      • $\bar{\bold{h}} = \sum_{i=1}^I a_i \bold{h}^{(s)}_i$
    • 重み$a_i$は$\bold{h}^{(s)}_i$と$\bold{h}^{(t)}_j$の関数で,動的に変化する
    • $\sum a_i=1$で,確率としても解釈可能
    • 複数のベクトルに対して,どのベクトルを重要視するかを含めて学習させる仕組み
  • 種類

    • soft attention mechanism
      • 複数のベクトルの重み付き平均を使う方法
    • hard attention mechanism
      • 重みに応じた確率分布に基づき,1つをサンプリングする方法
    • local attention mechanism