Yuta Hayashibe

Attention mechanism

  • attentionなしseq2seq

    • 1つの固定長ベクトルhI(s)\bold{h}^{(s)}_Iに入力の情報を全て詰め込んでdecoderに渡す
    • そのベクトルは変化しない
    • 最初に入力された情報がdecoderまで伝わりにくい問題がある
  • attentionありseq2seq

    • h(t)_I\bold{h}^{(t)}\_Ihˉ\bar{\bold{h}}で計算されるベクトルがdecoderに渡る
      • hˉ=i=1Iaih(s)_i\bar{\bold{h}} = \sum_{i=1}^I a_i \bold{h}^{(s)}\_i
    • 重みaia_ihi(s)\bold{h}^{(s)}_ihj(t)\bold{h}^{(t)}_jの関数で,動的に変化する
    • ai=1\sum a_i=1で,確率としても解釈可能
    • 複数のベクトルに対して,どのベクトルを重要視するかを含めて学習させる仕組み
  • 種類

    • soft attention mechanism
      • 複数のベクトルの重み付き平均を使う方法
    • hard attention mechanism
      • 重みに応じた確率分布に基づき,1つをサンプリングする方法
    • local attention mechanism