Yuta Hayashibe

深層格とゼロ代名詞の同時解析 [@Kudo:2014:ACL]

目的

  • 日英機械翻訳のために,深層格とゼロ代名詞の同時解析を行う
  • 主な困難な点
    • ヴォイスの推定: れる/られるは受動態でも可能態(potential)でも使われる
    • 表層ガ格: 可能態では主格から目的格に解釈が変わる
    • topic case marker「は」: 英語に存在せず,文脈に応じて文法役割が変わる
    • 主格はよく省略される

項構造の確率的モデル

導入

  • 品詞を元に人手ルールで,係り受け木から述語と項を抽出
  • 彼らが使っているpre-orderingシステムは,ラベル付き係り受け木から最終的な単語並びを出力する
  • そのため,タスクを「主辞とmodifierの係り受け関係間の,深層格ラベルの付与問題」と定式化する

定式化

項と述語の同時確率を P(p,z,v,A,S,D) P(p, z, v, A, S, D) と定義する.

  • pp: 述語
    • 同一文の他の述語とは独立と仮定
  • zz: ppゼロ主格(\neq主格)の候補
    • zZ=z \in Z = {I, you, we, it, he/she, imperative, already_exists}
    • imperativeはinvisible subjectを示す
    • already_existsは文中に存在することを示す
  • vv: ppのヴォイスの種類
    • vV=v \in V = {能動,受動,可能}
  • akAa_k \in A: kk番目の項
    • 項: 述語を修飾するor修飾される
    • 関係節では述語が項を修飾する
  • sks_k: aka_kpp間の表層格ラベル
    • sSs \in S
  • dkd_k: aka_kpp間の深層格ラベル
    • dDd \in D = {subject, object, other}

ppを与えられた上で解くべき問題は,以下の最適化問題.

z^,v^,D^=argmaxz,v,DP(p,z,v,A,S,D) \langle \hat{z}, \hat{v}, \hat{D} \rangle= argmax_{z, v, D} P(p, z, v, A, S, D)

これを解くのは難しいので近似する. P(p,z,v,A,S,D)Pz(zp,A,S)Pv(vp,A,S)Pd(Dp,v,A,S)P(p,A,S) P(p, z, v, A, S, D) \approx P_z(z\mid p, A, S) P_v(v\mid p, A, S) P_d(D\mid p, v, A, S) P(p, A, S)

P(p,A,S)P(p, A, S)は定数項なので,以下はPz,Pd,PvP_z, P_d, P_vにいて考える.

ゼロ主格モデル PzP_z

  • 述語ppのゼロ主格(ヴォイスも考慮)の推定を行うモデル
  • 最大エントロピー法で学習
    • 素性はp,A,Sp, A, Sから抽出

ヴォイス種類モデル PvP_v

  • 述語ppのヴォイスの推定を行うモデル
  • 最大エントロピー法で学習
  • 述語が「れる/られる」で終わる場合のみ使う
  • 可能動詞の場合はpotentialを高い確率を付けて返す

深層格モデル PdP_d

  • 述語とppとその項aaとの間の深層格ラベルを推定するモデル
  • 表層格がtopicの場合に深層格の同定を行う
  • PdP_dは項構造に関わらず独立だと仮定して近似する
  • Pd(Dp,v,A,S)i[max(p(diai,p)m(si,di,v),δ)] P_d(D \mid p, v, A, S) \approx \prod_{i} \left[ \max \left( p(d_i\mid a_i,p) - m(s_i, d_i, v), \delta \right) \right]
    • p(da,p)p(d\mid a,p)
      • ppaaの間の深層関係をモデル化
      • 最尤推定する
      • p(d=sbjecta,p)=freq(s=,a,p=能動)freq(a,p=能動)p \left(d=sbject \mid a,p \right) =\frac{freq(s=\text{ガ}, a, p=\text{能動})}{freq(a, p=\text{能動})}
      • p(d=objecta,p)=freq(s=,a,p=能動)freq(a,p=能動)p \left(d=object \mid a,p \right) =\frac{freq(s=\text{ヲ}, a, p=\text{能動})}{freq(a, p=\text{能動})}
    • m(si,di,v)m(s_i, d_i, v)は非ゼロの罰則変数
      • 深層格ddがヴォイスvvの下でどのくらい表層格ssを生成するかをモデル化
      • 文法書を元に人手で定義
      • 「意味」よりも統語的な選好を重要視する
    • δ\deltaは確率ゼロを避けるために用いる非常に小さい定数

言語的成約上での同時推論

  • 最適化問題の近似で,ゼロ主格と深層格は独立だと仮定した
  • しかし現実的ではないので,以下の制約を導入
    • 主格は必須
    • 1つの述語が複数の主格や目的格は取らない
  • 整数線形計画(ILP)で解く
    • xix_i: ある1つのbinary decisionを表すバイナリラベル (eg: xk=1x_k=1 if di=subjd_i=subj and v=v= active)
    • pip_i: xix_iの確率
    • x^,,xn^=argmaxilog(pi)xi\\{ \hat{x}, \ldots, \hat{x_n} \\} = argmax \sum_i \log(p_i)x_i
      • s.t. linear constrains over x1,,xn\\{ x_1, \ldots, x_n \\}

P(p,z,v,A,S,D) P(p, z, v, A, S, D)のlogを取ることで,最適化問題がILPに変換された

日本語のpre-ordering

ルールで変換する. 例えば, 「今日は酒が飲める」を「zero_subject 飲める が 酒 は 今日」

ここでは,詳細は割愛する.

評価実験

  • 日英翻訳システム(Och2003)を使用
    • destortion limit は4単語
    • webから収集した300M単語データ
    • ランダム抽出した1万文で評価
  • shift-reduce parserで係り受け解析
  • ゼロ主格モデルPzP_z
    • 人手でアノテーションしたweb2万文
  • ヴォイス種類モデルPvP_v
    • 人手でアノテーションしたweb5000文

今後の課題

  • 使役態・同格・ゼロ目的格などの言語現象への適用
  • 現状では係り受けの1-bestを使っているが,その誤りに影響を受けるので,係り受け解析も同時に行う

References