深層格とゼロ代名詞の同時解析 [@Kudo:2014:ACL]

目的

  • 日英機械翻訳のために,深層格とゼロ代名詞の同時解析を行う
  • 主な困難な点
    • ヴォイスの推定: れる/られるは受動態でも可能態(potential)でも使われる
    • 表層ガ格: 可能態では主格から目的格に解釈が変わる
    • topic case marker「は」: 英語に存在せず,文脈に応じて文法役割が変わる
    • 主格はよく省略される

項構造の確率的モデル

導入

  • 品詞を元に人手ルールで,係り受け木から述語と項を抽出
  • 彼らが使っているpre-orderingシステムは,ラベル付き係り受け木から最終的な単語並びを出力する
  • そのため,タスクを「主辞とmodifierの係り受け関係間の,深層格ラベルの付与問題」と定式化する

定式化

項と述語の同時確率を $ P(p, z, v, A, S, D)$ と定義する.

  • $p$: 述語
    • 同一文の他の述語とは独立と仮定
  • $z$: $p$のゼロ主格($\neq$主格)の候補
    • $z \in Z = $ {I, you, we, it, he/she, imperative, already_exists}
    • imperativeはinvisible subjectを示す
    • already_existsは文中に存在することを示す
  • $v$: $p$のヴォイスの種類
    • $v \in V = $ {能動,受動,可能}
  • $a_k \in A$: $k$番目の項
    • 項: 述語を修飾するor修飾される
    • 関係節では述語が項を修飾する
  • $s_k$: $a_k$と$p$間の表層格ラベル
    • $s \in S$
  • $d_k$: $a_k$と$p$間の深層格ラベル
    • $d \in D$ = {subject, object, other}

$p$を与えられた上で解くべき問題は,以下の最適化問題.

$ \langle \hat{z}, \hat{v}, \hat{D} \rangle= argmax_{z, v, D} P(p, z, v, A, S, D)$

これを解くのは難しいので近似する. $ P(p, z, v, A, S, D) \approx P_z(z\mid p, A, S) P_v(v\mid p, A, S) P_d(D\mid p, v, A, S) P(p, A, S)$

$P(p, A, S)$は定数項なので,以下は$P_z, P_d, P_v$にいて考える.

ゼロ主格モデル $P_z$

  • 述語$p$のゼロ主格(ヴォイスも考慮)の推定を行うモデル
  • 最大エントロピー法で学習
    • 素性は$p, A, S$から抽出

ヴォイス種類モデル $P_v$

  • 述語$p$のヴォイスの推定を行うモデル
  • 最大エントロピー法で学習
  • 述語が「れる/られる」で終わる場合のみ使う
  • 可能動詞の場合はpotentialを高い確率を付けて返す

深層格モデル $P_d$

  • 述語と$p$とその項$a$との間の深層格ラベルを推定するモデル
  • 表層格がtopicの場合に深層格の同定を行う
  • $P_d$は項構造に関わらず独立だと仮定して近似する
  • $ P_d(D \mid p, v, A, S) \approx \prod_{i} \left[ \max \left( p(d_i\mid a_i,p) - m(s_i, d_i, v), \delta \right) \right]$
    • $p(d\mid a,p)$
      • $p$と$a$の間の深層関係をモデル化
      • 最尤推定する
      • $p \left(d=sbject \mid a,p \right) =\frac{freq(s=ガ, a, pが能動)}{ freq(a, pが能動) } $
      • $p \left(d=object \mid a,p \right) =\frac{freq(s=ヲ, a, pが能動)}{ freq(a, pが能動) } $
    • $m(s_i, d_i, v)$は非ゼロの罰則変数
      • 深層格$d$がヴォイス$v$の下でどのくらい表層格$s$を生成するかをモデル化
      • 文法書を元に人手で定義
      • 「意味」よりも統語的な選好を重要視する
    • $\delta$は確率ゼロを避けるために用いる非常に小さい定数

言語的成約上での同時推論

  • 最適化問題の近似で,ゼロ主格と深層格は独立だと仮定した
  • しかし現実的ではないので,以下の制約を導入
    • 主格は必須
    • 1つの述語が複数の主格や目的格は取らない
  • 整数線形計画(ILP)で解く
    • $x_i$: ある1つのbinary decisionを表すバイナリラベル (eg: $x_k=1$ if $d_i=subj$ and $v=$ active)
    • $p_i$: $x_i$の確率
    • $\{ \hat{x}, \ldots, \hat{x_n} \} = argmax \sum_i \log(p_i)x_i $
      • s.t. linear constrains over $\{ x_1, \ldots, x_n \}$

$ P(p, z, v, A, S, D)$のlogを取ることで,最適化問題がILPに変換された

日本語のpre-ordering

ルールで変換する. 例えば, 「今日は酒が飲める」を「zero_subject 飲める が 酒 は 今日」

ここでは,詳細は割愛する.

評価実験

  • 日英翻訳システム(Och2003)を使用
    • destortion limit は4単語
    • webから収集した300M単語データ
    • ランダム抽出した1万文で評価
  • shift-reduce parserで係り受け解析
  • ゼロ主格モデル$P_z$
    • 人手でアノテーションしたweb2万文
  • ヴォイス種類モデル$P_v$
    • 人手でアノテーションしたweb5000文

今後の課題

  • 使役態・同格・ゼロ目的格などの言語現象への適用
  • 現状では係り受けの1-bestを使っているが,その誤りに影響を受けるので,係り受け解析も同時に行う

References