深層格とゼロ代名詞の同時解析 [@Kudo:2014:ACL]
目的
- 日英機械翻訳のために,深層格とゼロ代名詞の同時解析を行う
- 主な困難な点
- ヴォイスの推定: れる/られるは受動態でも可能態(potential)でも使われる
- 表層ガ格: 可能態では主格から目的格に解釈が変わる
- topic case marker「は」: 英語に存在せず,文脈に応じて文法役割が変わる
- 主格はよく省略される
項構造の確率的モデル
導入
- 品詞を元に人手ルールで,係り受け木から述語と項を抽出
- 彼らが使っているpre-orderingシステムは,ラベル付き係り受け木から最終的な単語並びを出力する
- そのため,タスクを「主辞とmodifierの係り受け関係間の,深層格ラベルの付与問題」と定式化する
定式化
項と述語の同時確率を $ P(p, z, v, A, S, D)$ と定義する.
- $p$: 述語
- 同一文の他の述語とは独立と仮定
- $z$: $p$のゼロ主格($\neq$主格)の候補
- $z \in Z = $ {I, you, we, it, he/she, imperative, already_exists}
- imperativeはinvisible subjectを示す
- already_existsは文中に存在することを示す
- $v$: $p$のヴォイスの種類
- $v \in V = $ {能動,受動,可能}
- $a_k \in A$: $k$番目の項
- 項: 述語を修飾するor修飾される
- 関係節では述語が項を修飾する
- $s_k$: $a_k$と$p$間の表層格ラベル
- $s \in S$
- $d_k$: $a_k$と$p$間の深層格ラベル
- $d \in D$ = {subject, object, other}
$p$を与えられた上で解くべき問題は,以下の最適化問題.
$ \langle \hat{z}, \hat{v}, \hat{D} \rangle= argmax_{z, v, D} P(p, z, v, A, S, D)$
これを解くのは難しいので近似する. $ P(p, z, v, A, S, D) \approx P_z(z\mid p, A, S) P_v(v\mid p, A, S) P_d(D\mid p, v, A, S) P(p, A, S)$
$P(p, A, S)$は定数項なので,以下は$P_z, P_d, P_v$にいて考える.
ゼロ主格モデル $P_z$
- 述語$p$のゼロ主格(ヴォイスも考慮)の推定を行うモデル
- 最大エントロピー法で学習
- 素性は$p, A, S$から抽出
ヴォイス種類モデル $P_v$
- 述語$p$のヴォイスの推定を行うモデル
- 最大エントロピー法で学習
- 述語が「れる/られる」で終わる場合のみ使う
- 可能動詞の場合はpotentialを高い確率を付けて返す
深層格モデル $P_d$
- 述語と$p$とその項$a$との間の深層格ラベルを推定するモデル
- 表層格がtopicの場合に深層格の同定を行う
- $P_d$は項構造に関わらず独立だと仮定して近似する
- $ P_d(D \mid p, v, A, S) \approx \prod_{i} \left[ \max \left( p(d_i\mid a_i,p) - m(s_i, d_i, v), \delta \right) \right]$
- $p(d\mid a,p)$
- $p$と$a$の間の深層関係をモデル化
- 最尤推定する
- $p \left(d=sbject \mid a,p \right) =\frac{freq(s=ガ, a, pが能動)}{ freq(a, pが能動) } $
- $p \left(d=object \mid a,p \right) =\frac{freq(s=ヲ, a, pが能動)}{ freq(a, pが能動) } $
- $m(s_i, d_i, v)$は非ゼロの罰則変数
- 深層格$d$がヴォイス$v$の下でどのくらい表層格$s$を生成するかをモデル化
- 文法書を元に人手で定義
- 「意味」よりも統語的な選好を重要視する
- $\delta$は確率ゼロを避けるために用いる非常に小さい定数
- $p(d\mid a,p)$
言語的成約上での同時推論
- 最適化問題の近似で,ゼロ主格と深層格は独立だと仮定した
- しかし現実的ではないので,以下の制約を導入
- 主格は必須
- 1つの述語が複数の主格や目的格は取らない
- 整数線形計画(ILP)で解く
- $x_i$: ある1つのbinary decisionを表すバイナリラベル (eg: $x_k=1$ if $d_i=subj$ and $v=$ active)
- $p_i$: $x_i$の確率
- $\{ \hat{x}, \ldots, \hat{x_n} \} = argmax \sum_i \log(p_i)x_i $
- s.t. linear constrains over $\{ x_1, \ldots, x_n \}$
$ P(p, z, v, A, S, D)$のlogを取ることで,最適化問題がILPに変換された
日本語のpre-ordering
ルールで変換する. 例えば, 「今日は酒が飲める」を「zero_subject 飲める が 酒 は 今日」
ここでは,詳細は割愛する.
評価実験
- 日英翻訳システム(Och2003)を使用
- destortion limit は4単語
- webから収集した300M単語データ
- ランダム抽出した1万文で評価
- shift-reduce parserで係り受け解析
- ゼロ主格モデル$P_z$
- 人手でアノテーションしたweb2万文
- ヴォイス種類モデル$P_v$
- 人手でアノテーションしたweb5000文
今後の課題
- 使役態・同格・ゼロ目的格などの言語現象への適用
- 現状では係り受けの1-bestを使っているが,その誤りに影響を受けるので,係り受け解析も同時に行う
References
- 工藤拓ら"A joint inference of deep case analysis and zero subject generation for Japanese-to-English statistical machine translation", 言語処理学会第20回年次大会発表論文集,2014
- Kudo et al., "A joint inference of deep case analysis and zero subject generation for Japanese-to-English statistical machine translation", ACL 2014