受身形と能動形の対応付け [@Sasano:2012:SIGNL]

[@Sasano:2012:SIGNL]は,受身形と能動形の対応付けを大規模に行った.

前提

受け身に変換する方法は格フレームごとに異なることを理解しておくことが必要.

  • 彼が 私 仕事を 頼んだ -> 私 彼{に,から} 仕事を頼まれた
  • 彼が 私 殴った -> 私 彼{に,から} 仕事を頼まれた
  • 彼が 親 子育てを 頼る -> 親 私{に,から} 子育てを頼られる
  • 彼女が 私 頼る -> 私 彼女{に,から} 頼られる

関連研究

  • 近藤らの研究
  • 村田らの研究

いずれも手動で行ったもの.

受け身文の分類

基本的に次のような関係になる.(現代日本語文法)

種類 主体(能動文->受身文) 客体(能動文->受身文) 例(能動文->受身文)
直接受身文 が -> {に,によって,から,で} {を,に} -> が 頼んだ -> 私から頼まれた
間接受身文 が -> に φ -> が 降った -> 彼降られた
持ち主の受身文 が -> に ヲ格・ニ格名詞のノ格 ->が 泥棒が友人のカードを盗んだ -> 友人が泥棒にカードを盗まれた

格変換の対象になるのは,主体と客体(ここでは受身文のガ格をこう呼ぶことにする).

したがって,対応の可能性をまとめると,

主体 客体(受身文のガ格)
能動文 を,に,ニ格名詞のノ格,対応無
受身文 に,によって,から,で,対応無

となる.

自動対応付け

  • web69億文

  • 考えうるすべての格フレームと格の対応付けパターンそれぞれに対して「スコア」を計算

    • $score = sim_{SEM} * sim_{DIST}$
    • 開発データがある実験設定ではスコアに補正
      • 受身形のガ格が能動形で「を」に対応付けられた場合のスコアを2.0倍
      • NILに対応付けられた場合のスコアを0.5倍
      • 能動形におけるガ格の対応先が「から」となっている場合のスコアを1.5倍
      • 「で」となっている場合のスコアを0.5倍
  • 最大スコアをもつ対応付けパターンを出力する

格変換実験

村田らのデータ3565事例に修正を加えて,開発データと評価データに2分割. KNPの格解析の結果に対して処理. 以下の5つの比較を行った.

  • 最頻変換モデル: 開発データ中で最も頻度の高い格に変換
  • 分布類似度不使用モデル: 提案手法から分布類似度を除去
  • 提案手法: 自動獲得した対応付けに従う
  • 村田らの手法: SVMを用いた機械学習の手法
  • 提案手法(教師あり): 提案手法を素性として村田らの手法に加えたもの

提案手法が良かった.

格変換の誤り原因

  • 格を1対1で対応付けている
  • 受身と尊敬の「れる / られる」を区別していない
  • KNPによる格フレームの選択精度の問題
  • 複数のニ格を取る受身形格構造に対応していない

今後の課題

  • 使役形と能動形の対応付け
  • 授受動詞間の対応付け

格変換の対象も

  • 本稿: 受身文において格助詞が明示された項のみ
  • 今後: 提題助詞の使用や,被連体修飾要素としての出現,ゼロ代名詞化などにより格が明示されていない場合も

というように拡張したい.

References