受身形と能動形の対応付け [@Sasano:2012:SIGNL]
[@Sasano:2012:SIGNL]は,受身形と能動形の対応付けを大規模に行った.
前提
受け身に変換する方法は格フレームごとに異なることを理解しておくことが必要.
- 彼が 私に 仕事を 頼んだ -> 私が 彼{に,から} 仕事を頼まれた
- 彼が 私を 殴った -> 私が 彼{に,から} 仕事を頼まれた
- 彼が 親に 子育てを 頼る -> 親が 私{に,から} 子育てを頼られる
- 彼女が 私を 頼る -> 私が 彼女{に,から} 頼られる
関連研究
- 近藤らの研究
- 村田らの研究
いずれも手動で行ったもの.
受け身文の分類
基本的に次のような関係になる.(現代日本語文法)
種類 | 主体(能動文->受身文) | 客体(能動文->受身文) | 例(能動文->受身文) |
---|---|---|---|
直接受身文 | が -> {に,によって,から,で} | {を,に} -> が | 彼が私に頼んだ -> 私が彼から頼まれた |
間接受身文 | が -> に | φ -> が | 雨が降った -> 彼が雨に降られた |
持ち主の受身文 | が -> に | ヲ格・ニ格名詞のノ格 ->が | 泥棒が友人のカードを盗んだ -> 友人が泥棒にカードを盗まれた |
格変換の対象になるのは,主体と客体(ここでは受身文のガ格をこう呼ぶことにする).
したがって,対応の可能性をまとめると,
主体 | 客体(受身文のガ格) | |
---|---|---|
能動文 | が | を,に,ニ格名詞のノ格,対応無 |
受身文 | に,によって,から,で,対応無 | が |
となる.
自動対応付け
-
web69億文
-
考えうるすべての格フレームと格の対応付けパターンそれぞれに対して「スコア」を計算
- $score = sim_{SEM} * sim_{DIST}$
- 開発データがある実験設定ではスコアに補正
- 受身形のガ格が能動形で「を」に対応付けられた場合のスコアを2.0倍
- NILに対応付けられた場合のスコアを0.5倍
- 能動形におけるガ格の対応先が「から」となっている場合のスコアを1.5倍
- 「で」となっている場合のスコアを0.5倍
- 最大スコアをもつ対応付けパターンを出力する
格変換実験
村田らのデータ3565事例に修正を加えて,開発データと評価データに2分割. KNPの格解析の結果に対して処理. 以下の5つの比較を行った.
- 最頻変換モデル: 開発データ中で最も頻度の高い格に変換
- 分布類似度不使用モデル: 提案手法から分布類似度を除去
- 提案手法: 自動獲得した対応付けに従う
- 村田らの手法: SVMを用いた機械学習の手法
- 提案手法(教師あり): 提案手法を素性として村田らの手法に加えたもの
提案手法が良かった.
格変換の誤り原因
- 格を1対1で対応付けている
- 受身と尊敬の「れる / られる」を区別していない
- KNPによる格フレームの選択精度の問題
- 複数のニ格を取る受身形格構造に対応していない
今後の課題
- 使役形と能動形の対応付け
- 授受動詞間の対応付け
格変換の対象も
- 本稿: 受身文において格助詞が明示された項のみ
- 今後: 提題助詞の使用や,被連体修飾要素としての出現,ゼロ代名詞化などにより格が明示されていない場合も
というように拡張したい.
References
- 笹野遼平ら,大規模語彙的知識に基づく受身形と能動形の表層格の対応付け,情報処理学会第207回自然言語処理研究会,2012
- 村田真樹ら,入力文の格助詞ごとに学習データを分割した機械学習による受身文の能動文への変換における格助詞の変換,システム制御情報学会論文誌, Vol. 21, No. 6, pp. 165–175 (2008)
- Murata et al., Machine-Learning-Based Transformation of Passive Japanese Sentences into Active by Separating Training Data into Each Input Particle, COLING-ACL 2006
- NICT 格助詞変換データ