格フレーム辞書の漸次的自動構築 [@Kawahara:2005:JNLP]

[@Kawahara:2002:JNLP]の続き.

1次格フレームの構築

[@Kawahara:2002:JNLP]の類似度を以下のように修正して構築. 格フレームの類似度は$WeightedCaseSim$と$Alighment$の積.

なお,[@Kawahara:2002:JNLP]における「用例パターン」を「(最初の)格フレーム」と呼んでいる点, $l, m, n$のnotationが異なる点に注意.

  • 記号
    • 格フレーム$F_1$が,格$C_{11}, \cdots, C_{1l}, \cdots, C_{1m}$
    • 格フレーム$F_2$が,格$C_{21}, \cdots, C_{2l}, \cdots, C_{2n}$
    • $C_{1l}, C_{2l}$まで格が一致するとする
  • $WeightedCaseSim (F_1, F_2) = \frac{ \sum_{i=1}^l \left( \sqrt{|C_{1i}||C_{2i}|} \cdot CaseSim(C_{1i}, C_{2i}) \right) }{\sum_{i=1}^l \sqrt{|C_{1i}||C_{2i}|} }$
    • $CaseSim(C_{1i}, C_{2i}) = \frac{ \sum_{e_1 \in C_{1i} }\left( |e_1|\cdot \max \{ sim(e_1, e_2)|e_2 \in C_{2i} \} \right) + \sum_{e_2 \in C_{12} }\left( |e_2|\cdot \max \{ sim(e_1, e_2)|e_1 \in C_{1i} \} \right) }{ \sum_{e_1 \in C_{1i} }|e_1| + \sum_{e_2 \in C_{2i}} |e_2|}$
    • 頻出する格の重みを強める
  • $Alighment (F_1, F_2) = \sqrt{ \frac{\sum_{i=1}^l |C_{1i}|} { \sum_{i=1}^m |C_{1i}|} \cdot \frac{\sum_{i=1}^l |C_{2i}|} { \sum_{i=1}^n |C_{2i}|} }$

1次格フレームに基づく格解析

1次格フレームを使って各用言に対して格解析を行う.

  • 格フレームの選択
  • 格の対応付け

これにより,以下のことが新たに分かる

  • 二重主語構文の外のガ格(ガ2格)
  • 連体修飾の外の関係

2次格フレーム辞書の構築

ガ2格の作成

  • 733用言,16,431格フレームに対して得られた

3次格フレーム辞書の構築

外の関係の用例の獲得

  • 828用言,32,243格フレームに対して得られた

高次格フレーム辞書の構築

類似している格の組に対して「交換可能」という情報を付与

  • 格の類似判定を行う(閾値0.80)
  • ガ格・ヲ格・ニ格などの基本的な格同士については対象外
  • 1,449組の類似している格が得られた

格フレーム辞書の後処理

  • 不完全な格フレームの修正・削除
    • データスパースネスが原因で低頻度の格フレームで,とるべき格をもたないことがある
    • ガ格以外に対して,格をもつかどうかを同じ用言の別の格フレームも用いて判定
    • 1用言平均3.2格フレームを削除
    • ガ格に意味属性<主体>を1用言あたり平均7.8個補った
  • 必須格の選択

References