Yuta Hayashibe

格フレーム辞書の漸次的自動構築 [@Kawahara:2005:JNLP]

[@Kawahara:2002:JNLP]の続き.

1次格フレームの構築

[@Kawahara:2002:JNLP]の類似度を以下のように修正して構築. 格フレームの類似度はWeightedCaseSimWeightedCaseSimAlignmentAlignmentの積.

なお,[@Kawahara:2002:JNLP]における「用例パターン」を「(最初の)格フレーム」と呼んでいる点, l,m,nl, m, nのnotationが異なる点に注意.

  • 記号
    • 格フレームF1F_1が,格C11,,C1l,,C1mC_{11}, \cdots, C_{1l}, \cdots, C_{1m}
    • 格フレームF2F_2が,格C21,,C2l,,C2nC_{21}, \cdots, C_{2l}, \cdots, C_{2n}
    • C1l,C2lC_{1l}, C_{2l}まで格が一致するとする
  • WeightedCaseSim(F1,F2)=i=1l(C1iC2iCaseSim(C1i,C2i))i=1lC1iC2iWeightedCaseSim (F_1, F_2) = \frac{ \sum_{i=1}^l \left( \sqrt{|C_{1i}||C_{2i}|} \cdot CaseSim(C_{1i}, C_{2i}) \right) }{\sum_{i=1}^l \sqrt{|C_{1i}||C_{2i}|} }
    • CaseSim(C1i,C2i)=e1C1i(e1maxsim(e1,e2)e2C2i)+e2C12(e2maxsim(e1,e2)e1C1i)e1C1ie1+e2C2ie2CaseSim(C_{1i}, C_{2i}) = \frac{ \sum_{e_1 \in C_{1i} }\left( |e_1|\cdot \max \\{ sim(e_1, e_2)|e_2 \in C_{2i} \\} \right) + \sum_{e_2 \in C_{12} }\left( |e_2|\cdot \max \\{ sim(e_1, e_2)|e_1 \in C_{1i} \\} \right) }{ \sum_{e_1 \in C_{1i} }|e_1| + \sum_{e_2 \in C_{2i}} |e_2|}
    • 頻出する格の重みを強める
  • Alignment(F1,F2)=i=1lC1ii=1mC1ii=1lC2ii=1nC2iAlignment (F_1, F_2) = \sqrt{ \frac{\sum_{i=1}^l |C_{1i}|} { \sum_{i=1}^m |C_{1i}|} \cdot \frac{\sum_{i=1}^l |C_{2i}|} { \sum_{i=1}^n |C_{2i}|} }

1次格フレームに基づく格解析

1次格フレームを使って各用言に対して格解析を行う.

  • 格フレームの選択
  • 格の対応付け

これにより,以下のことが新たに分かる

  • 二重主語構文の外のガ格(ガ2格)
  • 連体修飾の外の関係

2次格フレーム辞書の構築

ガ2格の作成

  • 733用言,16,431格フレームに対して得られた

3次格フレーム辞書の構築

外の関係の用例の獲得

  • 828用言,32,243格フレームに対して得られた

高次格フレーム辞書の構築

類似している格の組に対して「交換可能」という情報を付与

  • 格の類似判定を行う(閾値0.80)
  • ガ格・ヲ格・ニ格などの基本的な格同士については対象外
  • 1,449組の類似している格が得られた

格フレーム辞書の後処理

  • 不完全な格フレームの修正・削除
    • データスパースネスが原因で低頻度の格フレームで,とるべき格をもたないことがある
    • ガ格以外に対して,格をもつかどうかを同じ用言の別の格フレームも用いて判定
    • 1用言平均3.2格フレームを削除
    • ガ格に意味属性<主体>を1用言あたり平均7.8個補った
  • 必須格の選択

References