格フレーム辞書の漸次的自動構築 [@Kawahara:2005:JNLP]
1次格フレームの構築
[@Kawahara:2002:JNLP]の類似度を以下のように修正して構築. 格フレームの類似度は$WeightedCaseSim$と$Alighment$の積.
なお,[@Kawahara:2002:JNLP]における「用例パターン」を「(最初の)格フレーム」と呼んでいる点, $l, m, n$のnotationが異なる点に注意.
- 記号
- 格フレーム$F_1$が,格$C_{11}, \cdots, C_{1l}, \cdots, C_{1m}$
- 格フレーム$F_2$が,格$C_{21}, \cdots, C_{2l}, \cdots, C_{2n}$
- $C_{1l}, C_{2l}$まで格が一致するとする
- $WeightedCaseSim (F_1, F_2) = \frac{ \sum_{i=1}^l \left( \sqrt{|C_{1i}||C_{2i}|} \cdot CaseSim(C_{1i}, C_{2i}) \right) }{\sum_{i=1}^l \sqrt{|C_{1i}||C_{2i}|} }$
- $CaseSim(C_{1i}, C_{2i}) = \frac{ \sum_{e_1 \in C_{1i} }\left( |e_1|\cdot \max \{ sim(e_1, e_2)|e_2 \in C_{2i} \} \right) + \sum_{e_2 \in C_{12} }\left( |e_2|\cdot \max \{ sim(e_1, e_2)|e_1 \in C_{1i} \} \right) }{ \sum_{e_1 \in C_{1i} }|e_1| + \sum_{e_2 \in C_{2i}} |e_2|}$
- 頻出する格の重みを強める
- $Alighment (F_1, F_2) = \sqrt{ \frac{\sum_{i=1}^l |C_{1i}|} { \sum_{i=1}^m |C_{1i}|} \cdot \frac{\sum_{i=1}^l |C_{2i}|} { \sum_{i=1}^n |C_{2i}|} }$
1次格フレームに基づく格解析
1次格フレームを使って各用言に対して格解析を行う.
- 格フレームの選択
- 格の対応付け
これにより,以下のことが新たに分かる
- 二重主語構文の外のガ格(ガ2格)
- 連体修飾の外の関係
2次格フレーム辞書の構築
ガ2格の作成
- 733用言,16,431格フレームに対して得られた
3次格フレーム辞書の構築
外の関係の用例の獲得
- 828用言,32,243格フレームに対して得られた
高次格フレーム辞書の構築
類似している格の組に対して「交換可能」という情報を付与
- 格の類似判定を行う(閾値0.80)
- ガ格・ヲ格・ニ格などの基本的な格同士については対象外
- 1,449組の類似している格が得られた
格フレーム辞書の後処理
- 不完全な格フレームの修正・削除
- データスパースネスが原因で低頻度の格フレームで,とるべき格をもたないことがある
- ガ格以外に対して,格をもつかどうかを同じ用言の別の格フレームも用いて判定
- 1用言平均3.2格フレームを削除
- ガ格に意味属性<主体>を1用言あたり平均7.8個補った
- 必須格の選択