格フレーム辞書の漸次的自動構築 [@Kawahara:2005:JNLP]
[@Kawahara:2002:JNLP]の続き.
1次格フレームの構築
[@Kawahara:2002:JNLP]の類似度を以下のように修正して構築.
格フレームの類似度はWeightedCaseSimとAlignmentの積.
なお,[@Kawahara:2002:JNLP]における「用例パターン」を「(最初の)格フレーム」と呼んでいる点,
l,m,nのnotationが異なる点に注意.
- 記号
- 格フレームF1が,格C11,⋯,C1l,⋯,C1m
- 格フレームF2が,格C21,⋯,C2l,⋯,C2n
- C1l,C2lまで格が一致するとする
- WeightedCaseSim(F1,F2)=∑i=1l∣C1i∣∣C2i∣∑i=1l(∣C1i∣∣C2i∣⋅CaseSim(C1i,C2i))
- CaseSim(C1i,C2i)=∑e1∈C1i∣e1∣+∑e2∈C2i∣e2∣∑e1∈C1i(∣e1∣⋅maxsim(e1,e2)∣e2∈C2i)+∑e2∈C12(∣e2∣⋅maxsim(e1,e2)∣e1∈C1i)
- 頻出する格の重みを強める
- Alignment(F1,F2)=∑i=1m∣C1i∣∑i=1l∣C1i∣⋅∑i=1n∣C2i∣∑i=1l∣C2i∣
1次格フレームに基づく格解析
1次格フレームを使って各用言に対して格解析を行う.
これにより,以下のことが新たに分かる
- 二重主語構文の外のガ格(ガ2格)
- 連体修飾の外の関係
2次格フレーム辞書の構築
ガ2格の作成
- 733用言,16,431格フレームに対して得られた
3次格フレーム辞書の構築
外の関係の用例の獲得
- 828用言,32,243格フレームに対して得られた
高次格フレーム辞書の構築
類似している格の組に対して「交換可能」という情報を付与
- 格の類似判定を行う(閾値0.80)
- ガ格・ヲ格・ニ格などの基本的な格同士については対象外
- 1,449組の類似している格が得られた
格フレーム辞書の後処理
- 不完全な格フレームの修正・削除
- データスパースネスが原因で低頻度の格フレームで,とるべき格をもたないことがある
- ガ格以外に対して,格をもつかどうかを同じ用言の別の格フレームも用いて判定
- 1用言平均3.2格フレームを削除
- ガ格に意味属性<主体>を1用言あたり平均7.8個補った
- 必須格の選択
References