京都大学テキストコーパス
- 毎日新聞の記事約4万文に形態素・構文情報を人手で付与したテキストコーパス
- 1995年1月1日から17日までの全記事,約2万文
- 1995年1月から12月までの社説記事,約2万文
- 形態素解析をJUMAN,構文解析をKNPで行い,その結果を人手で修正したもの
- 5,000文に対しては,格関係,照応・省略関係,共参照の情報を付与
- 言語情報を付与する対象として,アンケート結果などのようにテキストコーパスとして不適当なものは記事単位,文単位で適宜除去
形態素・構文コーパスのフォーマット
# S-ID:951002038-029 KNP:99/01/24
<中略>
* 4 5D
論理 ろんり * 名詞 普通名詞 * *
が が * 助詞 格助詞 * *
* 5 -1D
重要な じゅうような 重要だ 形容詞 * ナ形容詞 ダ列基本連体形
のだ のだ のだ 助動詞 * ナ形容詞 基本形
。 。 * 特殊 句点 * *
EOS
- 先頭行は文ID
- 以降の各行は,
*
で始まる行は文節の区切り,他は一つの形態素の情報 - 形態素情報
- JUMANの出力に準拠
- 表記,読み,原形(活用しない語の場合は
*
),品詞,品詞細分類,活用型,活用形
*
で始まる文節区切り行- 最初の数字が文節(次の
*
行までの形態素列)の番号 - 2番目の数字がその文節の係り先の文節番号
- 2番目の数字に続く記号D,P,Aによって通常の係り受け関係,並列関係,同格関係を区別
- 最初の数字が文節(次の
格関係、照応・省略関係、共参照タグ付きコーパスのフォーマット
# S-ID:950101001-001
* 0 2D
+ 0 3D
太郎 たろう * 名詞 人名 * *
は は * 助詞 副助詞 * *
* 1 2D
+ 1 2D
東京 とうきょう * 名詞 固有名詞 * *
+ 2 3D
大学 だいがく * 名詞 普通名詞 * *
に に * 助詞 格助詞 * *
* 2 -1D
+ 3 -1D <rel type="ガ" target="太郎" sid="950101001-001" tag="0"/><rel type="ニ" target="大学" sid="950101001-001" tag="2"/>
行った いった 行く 動詞 * 子音動詞カ行促音便形 基本形
EOS
-
+
で始まる行- 各種関係を付与する単位であるタグ単位を表している
- タグ単位は、文節と同じかその一部
-
2文節にまたがるタグ単位は無い
-
<rel>
タグ以前は,文節区切り行と同様のフォーマット- 最初の数字がタグ単位番号
- 2番目の数字がそのタグ単位の係り先のタグ単位番号
- 2番目の数字に続く記号は文節区切り行と同様
<rel>
タグ- 関係情報
- 4つの属性
type
関係名target
関係をもつ相手sid
その文番号tag
そのタグ単位番号
- 同じ関係名のタグが複数ある場合
<mode>
によってそれらのタグ間の関係(AND
,OR
,?
の関係のいずれか)が示されている
+
で始まる行以外の書式- 形態素・構文タグ付きコーパスと同じ
歴史
- 1996/01 プロジェクト開始
- 前半はJUMANの改善
- 後半はKNPの改善
- 1997/01 人手での修正作業を開始
- 〜1997/03 「正しい」形態素・構文情報を付与したコーパス約2万文を作成
- このうち,約1万文を1997/03に公開
- 1997/09 Version 1.0
- 約1万文
- 1998/06 Version 2.0
- 約2万文
- 2000/07/07 Version 3.0
- 約4万文 (約95万語)
- 2005/04/22 Version 4.0
- 5,000文に対して,格関係,照応・省略関係,共参照の情報を付与
- 除去対象の文はVersion 3.0より少なくなっている
- 各種関係情報の付与に支障とならないように、対象外の文を可能なかぎり減らしているため
参考文献
- 黒橋禎夫, 長尾眞. (1997). 京都大学テキストコーパス・プロジェクト. 言語処理学会第3回年次大会予稿集, pp.115–118.
- Kurohashi, S., Nagao, M. (1998). Building a Japanese Parsed Corpus while Improving the Parsing System. In Proceedings of the 1st International Conference on Language Resources and Evaluation pp.719–724.
- Kurohashi, S., Nagao, M. (2003).
“Building a Japanese Parsed Corpus.”
In Treebanks: Building and Using Parsed Corpora, pp.249–260.
- LREC1998の同名の論文を発展させたもの
- Version 3.0までの総括
- 河原大輔, 黒橋禎夫, 橋田浩一. (2002). 「関係」タグ付きコーパスの作成. 言語処理学会 第8回年次大会予稿集, pp.495–498
- Version 4.0で付与された「関係」についての情報
- Kawahara, D., Kurohashi, S., and Hasida, K. (2002).
“Construction of a Japanese Relevance-tagged Corpus.”
In Proceedings of the 3rd International Conference on Language Resources and Evaluation,
pp. 2008–2013.
- [河原+02]を英語化した論文