京都大学テキストコーパス

  • 毎日新聞の記事約4万文に形態素・構文情報を人手で付与したテキストコーパス
    • 1995年1月1日から17日までの全記事,約2万文
    • 1995年1月から12月までの社説記事,約2万文
  • 形態素解析をJUMAN,構文解析をKNPで行い,その結果を人手で修正したもの
    • 5,000文に対しては,格関係,照応・省略関係,共参照の情報を付与
  • 言語情報を付与する対象として,アンケート結果などのようにテキストコーパスとして不適当なものは記事単位,文単位で適宜除去

形態素・構文コーパスのフォーマット

# S-ID:951002038-029 KNP:99/01/24
<中略>
* 4 5D
論理 ろんり * 名詞 普通名詞 * *
が が * 助詞 格助詞 * *
* 5 -1D
重要な じゅうような 重要だ 形容詞 * ナ形容詞 ダ列基本連体形
のだ のだ のだ 助動詞 * ナ形容詞 基本形
。 。 * 特殊 句点 * *
EOS
  • 先頭行は文ID
  • 以降の各行は,*で始まる行は文節の区切り,他は一つの形態素の情報
  • 形態素情報
    • JUMANの出力に準拠
    • 表記,読み,原形(活用しない語の場合は*),品詞,品詞細分類,活用型,活用形
  • *で始まる文節区切り行
    • 最初の数字が文節(次の*行までの形態素列)の番号
    • 2番目の数字がその文節の係り先の文節番号
    • 2番目の数字に続く記号D,P,Aによって通常の係り受け関係,並列関係,同格関係を区別

格関係、照応・省略関係、共参照タグ付きコーパスのフォーマット

# S-ID:950101001-001
* 0 2D
+ 0 3D
太郎 たろう * 名詞 人名 * *
は は * 助詞 副助詞 * *
* 1 2D
+ 1 2D
東京 とうきょう * 名詞 固有名詞 * *
+ 2 3D
大学 だいがく * 名詞 普通名詞 * *
に に * 助詞 格助詞 * *
* 2 -1D
+ 3 -1D <rel type="ガ" target="太郎" sid="950101001-001" tag="0"/><rel type="ニ" target="大学" sid="950101001-001" tag="2"/>
行った いった 行く 動詞 * 子音動詞カ行促音便形 基本形
EOS
  • +で始まる行

    • 各種関係を付与する単位であるタグ単位を表している
    • タグ単位は、文節と同じかその一部
    • 2文節にまたがるタグ単位は無い

    • <rel>タグ以前は,文節区切り行と同様のフォーマット

      • 最初の数字がタグ単位番号
      • 2番目の数字がそのタグ単位の係り先のタグ単位番号
      • 2番目の数字に続く記号は文節区切り行と同様
    • <rel>タグ
      • 関係情報
      • 4つの属性
        • type 関係名
        • target 関係をもつ相手
        • sid その文番号
        • tag そのタグ単位番号
      • 同じ関係名のタグが複数ある場合
        • <mode>によってそれらのタグ間の関係(AND, OR, の関係のいずれか)が示されている
    • +で始まる行以外の書式
    • 形態素・構文タグ付きコーパスと同じ

歴史

  • 1996/01 プロジェクト開始
    • 前半はJUMANの改善
    • 後半はKNPの改善
  • 1997/01 人手での修正作業を開始
  • 〜1997/03 「正しい」形態素・構文情報を付与したコーパス約2万文を作成
    • このうち,約1万文を1997/03に公開
  • 1997/09 Version 1.0
    • 約1万文
  • 1998/06 Version 2.0
    • 約2万文
  • 2000/07/07 Version 3.0
    • 約4万文 (約95万語)
  • 2005/04/22 Version 4.0
    • 5,000文に対して,格関係,照応・省略関係,共参照の情報を付与
    • 除去対象の文はVersion 3.0より少なくなっている
      • 各種関係情報の付与に支障とならないように、対象外の文を可能なかぎり減らしているため

参考文献

Links