現代日本語書き言葉均衡コーパス

  • 約1億語のコーパス
  • 全文へアクセスするにはDVDが必要(有償)
  • 3つのサブコーパスからなる
  • コアデータ(全体の約100分の1)は自動形態素解析をした後に,人手による確認・修正を行っている

アノテーション

サンプル数の統計

サブコーパス名 メディア 略称 非コアデータ コアデータ 合計
出版(2001~2005年) 新聞 PN 1133 340 (17136文) 1473 (80563文)
雑誌 PM 1910 86 (12990文) 1996 (301399文)
書籍 PB 10034 83 (10095文) 10117 (1483617文)
図書館(1986~2005年) 書籍 LB 10551 - 10551 (1651431文)
特定目的 白書 OW 1438 62 (6067文) 1500 (146402文)
ベストセラー OB 1390 - 1390 (222437文)
Yahoo!知恵袋 OC 90507 938 (6435文) 91445 (687598文)
Yahoo!ブログ OY 52209 471 (7651文) 52680 (863913文)
法律 OL 346 - 346 (38827文)
国会会議録 OM 159 - 159 (140422文)
広報紙 OP 354 - 354 (257796文)
教科書 OT 412 - 314 (64100文)
韻文 OV 252 - 252 (18977文)
合計 170,695 1,980 (60,374文) 172,675 (5,957,482文)

Links