現代日本語書き言葉均衡コーパス
- 約1億語のコーパス
- 全文へアクセスするにはDVDが必要(有償)
- 3つのサブコーパスからなる
- コアデータ(全体の約100分の1)は自動形態素解析をした後に,人手による確認・修正を行っている
アノテーション
サンプル数の統計
サブコーパス名 |
メディア |
略称 |
非コアデータ |
コアデータ |
合計 |
出版(2001~2005年) |
新聞 |
PN |
1133 |
340 (17136文) |
1473 (80563文) |
|
雑誌 |
PM |
1910 |
86 (12990文) |
1996 (301399文) |
|
書籍 |
PB |
10034 |
83 (10095文) |
10117 (1483617文) |
図書館(1986~2005年) |
書籍 |
LB |
10551 |
- |
10551 (1651431文) |
特定目的 |
白書 |
OW |
1438 |
62 (6067文) |
1500 (146402文) |
|
ベストセラー |
OB |
1390 |
- |
1390 (222437文) |
|
Yahoo!知恵袋 |
OC |
90507 |
938 (6435文) |
91445 (687598文) |
|
Yahoo!ブログ |
OY |
52209 |
471 (7651文) |
52680 (863913文) |
|
法律 |
OL |
346 |
- |
346 (38827文) |
|
国会会議録 |
OM |
159 |
- |
159 (140422文) |
|
広報紙 |
OP |
354 |
- |
354 (257796文) |
|
教科書 |
OT |
412 |
- |
314 (64100文) |
|
韻文 |
OV |
252 |
- |
252 (18977文) |
合計 |
|
|
170,695 |
1,980 (60,374文) |
172,675 (5,957,482文) |
Links