JUMAN辞書

  • 益岡・田窪文法に基づく品詞体系
  • 表記ゆれ情報/意味情報を保持
    • 後続のKNPを使って語義曖昧性解消する
  • コストは人手で設定
    • そのため精度はMeCabに負ける
  • 統語的な情報が豊富
  • 辞書の方針
    • 基本語彙(約3万語)のみを人手で整備し、残りは自動獲得
    • 基本語彙には人手で様々な意味情報を付与
    • 新聞記事に出てこない難しい単語や固有名詞などはIPADICの方が豊富
  • 意味情報
    • 代表表記
    • カテゴリ
    • ドメイン
    • 可能動詞
    • 付属動詞候補
    • ...

変換

オリジナルのJUMAN辞書から,MeCab用のJuman辞書に変換する必要がある. 変換には,スクリプトを用いる.

  • juman2mecab.pl
  • jumancorpus2mecabcorpus.pl
  • kc2mecabcorpus.pl

辞書のフィールド

(表層例) 品詞 品詞細分類 活用型(ctype) 活用形(cform) 見出し語 読み 意味情報・代表表記
日本 名詞 地名 * * 日本 にほん 代表表記:日本/にほん 地名:国
名詞 普通名詞 * * 代表表記:語/ご 漢字読み:音 カテゴリ:抽象物
助詞 格助詞 * * 連語
解析 名詞 サ変名詞 * * 解析 かいせき 代表表記:解析/かいせき カテゴリ:抽象物 ドメイン:教育・学習;科学・技術
動詞 * サ変動詞 基本連用形 する 連語
ます 接尾辞 動詞性接尾辞 動詞性接尾辞ます型 基本形 ます ます 代表表記:ます/ます
特殊 句点 * * 連語

(参考)出力の比較

MeCab+jumandicの出力は

論理    名詞,普通名詞,*,*,論理,ろんり,代表表記:論理/ろんり カテゴリ:抽象物
が      助詞,格助詞,*,*,が,が,連語
重要な  形容詞,*,ナ形容詞,ダ列基本連体形,重要だ,じゅうような,代表表記:重要だ/じゅうようだ
のだ    助動詞,*,ナ形容詞,基本形,のだ,のだ,*

JUMANの出力は

論理が重要なのだ
論理 ろんり 論理 名詞 6 普通名詞 1 * 0 * 0 "代表表記:論理/ろんり カテゴリ:抽象物"
が が が 助詞 9 格助詞 1 * 0 * 0 NIL
重要な じゅうような 重要だ 形容詞 3 * 0 ナ形容詞 21 ダ列基本連体形 3 "代表表記:重要だ/じゅうようだ"
のだ のだ のだ 助動詞 5 * 0 ナ形容詞 21 基本形 2 NIL