ソフトウェア
主にGitHubで公開しています.
ツール
- Pilota
- 文脈を考慮して,1文を読むだけで文の解釈を理解できるように出力
- LREC 2022論文の実装
- Blog記事
- Bunkai
- 日本語文境界判定器
- 改行が文境界の文書にも対応しているのが特徴
- W-NUT 2020で発表した論文[PDF]の実装
- hachiue
- ブラウザで動作する音声アノテーションツール
- morant
- ブラウザでコーパスにアノテーションするためのツール
- SIG-NL231で発表した論文[PDF]の実装
- macomp
- 形態素解析結果を比較するツール
- コマンドラインやブラウザで動作します
- SIG-NL231で発表した論文[PDF]の実装
- cdbs
- CDBの4GB制限を回避するために,複数のCDBファイルに分割して作成するコマンド
- Go言語のライブラリとしても使えます
- at2pt
- アノテーション済みテキストからプレインテキストを抽出するコマンド
ライブラリ
- desuwa
- KNPのルールファイルをPythonで扱うためのライブラリ
- go-word2vec
- word2vecのモデルをGo言語で使うためのライブラリ
- go-jk
その他 (Not maintained)
- QR Generator
- slex
- Python module for the Java Stanford Parser
- ssgnc-python
- Google N-gram検索ツールSSGNCのpythonラッパー
- .vim
- dotfiles
- コーパス前処理スクリプト
- Scripts for HiraganatimesCorpus
- ひらがなタイムズコーパスから日英対訳データを抽出するスクリプト
- 英辞郎プリプロセッサ
- 英辞郎を計算機処理しやすい形式に変換するツール
- JBT extract
- 日本語大シソーラス電子版に収録されている辞書形式から,計算機で処理しやすいTSV形式に変換するスクリプト
- Scripts for HiraganatimesCorpus