ソフトウェア
主にGitHubで公開しています.
- morant
- ブラウザでコーパスにアノテーションするためのツール
- macomp
- 形態素解析結果を比較するツール
- コマンドラインやブラウザで動作します
- cdbs
- CDBの4GB制限を回避するために,複数のCDBファイルに分割して作成するコマンド
- Go言語のライブラリとしても使えます
- at2pt
- アノテーション済みテキストからプレインテキストを抽出するコマンド
ライブラリ
- go-word2vec
- word2vecのモデルをGo言語で使うためのライブラリ
- go-jk
コーパス前処理スクリプト
- Scripts for HiraganatimesCorpus
- 英辞郎プリプロセッサ
- 英辞郎を計算機処理しやすい形式に変換するツール
- JBT extract
- 日本語大シソーラス電子版に収録されている辞書形式から,計算機で処理しやすいTSV形式に変換するスクリプト