Abstract: nwc-toolkit-ngram-merger は N-gram コーパスを統合するためのツールです.整列済みの N-gram コーパスをマージして,指定した頻度以上の N-gram を出力します.
nwc-toolkit-ngram-merger は nwc-toolkit を構成するツールの一つです.nwc-toolkit-ngram-counter により出力された複数の N-gram コーパスをマージして,オプションで指定した頻度以上の N-gram を出力するようになっています.整列済みの N-gram コーパスを入力とするので,nwc-toolkit-ngram-counter を実行する段階で -s, --sort を指定しておくか,あらためて整列した後で nwc-toolkit-ngram-merger を実行する必要があります.
ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.
$ nwc-toolkit-ngram-merger -h Usage: nwc-toolkit-ngram-merger [OPTION]... [FILE]... Options: -n, --threshold=[N] cut off n-grams whose frequencies are less than N -o, --output=[FILE] write result to FILE (default: stdout) -h, --help print this help
$ nwc-toolkit-ngram-merger ngms-*.gz -o merged-ngms.gz -n 10
入力する N-gram コーパスが ngms-*.gz,出力する N-gram コーパスが merged-ngms.gz,頻度に対する閾値が 10 であれば,コマンドライン引数として ngms-*.gz, -o merged-ngms.gz, -n 10 を指定します.
特にありません.