N-gram コーパス統合ツール - NWC Toolkit

Abstract: nwc-toolkit-ngram-merger は N-gram コーパスを統合するためのツールです.整列済みの N-gram コーパスをマージして,指定した頻度以上の N-gram を出力します.

概要

nwc-toolkit-ngram-mergernwc-toolkit を構成するツールの一つです.nwc-toolkit-ngram-counter により出力された複数の N-gram コーパスをマージして,オプションで指定した頻度以上の N-gram を出力するようになっています.整列済みの N-gram コーパスを入力とするので,nwc-toolkit-ngram-counter を実行する段階で -s, --sort を指定しておくか,あらためて整列した後で nwc-toolkit-ngram-merger を実行する必要があります.

使い方

書式

ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.

オプション

$ nwc-toolkit-ngram-merger -h
Usage: nwc-toolkit-ngram-merger [OPTION]... [FILE]...

Options:
  -n, --threshold=[N]  cut off n-grams whose frequencies are less than N
  -o, --output=[FILE]  write result to FILE (default: stdout)
  -h, --help           print this help
  • -n, --threshold
    • 指定した頻度以上の N-gram を出力します.
  • -o, --output
    • 出力ファイルを指定します.
  • -h, --help
    • ヘルプを表示します.

実行例

$ nwc-toolkit-ngram-merger ngms-*.gz -o merged-ngms.gz -n 10

入力する N-gram コーパスが ngms-*.gz,出力する N-gram コーパスが merged-ngms.gz,頻度に対する閾値が 10 であれば,コマンドライン引数として ngms-*.gz, -o merged-ngms.gz, -n 10 を指定します.

備考

特にありません.