簡易文抽出ツール - NWC Toolkit

Abstract: nwc-toolkit-text-filter は文字数や文字種を条件として UTF-8 のテキストから日本語の文を抽出するツールです.正確に日本語を抽出することを目的にしたツールではないので,精度には期待しないでください.

概要

nwc-toolkit-text-filternwc-toolkit を構成するツールの一つです.文字数や文字種を条件として UTF-8 のテキストから抽出した文を出力するようになっています.文字数や文字種を条件とする緩いフィルタなので,適合率・再現率ともに期待はできません.

文を抽出するフィルタの内容は,Web 日本語 N グラム第 1 版における対象文の同定・選別とほぼ同じです.具体的には,句点・感嘆符・疑問符(".", "!", "?", ".", "。", "!", "?")を区切りとして文を抽出した後,以下の条件を一つでも満たす文は排除するようになっています.

文を抽出するとき,表示の方向を制御する文字や代替文字は削除するようになっています.削除されるコードポイントは以下の通りです.

使い方

書式

ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.

オプション

$ nwc-toolkit-text-filter -h
Usage: nwc-toolkit-text-filter [OPTION]... [FILE]...

Options:
  -o, --output=[FILE]  write result to FILE (default: stdout)
  -h, --help    print this help
  • -o, --output
    • 出力ファイルを指定します.
  • -h, --help
    • ヘルプを表示します.

実行例

$ nwc-toolkit-text-filter input-1.gz input-2.gz -o output.gz
$ gzip -dc input-1.gz input-2.gz | \
  nwc-toolkit-text-filter input-1.gz | \
  gzip -c output.gz

入力ファイルが input-1.gz, input-2.gz,出力ファイルが output.gz であれば,コマンドライン引数として input-1.gz, input-2.gz, -o output.gz を指定します.gzip をパイプで接続するより効率良く圧縮ファイルを操作できます.

備考

特にありません.