Abstract: nwc-toolkit-text-extractor はウェブページからテキストを抽出するツールであり,文字コードの変換や HTML 文書の解析,Unicode 正規化などをまとめておこなうことができます.
nwc-toolkit-text-extractor は nwc-toolkit を構成するツールの一つであり,nwc-toolkit-html-parser, nwc-toolkit-unicode-normalizer, nwc-toolkit-text-filter を併せた内容になっています.それぞれの詳細については,個別のドキュメントを参照してください.
http://www.example.com/ 200 39 Content-Type: text/html; charset=utf-8 101 <html> <head><title>Title X</title></head> <body><h1>Heading</h1><p>Paragraph</p></body> </html> ...
Title X Heading Paragraph ...
HTML アーカイブ,もしくは単体の HTML 文書を入力として,文字コードの判別,UTF-8 への統一,HTML の解析,テキストの抽出,Unicode 正規化,句点や疑問符による区切り,文字数や文字種によるフィルタリングを順番に適用するようになっています.HTML アーカイブは URL や HTTP ヘッダを含むフォーマットであり,文字コードや MIME タイプを効率良く判定できます.
各 HTML 文書から抽出されるテキストは,空行が終端になります.また,連続する空白については,単一の空白に置き換えられるようになっています.
ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.
$ nwc-toolkit-text-extractor -h
Usage: nwc-toolkit-text-extractor [OPTION]... [FILE]...
Options:
-a, --archive extract text from HTML archives (default)
-s, --single extract text from HTML documents
-n, --entries limit the maximum number of entries (default: 0)
-c, --NFC Normalization Form C (default)
-d, --NFD Normalization Form D
-C, --NFKC Normalization Form KC
-D, --NFKD Normalization Form KD
C = Composition, D = Decomposition, K = Compatibility
-k, --keep keep replacement characters (default)
-r, --remove remove replacement characters
-f, --filter apply text filter
-o, --output=[FILE] write result to FILE (default: stdout)
-h, --help print this help
$ nwc-toolkit-text-extractor html-archive.xz -o html-archive.txt.gz
$ nwc-toolkit-text-extractor -s document.html -o document.txt
入力する HTML アーカイブが html-archive.xz,出力するテキストアーカイブが html-archive.txt.gz であれば,コマンドライン引数として html-archive.xz, html-archive.txt.gz を指定します.
入力する HTML 文書が document.html,出力するテキストが document.txt であれば,コマンドライン引数として -s, document.html, document.txt を指定します.
nwc-toolkit-text-extractor のウェブサービスにおいて,--NFKC, --remove をオプションとして指定した場合の動作を確認することができます.
特にありません.