テキスト抽出ツール - NWC Toolkit

Abstract: nwc-toolkit-text-extractor はウェブページからテキストを抽出するツールであり,文字コードの変換や HTML 文書の解析,Unicode 正規化などをまとめておこなうことができます.

概要

nwc-toolkit-text-extractornwc-toolkit を構成するツールの一つであり,nwc-toolkit-html-parser, nwc-toolkit-unicode-normalizer, nwc-toolkit-text-filter を併せた内容になっています.それぞれの詳細については,個別のドキュメントを参照してください.

http://www.example.com/
200
39
Content-Type: text/html; charset=utf-8
101
<html>
 <head><title>Title   X</title></head>
 <body><h1>Heading</h1><p>Paragraph</p></body>
</html>
...
Title X
Heading
Paragraph

...

HTML アーカイブ,もしくは単体の HTML 文書を入力として,文字コードの判別,UTF-8 への統一,HTML の解析,テキストの抽出,Unicode 正規化,句点や疑問符による区切り,文字数や文字種によるフィルタリングを順番に適用するようになっています.HTML アーカイブは URL や HTTP ヘッダを含むフォーマットであり,文字コードや MIME タイプを効率良く判定できます.

各 HTML 文書から抽出されるテキストは,空行が終端になります.また,連続する空白については,単一の空白に置き換えられるようになっています.

使い方

書式

ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.

オプション

$ nwc-toolkit-text-extractor -h
Usage: nwc-toolkit-text-extractor [OPTION]... [FILE]...

Options:
  -a, --archive  extract text from HTML archives (default)
  -s, --single   extract text from HTML documents
  -n, --entries  limit the maximum number of entries (default: 0)
  -c, --NFC      Normalization Form C (default)
  -d, --NFD      Normalization Form D
  -C, --NFKC     Normalization Form KC
  -D, --NFKD     Normalization Form KD
                 C = Composition, D = Decomposition, K = Compatibility
  -k, --keep     keep replacement characters (default)
  -r, --remove   remove replacement characters
  -f, --filter   apply text filter
  -o, --output=[FILE]  write result to FILE (default: stdout)
  -h, --help     print this help
  • -a, --archive
    • 入力を HTML アーカイブとして扱います.デフォルトの設定です.
  • -s, --single
    • 入力を HTML 文書として扱います.
  • -n, --entries
    • HTML アーカイブを入力とするとき,文書数の上限を指定します.デフォルトの設定では無制限になっています.
  • -c, --NFC
  • -d, --NFD
    • NFD を正規化形式として選択します.
  • -C, --NFKC
    • NFKC を正規化形式として選択します.
  • -K, --NFKD
    • NFKD を正規化形式として選択します.
  • -k, --keep
    • 不正な文字を U+FFFD(REPLACEMENT CHARACTER)に置換します.デフォルトの設定です.
  • -r, --remove
    • 不正な文字を削除します.
  • -f, --filter
  • -o, --output
    • 出力ファイルを指定します.
  • -h, --help
    • ヘルプを表示します.

実行例

$ nwc-toolkit-text-extractor html-archive.xz -o html-archive.txt.gz
$ nwc-toolkit-text-extractor -s document.html -o document.txt

入力する HTML アーカイブが html-archive.xz,出力するテキストアーカイブが html-archive.txt.gz であれば,コマンドライン引数として html-archive.xz, html-archive.txt.gz を指定します.

入力する HTML 文書が document.html,出力するテキストが document.txt であれば,コマンドライン引数として -s, document.html, document.txt を指定します.

nwc-toolkit-text-extractor のウェブサービスにおいて,--NFKC, --remove をオプションとして指定した場合の動作を確認することができます.

備考

特にありません.