HTML 解析ツール - NWC Toolkit

Abstract: nwc-toolkit-html-parser は HTML パーサの動作を確認するためのツールです.HTML 文書を解析してタグやテキストの一覧を簡易表示するようになっています.

概要

$ echo "<html lang="ja"><body>Body</body></html>" | \
  nwc-toolkit-html-parser
Tag: <html lang="ja">
Tag: <body>
Text: 4bytes
Tag: </body>
Tag: </html>

nwc-toolkit-html-parsernwc-toolkit を構成するツールの一つです.HTML 文書を解析して,タグやテキストの一覧を出力するようになっています.テキストを正しく抽出できない HTML 文書を見つけた場合など,HTML パーサの動作を確認したいときに便利です.

タグの名前と属性名については,小文字に変換してから出力します.属性名については,文字参照を解決した後で,あらためて一部の記号("<", ">", "&", "'")を文字参照に置き換えなおして出力するようになっています.テキストとコメントについては,長さをバイト単位で出力します.

使い方

書式

ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.

オプション

$ nwc-toolkit-html-parser --help
Usage: nwc-toolkit-html-parser [OPTION]... [FILE]...

Options:
  -o, --output=[FILE]  write result to FILE (default: stdout)
  -h, --help    print this help
  • -o, --output
    • 出力ファイルを指定します.
  • -h, --help
    • ヘルプを表示します.

実行例

$ nwc-toolkit-html-parser input.html
$ cat input.html | nwc-toolkit-html-parser

入力する HTML 文書が input.html であれば,コマンドライン引数として input.html を指定します.入力ファイルの指定がなければ標準入力を使用するので,nwc-toolkit-html-parser の入力側に別のコマンドをパイプで接続することもできます.

備考

特にありません.