Abstract: nwc-toolkit-html-parser は HTML パーサの動作を確認するためのツールです.HTML 文書を解析してタグやテキストの一覧を簡易表示するようになっています.
$ echo "<html lang="ja"><body>Body</body></html>" | \ nwc-toolkit-html-parser Tag: <html lang="ja"> Tag: <body> Text: 4bytes Tag: </body> Tag: </html>
nwc-toolkit-html-parser は nwc-toolkit を構成するツールの一つです.HTML 文書を解析して,タグやテキストの一覧を出力するようになっています.テキストを正しく抽出できない HTML 文書を見つけた場合など,HTML パーサの動作を確認したいときに便利です.
タグの名前と属性名については,小文字に変換してから出力します.属性名については,文字参照を解決した後で,あらためて一部の記号("<", ">", "&", "'")を文字参照に置き換えなおして出力するようになっています.テキストとコメントについては,長さをバイト単位で出力します.
ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.
$ nwc-toolkit-html-parser --help Usage: nwc-toolkit-html-parser [OPTION]... [FILE]... Options: -o, --output=[FILE] write result to FILE (default: stdout) -h, --help print this help
$ nwc-toolkit-html-parser input.html
$ cat input.html | nwc-toolkit-html-parser
入力する HTML 文書が input.html であれば,コマンドライン引数として input.html を指定します.入力ファイルの指定がなければ標準入力を使用するので,nwc-toolkit-html-parser の入力側に別のコマンドをパイプで接続することもできます.
特にありません.