Abstract: nwc-toolkit-duplicate-detector は nwc-toolkit-hash-calculator の出力からハッシュ値の重複している URL を検出するツールです.
$ nwc-toolkit-hash-calculator html-archive | \ sort | nwc-toolkit-hash-detector http://www.example.com/ ...
nwc-toolkit-duplicate-detector は nwc-toolkit を構成するツールの一つです.nwc-toolkit-hash-calculator の出力を整列したものを入力として,ハッシュ値が重複している URL の 2 番目以降を出力するようになっています.出力された URL を HTML アーカイブから取り除くことにより,内容の重複していない HTML 文書のみを残すことができます.
ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.
$ nwc-toolkit-duplicate-detector --help Usage: nwc-toolkit-duplicate-detector [OPTION]... [FILE]... Options: -o, --output=[FILE] write result to FILE (default: stdout) -h, --help print this help
$ nwc-toolkit-duplicate-detector input -o output
入力ファイルが input,出力ファイルが output であれば,コマンドライン引数として input, -o output を指定します.指定がなければ標準入力と標準出力を使うので,入力をパイプで接続したり,出力をリダイレクトしたりすることもできます.
特にありません.