重複検出ツール - NWC Toolkit

Abstract: nwc-toolkit-duplicate-detector は nwc-toolkit-hash-calculator の出力からハッシュ値の重複している URL を検出するツールです.

概要

$ nwc-toolkit-hash-calculator html-archive | \
  sort | nwc-toolkit-hash-detector
http://www.example.com/
...

nwc-toolkit-duplicate-detectornwc-toolkit を構成するツールの一つです.nwc-toolkit-hash-calculator の出力を整列したものを入力として,ハッシュ値が重複している URL の 2 番目以降を出力するようになっています.出力された URL を HTML アーカイブから取り除くことにより,内容の重複していない HTML 文書のみを残すことができます.

使い方

書式

ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.

オプション

$ nwc-toolkit-duplicate-detector --help
Usage: nwc-toolkit-duplicate-detector [OPTION]... [FILE]...

Options:
  -o, --output=[FILE]  write result to FILE (default: stdout)
  -h, --help    print this help
  • -o, --output
    • 出力ファイルを指定します.
  • -h, --help
    • ヘルプを表示します.

実行例

$ nwc-toolkit-duplicate-detector input -o output

入力ファイルが input,出力ファイルが output であれば,コマンドライン引数として input, -o output を指定します.指定がなければ標準入力と標準出力を使うので,入力をパイプで接続したり,出力をリダイレクトしたりすることもできます.

備考

特にありません.