Abstract: nwc-toolkit-unicode-normalizer は UTF-8 のテキストに Unicode 正規化を適用するツールです.ICU を利用して NFC, NFKC, NFD, NFKD への正規化をおこないます.
nwc-toolkit-unicode-normalizer は nwc-toolkit を構成するツールの一つです.UTF-8 のテキストを入力として受け取り,Unicode 正規化を適用したテキストを出力するようになっています.正規化形式は NFC, NFD, NFKC, NFKD の 4 種類であり,libicu が不正と判断した文字については,U+FFFD(REPLACEMENT CHARACTER)に置き換えるか取り除くかを選択できます.
ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.
$ nwc-toolkit-unicode-normalizer -h
Usage: nwc-toolkit-unicode-normalizer [OPTION]... [FILE]...
Options:
-c, --NFC Normalization Form C (default)
-d, --NFD Normalization Form D
-C, --NFKC Normalization Form KC
-D, --NFKD Normalization Form KD
C = Composition, D = Decomposition, K = Compatibility
-k, --keep keep replacement characters (default)
-r, --remove remove replacement characters
-o, --output=[FILE] write result to FILE (default: stdout)
-h, --help print this help
$ nwc-toolkit-unicode-normalizer input-1.gz input-2.gz -o output.gz
$ gzip -dc input-1.gz input-2.gz | \ nwc-toolkit-unicode-normalizer input-1.gz | \ gzip -c output.gz
入力ファイルが input-1.gz, input-2.gz,出力ファイルが output.gz であれば,コマンドライン引数として input-1.gz, input-2.gz, -o output.gz を指定します.gzip をパイプで接続するより効率良く圧縮ファイルを操作できます.
特にありません.