Unicode 正規化ツール - NWC Toolkit

Abstract: nwc-toolkit-unicode-normalizer は UTF-8 のテキストに Unicode 正規化を適用するツールです.ICU を利用して NFC, NFKC, NFD, NFKD への正規化をおこないます.

概要

nwc-toolkit-unicode-normalizernwc-toolkit を構成するツールの一つです.UTF-8 のテキストを入力として受け取り,Unicode 正規化を適用したテキストを出力するようになっています.正規化形式は NFC, NFD, NFKC, NFKD の 4 種類であり,libicu が不正と判断した文字については,U+FFFD(REPLACEMENT CHARACTER)に置き換えるか取り除くかを選択できます.

使い方

書式

ヘルプを表示するオプションは -h, --help です.いずれかを指定することにより,オプションのリストを確認できます.入力ファイルはオプション以外のコマンドライン引数により指定できます.指定がなければ標準入力を使用します.拡張子が gz, bz2, xz のいずれかであれば,入力ファイルを自動的に伸長します.出力ファイルは -o, --output により指定できます.指定がなければ標準出力を使用します.拡張子が gz, bz2, xz のいずれかであれば,出力ファイルを自動的に圧縮します.

オプション

$ nwc-toolkit-unicode-normalizer -h
Usage: nwc-toolkit-unicode-normalizer [OPTION]... [FILE]...

Options:
  -c, --NFC     Normalization Form C (default)
  -d, --NFD     Normalization Form D
  -C, --NFKC    Normalization Form KC
  -D, --NFKD    Normalization Form KD
            C = Composition, D = Decomposition, K = Compatibility
  -k, --keep    keep replacement characters (default)
  -r, --remove  remove replacement characters
  -o, --output=[FILE]  write result to FILE (default: stdout)
  -h, --help    print this help
  • -c, --NFC
    • NFC を正規化形式として選択します.デフォルトの設定です.
  • -d, --NFD
    • NFD を正規化形式として選択します.
  • -C, --NFKC
    • NFKC を正規化形式として選択します.
  • -K, --NFKD
    • NFKD を正規化形式として選択します.
  • -k, --keep
    • 不正な文字を U+FFFD(REPLACEMENT CHARACTER)に置換します.デフォルトの設定です.
  • -r, --remove
    • 不正な文字を削除します.
  • -o, --output
    • 出力ファイルを指定します.
  • -h, --help
    • ヘルプを表示します.

実行例

$ nwc-toolkit-unicode-normalizer input-1.gz input-2.gz -o output.gz
$ gzip -dc input-1.gz input-2.gz | \
  nwc-toolkit-unicode-normalizer input-1.gz | \
  gzip -c output.gz

入力ファイルが input-1.gz, input-2.gz,出力ファイルが output.gz であれば,コマンドライン引数として input-1.gz, input-2.gz, -o output.gz を指定します.gzip をパイプで接続するより効率良く圧縮ファイルを操作できます.

備考

特にありません.