2010年9月17日金曜日

翻訳者と校正者のための正規表現 (3) - スペース

長いと読む気が失せると思うので、今回から内容を半減したいと思います。

CAT ツールを使用するのであれ、テキスト エディタを使用するのであれ、スペースを視認できる形にするのがスタンダードだと思います。こういった設定をしない作業者によくあるのが次のエラーです。


折り返しされているのでわかりにくくなっていますが、りんごの後に 1 スペース残っています。通常、ひらがな間のスペースはエラーです。もっときっちりした表現もあるのですが、わかりやすい方法を使用します。

[ぁ-]\s+[ぁ-]

別に悶えているわけではありません。正規表現ではハイフンは範囲を表しますUnicode.org のひらがなテーブルでわかるように、小文字の「ぁ」から「ん」までの範囲が含まれるので、通常使用するひらがなはカバーされてしまうのです。

そして今回初登場の「+」記号は「直前の文字が 1 個以上存在する」という意味です。よって、この正規表現は「任意のひらがな間にスペースが 1 個以上存在する」になります。それでは実際にやってみましょう。


はい、正しくひらがな間のスペースが検出されました。もちろん、英数字とひらがな間のスペースは検出されません。漢字とひらがなの間のスペースはまたの機会に!

いやぁ、正規表現って本当に面白いです練馬大根。

0 件のコメント: