2010年9月19日日曜日

翻訳者と校正者のための正規表現 (5) - 単位とスペース

こんにちは。もう 5 回目ですね。繰り返しますが、題名にあるように翻訳と校正に携わる方のための正規表現です。普通に正規表現を勉強したい方は、優れたサイトがたくさんありますので、そちらを参照していただいた方が早道かと思います。


あまり変わり映えしませんが、今回新しい要素を取り上げるために、再度「スペース」について考えてみます。「えーとね、単位の前は 1 スペースね。これ定説」というクライアントさんの場合を考えます。以前から読んでいただいている方は下記の表現がすぐに頭に浮かんだことと思います。

[^\s]MB
[^\s]GB
[^\s]TB

大正解です。でも、これらはまだブラッシュアップできます。

[^\s](MB|GB|TB)

この 1 行が上記の 3 行と同じ意味になります。ここで ( ) はグループを表します。また、パイプ | は OR の意味になります。言葉で表すと「MB または GB または TB の前にスペースがない」となります。この方が、新しい単位記号をパイプで追加していけばいいので楽ですよね。架空の文章での実際の検索結果を次に示します。


はい、無事にヒットしたようです。参考までに、次のような書き方もできます。

[^\s](k|M|G|T)(B|bps)

単位と桁数を分離しただけです。逆に使いにくくなるかもしれませんが、こういうこともできるということです。

それではこの辺にしまスーパーマリオっていうけれど普通のマリオってあったんかいな。

2 件のコメント:

baldhatter さんのコメント...

こちらでは初めまして、baldhatter です。私のところより実用的な内容が多いので、いつも興味深く拝見しています。

「単位の前はスペースなし。これ定説」なお客さんも中にはいて、でもこれ Trados 使うときは面倒なんですよね。Trados では数字のみ違うとき数字だけ置換してくれる機能がありますが、そのとき原典で半スペ空いてれば、訳文でも空れちゃいますから、いちいち削除しなければならなりません。

そんな場合を検出するために、私も上のような正規表現に、逆にスペースを追加したものを使っています。

sagtran さんのコメント...

baldhatter さん。コメントありがとうございます。

あー、ありますよね。私の案件はスペースあり 9 割、スペースなし 1 割ぐらいですかね。交互に依頼されると混乱しますw

あと、スペースを空けるお客さんでも、パーセント記号 (%) だけは例外で、スペースなしの指定をするお客さんが多いです。

baldhatter さんのブログも情報が豊富ですね。今後ともよろしくお願いいたします。