2010年9月30日木曜日

翻訳者と校正者のための正規表現 (8) - 助詞の連続

今回は助詞の連続による違和感の検出について書いてみたいと思います。まずは、下記の例文をご覧ください。

右上のアドレス ペインの下の [検索] をクリックします。

私だったら次のように修正します。

右上のアドレス ペインの下にある [検索] をクリックします。

次のように修正する人もいると思います。

右上にアドレス ペインがあります。その下の [検索] をクリックします。


違和感を感じる方も感じない方もいると思います。「の」の 3 個連続は違和感のぎりぎりの線だと思います。まぁ、表現に正解などありませんが、私が違和感を感じるのでしょうがないですw。というわけで、極端な例をWikipedia に限定して検出 (Google 検索) してみました。

しかし、退去命令再度申立て場合は、被害者転居時間確保ため制度という点から・・・

むむむ。法律関係だからこのような言い回しになるのかよくわかりませんが、私はこう直してしまうと思います。

しかし、退去命令の申立てが再度行われた場合、この制度が被害者の転居時間の確保を目的としていることをかんがみて・・・

というわけで、次の表現で、「の」の 4 連続以上を検出できます。

(の.{0,5}){4,}

言葉で表現すると「『の』の次に 0 ~ 5 個の任意の文字があるパターンが 4 回以上連続している」になります。繰り返し数は、自分の許容度で決めてもよいと思います。


ついでに「を」の連続も見てみましょうか。Wikipedia に限定して「を」の 3 連続を検出してみました。問題のある部分を太字にしています。わかりにくい文章、というかどう考えても修正忘れだと思いますが。

茎から切り取った花を切り花というが、これ方向そろえて束ねたものを花束(ブーケ)、組み合わせて輪にした花輪などもさまざまなものが見られ、

ナビ人: 人間をお世話などするメイドナビと呼ばれるサイボーグ。

自分だったら、それぞれこう修正します。

茎から切り取った花を切り花と呼ぶが、これらの花の方向そろえて束ねた花束(ブーケ)、組み合わせて輪にした花輪など、さまざまな種類があり、

ナビ人: 人間の世話などする、メイドナビと呼ばれるサイボーグ。

もう正規表現は作成できますね。

--
もちろん検出しても許容できる場合がありますよ。
「ぜんまいの のの字ばかりの 寂光土」 -- 川端茅舎
--

0 件のコメント: