随時更新
SDL Trados Studio 用です。QA Checker の Regular Expression セクションですぐに使用できる実用的な正規表現のまとめです。.NET ベースのプログラムであれば流用できると思います。その他のプログラムでは、範囲指定や文字コード指定が必要です。まだまだ追加していくつもりです。
常用漢字以外の検出 (解説リンク)
長いので直接リンクへどうぞ。
イレギュラーな文字 (特殊文字、半角カタカナ、全角英数) の検出 (解説リンク)
[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}]
検出しない文字を追加するには文字を角括弧内に追加。下記は全角カッコを検出しないようにする設定です。
[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}()]
不要スペースの検出 (解説リンク)
(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})\s+(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})
カタカナ間のスペースを許容する場合 (ダイアログ ボックスなど) は、上記からパイプに囲まれた IsKatakana のセット 2 か所を取り去ります。
桁区切りなしの数字の検出 (解説リンク)
[0-9]{4,}
通常はこれで OK。部品番号などにヒットするようなら、左右に表現を追加します。
単位の前のスペース (解説リンク)
[^\s](MB|GB|TB)
対象となる単位をパイプでガシガシ追加します。スペースなしのクライアントさんでは、\s にします。
助詞の連続 (解説リンク)
(の.{0,5}){4,}
(を.{0,5}){3,}
これらの表現で検出できます。他の助詞も試してください。
和英翻訳向け
[^\p{IsBasicLatin}]
基本ラテン文字以外をすべて検出します。
ひらがなの不自然な連続 (解説リンク)
[ぁ-ん]{7,}
連続は 7 ~ 9 ぐらいで調整すると良いと思います。
JIS第1水準以外の漢字の検出 (解説リンク)
長いので直接リンクへどうぞ。
小学校学年別漢字の検出 (解説リンク)
長いので直接リンクへどうぞ
スタイル例
徐々に追加予定。