正規表現集

随時更新

SDL Trados Studio 用です。QA Checker の Regular Expression セクションですぐに使用できる実用的な正規表現のまとめです。.NET ベースのプログラムであれば流用できると思います。その他のプログラムでは、範囲指定や文字コード指定が必要です。まだまだ追加していくつもりです。


常用漢字以外の検出 (解説リンク)

長いので直接リンクへどうぞ。


イレギュラーな文字 (特殊文字、半角カタカナ、全角英数) の検出 (解説リンク)

[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}]

検出しない文字を追加するには文字を角括弧内に追加。下記は全角カッコを検出しないようにする設定です。

[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}()]



不要スペースの検出 (解説リンク)

(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})\s+(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})

カタカナ間のスペースを許容する場合 (ダイアログ ボックスなど) は、上記からパイプに囲まれた IsKatakana のセット 2 か所を取り去ります。



桁区切りなしの数字の検出 (解説リンク)

[0-9]{4,}

通常はこれで OK。部品番号などにヒットするようなら、左右に表現を追加します。



単位の前のスペース (解説リンク)

[^\s](MB|GB|TB)

対象となる単位をパイプでガシガシ追加します。スペースなしのクライアントさんでは、\s にします。



助詞の連続 (解説リンク)

(の.{0,5}){4,}
(を.{0,5}){3,}


これらの表現で検出できます。他の助詞も試してください。




和英翻訳向け

[^\p{IsBasicLatin}]

基本ラテン文字以外をすべて検出します。



ひらがなの不自然な連続 (解説リンク)

[ぁ-ん]{7,}

連続は 7 ~ 9 ぐらいで調整すると良いと思います。



JIS第1水準以外の漢字の検出 (解説リンク)

長いので直接リンクへどうぞ。



小学校学年別漢字の検出 (解説リンク)

長いので直接リンクへどうぞ




スタイル例
徐々に追加予定。