ラベル QA Checker の投稿を表示しています。 すべての投稿を表示
ラベル QA Checker の投稿を表示しています。 すべての投稿を表示

2010年10月5日火曜日

翻訳者と校正者のための正規表現 (11) - 常識的な文字以外の検出

いい加減、すぐに使用できる実用的なものを提示しないと、投稿末尾のダジャレしか読んでくれなくなりそうですw

今回は、以下の .NET 表現を使用します。なので TagEditor とかの .NET ベース向けです。

  • IsBasicLatin (基本ラテン文字)
  • IsCJKUnifiedIdeographs (CJK 統合表意文字 (漢字))
  • IsHiragana (ひらがな)
  • IsKatakana (カタカナ)
  • IsCJKSymbolsandPunctuation (CJK 句読点)
この 5 つで、日本語の文章はほとんどカバーされます。というわけで、これらをクラスにまとめて否定形を作成すればよいのです。


[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}]

これで作業しても良いのですが、IsHalfwidthandFullwidthForms (半角カタカナ全角英数記号) が含まれていないので、割とよく許容される全角丸括弧がありません。なので文字クラスに加えてみます。他にも許容できる文字があったら、任意に加えていきます。


[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}()]

これで、常識的な文字以外はすべて検出されるはずです。Wikipedia の文章で試してみましょう (末尾に通常使用しない文字を追加しています)。


はい、無事に「通常使用しない文字」だけ検出されました。

英日の翻訳であれば、これをベースに改造するなり、別の正規表現を追加するなりして発展させるとよいでしょう。日本語以外への翻訳者は MSDNWiktionary で文字範囲を確認して工夫してください。

これからは、実用的なものをポツポツ書いていくつもりですこんぶうま。

2010年9月5日日曜日

TagEditor の QA Checker (正規表現) のススメ

注意: 詳細な操作方法は掲載してないです。興味を持っていただけて、実際にご自分で頑張って操作してみて作業が楽になったらうれしいな、という気持ちで書きました。

私は一応翻訳業なんです (笑)。CAT (Computer Aided/Assisted Translation) ツールを使っていない方は特に読んでいただかなくてもいいかも。

この世に CAT ツールは数あれど、ほぼ業界標準の地位を確立している SDL Trados、中でも TagEditor がお気に入りです。理由は QA Checker の強力さです。翻訳後にボタンをポチッで検出してくれますから。これに続くのは、同社の SDLX、Alchemy の Catalyst、LionBRIDGE (Geoworkz) の Translation Workspace と QA Tool 類、SDL 傘下に入った Idiom WorldServer でしょうか。あと、5年ぐらい前から地道に開発している KILGRAY の MemoQ とかも注目です。

その他にも某 OS 企業が推し進める LocalizationStudio や Helium とかも使っていますが、もう、操作を覚えるだけでお腹いっぱいですよ。初めてツール指定されたときはひっくり返りましたよw

で、何を書くかというと、TagEditor で実際にどのような正規表現を登録しているか、どういう利益があるかということです (回し者ではありません)。下のダイアログにたどり着くまでの操作は Web 上に結構存在すると思うので、そちらを検索してください (ちょっと不親切かな)。

ここで、スクリーンショットを数枚載せます (クリックで拡大できます)。一番左の列がスタイル違反とか、ケアレスミスの正規表現です。幸いというか、当たり前というか、日本語は制御文字に含まれていないので、そのまま記述すると検出してくれます。

基本的な記述
句読点の連続とか、使っちゃいけない漢字とかはそのまま記述。もちろん、クライアントごとに指定スタイルは変わりますよ。


基本的な記述2
そうそう、実は PM もやったことがあるんですが、複数の翻訳者にハンドオフした文章はこういった部分の揺れが激しいのです。

基本的な記述3

基本的な記述4
禁止表現やら差別表現やらを登録しておくと見逃しが少なくなります。もちろんですけど「時計が狂う」はアウトです。

こういった基本的なものを登録するだけで、余計な気を使う必要がなくなります。ただ登録には丸一日とか平気でかかりますので、リピートの多い最重要ソークラさん (年10万語以上) とかにお勧めします。

そして、正規表現が楽しくなってきたら、下記のような登録でさらにスタイルを詰めることができます。

ちょっと上級
左の列の長い表記はユニコードによる文字範囲指定です。見てもぐるぐるするだけなので (私もそうでした)、中央の列で何を検出しているかを見ていただければと思います。

QA Checker の潜在能力に気づいていただいて、そして実際に試行錯誤して使ってみて皆さんの翻訳人生が楽になることを願ってやみませんだみつお。