2010年9月30日木曜日

翻訳者と校正者のための正規表現 (8) - 助詞の連続

今回は助詞の連続による違和感の検出について書いてみたいと思います。まずは、下記の例文をご覧ください。

右上のアドレス ペインの下の [検索] をクリックします。

私だったら次のように修正します。

右上のアドレス ペインの下にある [検索] をクリックします。

次のように修正する人もいると思います。

右上にアドレス ペインがあります。その下の [検索] をクリックします。


違和感を感じる方も感じない方もいると思います。「の」の 3 個連続は違和感のぎりぎりの線だと思います。まぁ、表現に正解などありませんが、私が違和感を感じるのでしょうがないですw。というわけで、極端な例をWikipedia に限定して検出 (Google 検索) してみました。

しかし、退去命令再度申立て場合は、被害者転居時間確保ため制度という点から・・・

むむむ。法律関係だからこのような言い回しになるのかよくわかりませんが、私はこう直してしまうと思います。

しかし、退去命令の申立てが再度行われた場合、この制度が被害者の転居時間の確保を目的としていることをかんがみて・・・

というわけで、次の表現で、「の」の 4 連続以上を検出できます。

(の.{0,5}){4,}

言葉で表現すると「『の』の次に 0 ~ 5 個の任意の文字があるパターンが 4 回以上連続している」になります。繰り返し数は、自分の許容度で決めてもよいと思います。


ついでに「を」の連続も見てみましょうか。Wikipedia に限定して「を」の 3 連続を検出してみました。問題のある部分を太字にしています。わかりにくい文章、というかどう考えても修正忘れだと思いますが。

茎から切り取った花を切り花というが、これ方向そろえて束ねたものを花束(ブーケ)、組み合わせて輪にした花輪などもさまざまなものが見られ、

ナビ人: 人間をお世話などするメイドナビと呼ばれるサイボーグ。

自分だったら、それぞれこう修正します。

茎から切り取った花を切り花と呼ぶが、これらの花の方向そろえて束ねた花束(ブーケ)、組み合わせて輪にした花輪など、さまざまな種類があり、

ナビ人: 人間の世話などする、メイドナビと呼ばれるサイボーグ。

もう正規表現は作成できますね。

--
もちろん検出しても許容できる場合がありますよ。
「ぜんまいの のの字ばかりの 寂光土」 -- 川端茅舎
--

2010年9月28日火曜日

霧雨の公園にて

ちょっとアップロードし損ねていた写真を処理。撮影は芝公園 (9 月 13 日)。先に言っておきますけどオチはないですよw クリックして拡大してお楽しみください。

映えていました

水玉がうまく乗っています

こういう小さい花の密集も好きです

花の中から花が咲いているようです

おしくらまんじゅう

もりもり成長する先端

艦橋

以上でーす。自己満足バンザーイw

翻訳便利ツール (2) - Okapi

私のポリシーは「楽に仕事をするためなら、どんな苦労も厭わない」です。なので、仕事の合間に、世界のどこかで凄いツールが開発されていないか探し回っています。

どちらかというと、少し高度な内容なので、CAT ツール翻訳 (棺桶) に深く片足を突っ込んでいない方は、ここで引き返したほうが良いかも。

Okapi Framework
上の見出しがダウンロード ページへのリンクになっています。随分前から開発され続けているのですが、いまひとつ知名度が低い (少なくとも私は日本人が解説しているページを知らない) 翻訳管理ソフトウェアです。翻訳パッケージの準備から品質管理まで実行できます。しかも無料。

頼まれて十数人の翻訳者を同時に管理したときに使用しました。新し物好きな IT 系の人は、この UI を見てワクワクするでしょう。




ちびりそうです。もう、素敵なことができまくりです。
自分が使用したわずかな機能だけをピックアップすると・・・

用語の抽出
Term Extraction で頻出用語を抽出できます。もちろん抽出パラメータもカスタマイズできます。普通は結構な値段するので本当に助かりました。

翻訳パッケージの作成
XLIFF、OmegaT、RTF (Trados 互換) 向けに翻訳パッケージを作成できます。まぁ、この種類をエクスポートできれば問題ありません。OmegaT や XLIFF で出力できれば、Trados どころか Windows さえ不要です。また、ものすごい数の入力ファイル形式に対応しています。書ききれません。

Quality Check
QA Checker も強力です。翻訳終了後のパッケージを受け取ったら、普通の正規表現チェックはもちろん、正規表現でソースとターゲットの特定の内容を抽出し、そのまま維持されているかどうか確認できます。メール アドレス、IP アドレス、URL アドレスとかは、TM を使用していると類似セグメントのアドレスをそのまま入れてしまうミスがあります。

下記はメアドが異なることが検出された例です。



乱数文字列を含む馬鹿長い URL のチェックは死ぬほど疲れるので、これは便利です (上記のメアドは両方とも私が所有していますが、ほとんどチェックすることはないのでスパムしても無駄ですよw)。

この他にも、鼻水出そうな機能があるんですけど、説明しきれないや。このソフトウェアの欠点は、機能と操作に慣れるまでが大変なことw

--
通常の翻訳者が使用する機会はあまりないと思いますが、仕事がなく、家の片付けも終わり、食うものも食い、遊ぶものも遊びつくして何もすることがなくなった時にでもいじってみてくだサイボーグ 009 は萌える。
--

2010年9月27日月曜日

翻訳者と校正者のための正規表現 (7) - ひらがなの連続など

ここまでブログを読んでいただいた方は、「なんか単純なスタイル規則の検出だけだなぁ」と感じているかもしれません。しかし、経験から言うと、こういう単純なスタイル エラーが一番多いのです。翻訳者だけでなく、エディタ、プルーフリーダ、最終クライアントまで見逃します。

仕様書を正規表現化して、その会社のローカライズされた Web サイトをチェックしてみましょう。パブリッシングまでの各レベルで厳格な管理を行っていないプロジェクトだと、最終品で複数個のエラーが見つかります。ここまで見逃されるとスタイルの意味があるのかってことですが・・・、規則ですからしょうがありません。ソース クライアントさんの最終チェックでスタイル違反が生み出されることもよくあります。


まぁ、こういう明確なスタイルは、検出が簡単ですからいいとして、日本語表現のエラーを検出しようとすると、大型案件を処理する PM (兼エディタ) さんの立場が必要です。どのようなエラーが多いかを見極めて対処しなくてはなりません。すべての文法エラーを正規表現化できる人なんていません。いたら、その正規表現のセットを数十億円で買い取る企業が出てくるでしょう。

ただ「ほとんどの場合間違い」または「ほとんどの場合改良の余地あり」というものを検出するアイデアがいくつかあります。以下に例を示します。


ひらがなの連続 → [ぁ-ん]{7,} とか [ぁ-ん]{9,} とか
PM 作業をしていたときの経験ですが、技術文書でひらがなが連続する場合は、冗長な言い回しの可能性があります。ジャンルや、常体か敬体かで異なりますが、7 ~ 8 文字以上は要注意です。少なくとも、なぜひらがなが連続しているのかの確認ぐらいはしてもよいでしょう。Web 上の文章で試してみると、いろいろな発見があると思います。

下記は Wikipedia からの引用で、ひらがなが 7 文字以上連続している部分を赤で示しています。ひらがなの連続を抑えてみました。また、マニュアルで一般的な敬体へと変更しています。

[原文]
例えば、虹の色の数は、日本では七色とされているが、他の地域や文化によっては七色とは限らない。また、日本語で「青」と呼ばれるものに緑色の植物や信号灯が含まれるのも、単純に単語を置き換えることができない顕著な例である。このような一対一対応がないという問題は、機械翻訳の実現が単なる単語の差し替えでは不十分であることにもつながっている

[技術 (マニュアル) 系へとリライトしてみた]
たとえば、日本で虹の色の数が七色でも、他の国や文化でも同じとは限りません。さらに、日本語では、緑色の植物や信号灯を「青」と呼ぶなどの例もあり、単語を一対一で置き換えるだけでは、実用的な機械翻訳システムは構築できません。

えらそうにリライトしてごめんなさい m(_ _)m。原文がダメという意味ではなく、自分が技術系 (特に IT マニュアル) 文書のエディタだったらこうする、というだけです (そんな資格も技量もないけどねw)。Wikipedia 上の文章としては原文で全然 OK だと思います。まあ、ライティングだからここまで自由に変更できたのですが、翻訳の場合は「いろいろな縛り」があるので、きついですよね。

技術系の翻訳やライティングの第一目的は「単純明快簡潔至極」であることです。特に「~することができます」や「~というようなことがあります」はローカライズ業界で嫌われていると思います。知っているだけで、ソース クライアント数社が使用禁止または非推奨としています。ひらがなの連続を検出すると、これらの冗長な表現がよく見つかります。

助詞修正後の削除忘れ → がを|をが|はを
えーと、意外に多いんです。これは変換確定前に既に置換されたように見えるのが原因かもしれません。態を変えたときにそのまま残るようです。このほかにも助詞のつながりが妙なパターンを見つけたら、正規表現にできないか考えてみます。

対象ジャンルでは使用することのない漢字 → 内臓|淫|性交|標示|大坂|登社
見直し中やプルーフ中に誤変換を見つけたら、同じ過ちを犯さないようにパイプで追加していきます。誤変換があるということは、ほぼすべての翻訳者の変換候補に挙がるということです。成功→性交はすごく恥ずかしいので登録をお勧めします。それと、内臓ディスクの検索結果ですが、エディタを通さない文章では、非常に多いですね。

口語とか → やっぱり|ちょっと|だったら|まずい|いんで
やっぱり、この文書でこれはちょっとまずいんでないかい」と感じるものを見つけたら追加していきます。

---

まぁ、このブログ自体、ひらがなが連続してたり、タイポがありますが、それはほれ、あれ、えーっと、なんだっけ、PTA、NGO、いや TPO ってことで勘弁してくださいなめ猫。

2010年9月25日土曜日

翻訳便利ツール (1) - Grep

正規表現はとても便利ですが、ある程度の勉強が必要です。ということで、翻訳業で生計を立てていく中で、手放せなくなったツールを紹介していこうかなと思います。おそらく、既に多くの翻訳者が使用していると思います。

今回は GREP について話します。ちなみに、元はライン エディタのコマンド g/re/p からきています。つまり、「全体から (Global) 正規表現 (Regular Expression) に一致する行を表示 (Print) する」という意味です。


翻訳で取引を開始すると、翻訳対象ファイル以外に多くの資料を受け取ると思います。UI 対訳リスト、固定対訳表、翻訳仕様書、関連製品資料、その他の資料などです。

技術翻訳であれば、最低でも数ファイル、多いときで数十ファイルの資料が送られてきます。形式は、テキスト、MS Excel、MS Word、HTML、PDF などさまざまです。これらをいちいち開いて検索してなどいられません。数万語クラスの対訳であれば、MultiTerm に変換してしまいますが、こまごまとした 20 ファイルなど検索していられません。

エージェントにとって大事なお客さんであれば、データベース化して末端の翻訳者まで配布するのが筋だと思いますが、そんなことする時間はないのでしょうね。

不明 UI やスタイルに出会うたびに、Excel 検索 → Notepad 検索 → Word 検索 → Acrobat 検索 → TTX 検索なんてやっていられません。これらをそのまま横断検索できたら便利ですよね。Windows 標準の検索は精度が悪くてあまり使えません。

そこで Grep ですよ。使用に耐えるものはいくつかありますが、資料検索で私がずーっと使用している VxGrep を紹介します。VxGrep は VxEditor に付属しています。開発者のページからダウンロードできます。

VxGrep を愛用しているのは、次の理由からです。

  • pdf、doc、rtf、xls、html、txt、ttx、その他テキストファイルをまとめて検索できる
  • 必要なライブラリ全部入り
  • 正規表現検索が可能
  • 文字コードは自動検出

ひとつの資料フォルダに、全部放り込んで一発検索です。自分の場合、これがなければ翻訳速度は 2/3 ぐらいになるでしょう。また、数百ファイルある翻訳済み TTX や Word ファイルを串刺し検索して、目的のファイルをダブルクリックして開いて修正なんていう素敵なことが、いとも簡単にできます。

好みに合うかどうかはわかりませんが、Grep を使用したことがない人は、一度試してみてはいかがでしょうか。それではこの辺デラウェア。 (火山はキラウェアでした・・・)

2010年9月23日木曜日

翻訳者と校正者のための正規表現 (6) - 文字種の検出

さて、ここいらで実使用に耐えうる正規表現をひとつぐらい提示してみましょう。で、今日のメインは漢字の検出、半角カタカナの検出、全角英数の検出、およびそれらとスペースとの関係です! 日本語の構造エラーを見つけ出す表現もいくつかありますが、それはもう少し後にします。


この業界で長く働かれている方は、翻訳仕様書で次のような表現をよく目にするはずです。

「英数字、記号、および括弧は半角。漢字ひらがなカタカナは全角。全角と英数字半角の間は 1 スペース。ただし括弧類の内側は常にスペースなし。括弧類の外側は句読点でないかぎり 1 スペース。句読点の両側にはスペースが存在してはいけない」

これは、次のように 3 つに分けて考えます。


  1. 全角の英数字および半角カタカナを正規表現で検出
  2. 半角英数字と全角漢字ひらがなカタカナの間にスペースがないパターンを検出
  3. 括弧と句読点はそれぞれのパターンを考えて、パイプでつなげる


1 の解決:

[a-zA-Z0-9ヲ-゚]

上記は、全角アルファベットの小文字と大文字、全角数字、および半角カタカナ (ヨーグトなど) を検出しますw。特殊な表現で短縮していないのはわかりやすくするためです。


2 の解決:

[a-zA-Z0-9][ァ-ヶぁ-ん一-龠]|[ァ-ヶぁ-ん一-龠][a-zA-Z0-9]

なげーよw。「一-龠」は漢字の範囲を示しています。JISコードの場合は別の表現もあります。これは漢字率の算出にも応用できますね。著作権フリーの Wikipedia の CAT ツールの説明文に「一-龠」を使用してみます。

[一-龠] の実行結果
はい。漢字がすべてヒットしていることがわかると思います。つまり、2 の解決策では、半角英数と全角漢字ひらがなカタカナが、スペースなしで隣接しているものが検出されます。これでいろいろ楽しめますねw。もうちょっと工夫すれば「当用漢字以外の漢字を検出」することもできます。


3 の解決策:

\s[。、]|[。、]\s|[\(\[\"\{]\s|[^\s。、][\(\[\"\{]

左から順に日本語で説明します。
「句読点の前にスペースがあるエラー」
「句読点の後にスペースがあるエラー」
「半角括弧類の内側にスペースがあるエラー」
「半角括弧類の外側が句読点またはスペース以外であるエラー」

これらは、それなりのソフトウェアを使用すれば連続して自動で検出できます。もちろん、さらに細かく詰めることもできますが、クライアントごとに変化がありすぎるので、あとはいろいろと工夫してくだ賽の河原。

あっ、コメントは誰でも投稿できるようにしました。スパムが多すぎたら考え直すかもしれません。

2010年9月19日日曜日

翻訳者と校正者のための正規表現 (5) - 単位とスペース

こんにちは。もう 5 回目ですね。繰り返しますが、題名にあるように翻訳と校正に携わる方のための正規表現です。普通に正規表現を勉強したい方は、優れたサイトがたくさんありますので、そちらを参照していただいた方が早道かと思います。


あまり変わり映えしませんが、今回新しい要素を取り上げるために、再度「スペース」について考えてみます。「えーとね、単位の前は 1 スペースね。これ定説」というクライアントさんの場合を考えます。以前から読んでいただいている方は下記の表現がすぐに頭に浮かんだことと思います。

[^\s]MB
[^\s]GB
[^\s]TB

大正解です。でも、これらはまだブラッシュアップできます。

[^\s](MB|GB|TB)

この 1 行が上記の 3 行と同じ意味になります。ここで ( ) はグループを表します。また、パイプ | は OR の意味になります。言葉で表すと「MB または GB または TB の前にスペースがない」となります。この方が、新しい単位記号をパイプで追加していけばいいので楽ですよね。架空の文章での実際の検索結果を次に示します。


はい、無事にヒットしたようです。参考までに、次のような書き方もできます。

[^\s](k|M|G|T)(B|bps)

単位と桁数を分離しただけです。逆に使いにくくなるかもしれませんが、こういうこともできるということです。

それではこの辺にしまスーパーマリオっていうけれど普通のマリオってあったんかいな。

2010年9月18日土曜日

翻訳者と校正者のための正規表現 (4) - 桁区切り

多分「そんなの知ってるよ」と思う人がいるとは思いますが、今回も基本ですよ。基本の組み合わせです。

さて、翻訳者は数値表記のスタイルを指定されることがあります。「ソースにばらつきがあっても、3 桁ごとにカンマ入れてね。ただ西暦とか ISO 感度 3200 とかの場合はカンマ入れないでね」というものです。ソースにばらつきがある場合でも、ハンドオフ直前に正規表現置換で一括で直せるんだから、それくらいは処理してハンドオフして欲しいものです。

そこは文章肉体労働者の身分ですから、ぐっとこらえましょう (笑)。早速ですが、以下の架空の文章でエラーだけを検出するにはどうすればよいでしょうか。

「この 2010 年に発売されたカメラでは、1 回の充電で 2,200 枚程度撮影できます。フラッシュを使用した場合は、撮影可能枚数が 900 ~ 1100 枚程度になることに注意してください。また、[MENU] 画面で [自動選択 ISO 3200] を選択すると ISO 感度 3200 まで自動で調節されます。」

ここでエラーは「1100 枚」の部分だけです。いきなり正解案を提示してから解説します。

[^O度]\s[0-9]{4,}\s[^年]

そして実際に適用すると次のように、目的の部分だけにヒットします。



解説:

[0-9]{4,} → 数字が 4 個以上連続している。
\s[^年] → 連続した数字の後にスペースがあり、その後ろに「年」が存在しない。
[^O度]\s → 連続した数字の前にスペースがあり、その前に「O (オー)」も「度」も存在しない。

もちろん、これは正規表現の説明のためのものなので汎用性が低いままです。数字の前にスペースが無かったり、括弧と隣接している場合なども無視しています。なので、実際に使用して対象外の表記が引っかかった場合に、正規表現を改変したり、別の正規表現を追加したりして精度を上げていく必要があります。さまざまな表記が可能になると思います。

それではこの辺デロリアン。


縁の下の力持ち

昨日は順調に仕事が進んだので、夜に外出しました。いつも東京タワー全体を撮っているんですが、別の部分も撮ってみました~。まずは今日の本体の状態。


紫色でした。で、ライトアップするにはそれなりの設備が必要です。


高出力ライト。たぶん触ったら大やけどします。


こんな感じで鉄骨に反射します。


ライトのせいで排気パイプまで赤くなっています。



こんな感じてーす。おまけは東京プリンス ホテルの噴水です。


クリックして拡大してお楽しみくださ~い。
シャンティ♪

2010年9月17日金曜日

邂逅と警戒

一眼レフで猫を追っかけました~。



仲良くしてくれそうにありませんでした~。

翻訳者と校正者のための正規表現 (3) - スペース

長いと読む気が失せると思うので、今回から内容を半減したいと思います。

CAT ツールを使用するのであれ、テキスト エディタを使用するのであれ、スペースを視認できる形にするのがスタンダードだと思います。こういった設定をしない作業者によくあるのが次のエラーです。


折り返しされているのでわかりにくくなっていますが、りんごの後に 1 スペース残っています。通常、ひらがな間のスペースはエラーです。もっときっちりした表現もあるのですが、わかりやすい方法を使用します。

[ぁ-]\s+[ぁ-]

別に悶えているわけではありません。正規表現ではハイフンは範囲を表しますUnicode.org のひらがなテーブルでわかるように、小文字の「ぁ」から「ん」までの範囲が含まれるので、通常使用するひらがなはカバーされてしまうのです。

そして今回初登場の「+」記号は「直前の文字が 1 個以上存在する」という意味です。よって、この正規表現は「任意のひらがな間にスペースが 1 個以上存在する」になります。それでは実際にやってみましょう。


はい、正しくひらがな間のスペースが検出されました。もちろん、英数字とひらがな間のスペースは検出されません。漢字とひらがなの間のスペースはまたの機会に!

いやぁ、正規表現って本当に面白いです練馬大根。

東京タワーと雲

雨上がりの東京タワー。タワーの照明が雲に反射してきれいでした。霧かと思ったけど、この動きはどうみても雲でした。東京タワーって、確か 333 m ですよね。そこまで雲が降りてきたということかな。クリックして拡大してお楽しみくださ~い。


たまには、好きな写真も挟まないと疲れるので載せてみました。

2010年9月16日木曜日

翻訳者と校正者のための正規表現 (2) - 基本


このシリーズ、前回は正規表現の基礎の一部を紹介しました。今回も基本を続けます。

なぜかときどき見かけるのが、文頭のスペース。自動で字下げできる時代に、文頭スペースは正直邪魔になります。文書をスペースで整えるのはお勧めしません。たとえば、将来 HTML 化に取り組んだときに、スペースの不統一で余計な手間がかかります。で、文頭のスペースを検出するには、次を使用します。

^\s

「^」は文頭を表しています。その直後にスペース (空白文字) に一致する「\s」があるので、文頭のスペースに一致するわけです。ここで円 (バックスラッシュ) 文字は逆エスケープになっています。こういった記述法を略記法ともいいます。「s」は普通の文字で、これに逆エスケープを付けるとスペースを示します。全角スペースも検出する場合は、次のようになります。

^[\s ]

ちょっとわかりにくいですが「s」の後に全角スペースを入力しています。また、角かっこに注目してください。[ ] かっこはクラスを示し、これで囲まれている文字のどれでもヒットするということです。ですから、文頭にある空白文字と全角スペースにヒットします。

「^」は、左端に記述したときに文頭を示しますが、別の場所で使用すると「否定」の意味になります。たとえば、数値と単位の間を 1 スペース指定しているクライアントさんがいるとします (50 MB など)。スペースが存在しないとエラーですが、これはどうやって確かめることができるでしょうか?

[^\s]MB
または
\SMB

最初の記述は否定形になります。正規表現の先頭に「^」があると、文字列の先頭に一致する意味になってしまいましたね。そこで、クラスを示す [ ] で囲んで防いでいます。「^\sMB」とだけ記述すると文字列の先頭がスペースで、その後に「MB」が続くという意味になってしまいます。

2 つ目の [ ] かっこがないほうは、大文字の S になっていますね。そう、ややこしいですが、大文字の \S はスペース (空白文字) 以外を意味しますので最初から否定形になっています。正規表現では、同じエラーを検出するにしても、さまざまな表現ができてしまいます。ではさっそく「\SMB」で検索してみましょう。


このように、正しい記述以外すべてヒットしました。スペースのある/なしのスタイル違反は、この方法の応用で検出できます。本当は各種の空白文字を個別に指定した方が正確なのですが、ここでは省略しました。このあたりは、また後程・・・。

こんな感じで、気負わず今後も書いていきたいと思いまスルメ。

2010年9月15日水曜日

翻訳者と校正者のための正規表現 (1) - 基本

人間は誰でも間違いを犯します。タイポや誤変換をやっちまったことのない翻訳者や校正者はいないと思います。私も当然何回もやりました。「内臓ディスク」も納品しそうになったことがあります。

そこで、嫌な汗はかきたくないので、数年前から正規表現を勉強してエラーの防止に努めています。自分や他の翻訳者が犯したミスを分析し、次は必ず発見できるように、正規表現を使用しています。せっかくなので、ブログに残していきたいと思った次第です。

正規表現は CAT があれば一番楽に構成できますが、正規表現が可能なテキストエディタもあります。テキストエディタでは自動化は困難ですが・・・。

早速ですが、基本的な例から示していきたいと思います。次の画像は CAT でソースをターゲットにコピーする設定にしていたり、テキストを上書きで翻訳した場合によくあるミスです。よくあるって言っても、荒っぽい翻訳者で 1 万語で数個ぐらいでしょうか。

ピリオドが残っている例
上書き翻訳しているうちに、ピリオドが追い出されています。しかもカーソルが重なっているために見逃しやすくなっています。

そこで正規表現 。\. を使用します。この円 (機種によってはバックスラッシュ) マークは制御文字をエスケープする (普通の文字として扱う) ためのものです。英文記号には制御文字になっているものがあるので、これらを検出したいときは注意する必要があります。

また CAT ツールなどで各セグメントの末尾のピリオドのみを検出するには、\.$ を使用します。ドルマークは文末を示します。その直前にエスケープされたピリオドがあるので、文末のピリオドにヒットします。

日本語訳文の修正後には句点の連続がよくみられます。句点が 2 個連続しているだけなら 。。 または 。{2} です。ここで波かっこ内の数字は繰り返し数を示します。2 個以上のすべてを検出したいときは 。{2,}  になります。特殊な用途としては 。{3,6} と記述することで、3 個以上 6 個未満の連続句点にヒットします。

似たような、よくあるエラーを次に示します。

文末消し忘れ
これも日本語訳文の修正後によくみられるエラーです。句点の間に文字が入り込んでいます。これはどうしましょうか。

私は、 。.{0,5}。 を使用しています。エスケープされていないピリオドは「任意の文字」を示します。この正規表現を言葉にすると「句点間に 0 ~ 5 個の何らかの文字が入っている」という意味になります。これで何が検出されたかを次に示します。

範囲指定の応用
アンダーライン部分が検出部分を示しています。上限を 5 文字にしているのは、技術文書の日本語で 5 文字以内で句点が繰り返された場合、ほとんどがエラーですが、それ以上になると「。次を参照のこと。」などにヒットし始めます。

文芸などでは「よく寝た。おはよう。」などの表現があると思いますので、異なる数値が必要かもしれません。対象文書ごとに調整してみてください。

腹減ったので、今日はこの辺で。さいならさいなら。

2010年9月7日火曜日

SDL Trados Terminology Verifier (用語管理) のススメ

ファイルが来ないのでブログ更新。前に、SDL Trados の正規表現について書きましたけど、正規表現は変換エラーやケアレスミス、あとは絶対使ってはいけないと指定されたパターンを探し出すのに適しています。

で、用語管理は MultiTerm ですよ。Termbase に用語を登録して、MultiTerm から提案された用語をさくっと挿入して便利に使っている人はよくいるのですが、それにしか使用しない人も多いようです。せっかくですから一歩進んで、翻訳後に Terminology Verifier で丸ごとチェックしてしまいましょう。

TagEditor のプラグイン画面を次に示します。私は常に SDL TRADOS Terminology Verifier (以下 TV) と SDL TRADOS QA Checker 2.0 (以下 QC) を有効にしています。



ここで、TV を選択状態にして [Properties] をクリックすると次の画面が表示されます。



次に [Termbase location] で翻訳中に使用していた Termbase をひとつ選択します (こちらの環境ではデフォルトで選択されます)。他のタブは必要に応じて設定しましょう。

ここでどのように機能するか簡単に (すごく簡単に) 示しますね。次のようなセグメントがあったとします。



実際の翻訳中に用語を見つけたら、"apple" を選択して Ctrl+Shift+S、"りんご" を選択して Ctrl+Shift+T を押し、次に Ctrl+Shift+M を押すと、次のようなダイアログが表示されるので [Add] をクリックすると Termbase に登録されます。



たとえば "Apple" を "みかん" に翻訳してしまった場合、[Verify] ボタンをクリックすると以下のように警告が出ます (クリックして拡大して確認してくださいね)。警告行をクリックすると、該当セグメントが選択状態になりますので、バシバシ修正できます。



つまり翻訳中、またはプルーフ中に「揺れそうな用語」や「間違えたら人が死ぬ用語 (医療関係の薬剤名とかボタン名とか)」をしっかり登録していけば、自分の見逃しで人が死ぬ確率は格段に低くなるということです。

上級者の方はすでに知っていることと思いますが書いてみました。私も使い始めのころは、手探り状態でしたから。この情報が皆さんのお役にたつことを願ってやみま千と千尋のリンボーダンス。

入力機器など

Twitter でデスク周りをさらしたんですが、詳細を書いたら少し参考になるかなぁなんて思いました。

入力機器
キーボードは、東プレの静電容量無接点型。要は接点がないので、ある位置まで押し下げると確実に入力されます。自分の周りで高速入力をする人は、このキーボードに落ち着くみたいです。ちなみに私は、書類めくりながらの仮名入力で毎時 17,000 ストロークです (自慢しちゃった)。まぁ、30 年もキーボード打ってりゃこんなもんかと。思いついた文章をびゃーって打てるのがうれしい。

トラックボールは Kensington の Expert Mouse。スクロールリングが便利です。ルビーチップで支えられたボールの動きは滑らかです。マウスの寿命を決めるクリック部分のマイクロスイッチは信頼のオムロン接点。デフォルトで 5 年保障。この前は、2,000 円ぐらいの光学マウスを 1 年に 1 個は使いつぶしていましたからこれに替えてよかったかも。最初は操作に慣れるのが大変ですが。。。

右上の四角いのは、DiaTech のデスクトップ用タッチパッド。気軽な操作には良いかもしれませんが、大画面で微妙な操作をするには少し物足りません。お気軽にシュルッ、ポンてな操作向きです。

そうそう、話はマシンに変わりますが、同じ翻訳環境を整えた RAID1 マシンが 2 台、バックアップ用サーバーが 1 台、ノートが 1 台、その他どうでもいいのが 2 台てな感じです。これは、翻訳中にディスクを吹っ飛ばして、秋葉原に泣きながら走っていった経験からですw

2010年9月5日日曜日

TagEditor の QA Checker (正規表現) のススメ

注意: 詳細な操作方法は掲載してないです。興味を持っていただけて、実際にご自分で頑張って操作してみて作業が楽になったらうれしいな、という気持ちで書きました。

私は一応翻訳業なんです (笑)。CAT (Computer Aided/Assisted Translation) ツールを使っていない方は特に読んでいただかなくてもいいかも。

この世に CAT ツールは数あれど、ほぼ業界標準の地位を確立している SDL Trados、中でも TagEditor がお気に入りです。理由は QA Checker の強力さです。翻訳後にボタンをポチッで検出してくれますから。これに続くのは、同社の SDLX、Alchemy の Catalyst、LionBRIDGE (Geoworkz) の Translation Workspace と QA Tool 類、SDL 傘下に入った Idiom WorldServer でしょうか。あと、5年ぐらい前から地道に開発している KILGRAY の MemoQ とかも注目です。

その他にも某 OS 企業が推し進める LocalizationStudio や Helium とかも使っていますが、もう、操作を覚えるだけでお腹いっぱいですよ。初めてツール指定されたときはひっくり返りましたよw

で、何を書くかというと、TagEditor で実際にどのような正規表現を登録しているか、どういう利益があるかということです (回し者ではありません)。下のダイアログにたどり着くまでの操作は Web 上に結構存在すると思うので、そちらを検索してください (ちょっと不親切かな)。

ここで、スクリーンショットを数枚載せます (クリックで拡大できます)。一番左の列がスタイル違反とか、ケアレスミスの正規表現です。幸いというか、当たり前というか、日本語は制御文字に含まれていないので、そのまま記述すると検出してくれます。

基本的な記述
句読点の連続とか、使っちゃいけない漢字とかはそのまま記述。もちろん、クライアントごとに指定スタイルは変わりますよ。


基本的な記述2
そうそう、実は PM もやったことがあるんですが、複数の翻訳者にハンドオフした文章はこういった部分の揺れが激しいのです。

基本的な記述3

基本的な記述4
禁止表現やら差別表現やらを登録しておくと見逃しが少なくなります。もちろんですけど「時計が狂う」はアウトです。

こういった基本的なものを登録するだけで、余計な気を使う必要がなくなります。ただ登録には丸一日とか平気でかかりますので、リピートの多い最重要ソークラさん (年10万語以上) とかにお勧めします。

そして、正規表現が楽しくなってきたら、下記のような登録でさらにスタイルを詰めることができます。

ちょっと上級
左の列の長い表記はユニコードによる文字範囲指定です。見てもぐるぐるするだけなので (私もそうでした)、中央の列で何を検出しているかを見ていただければと思います。

QA Checker の潜在能力に気づいていただいて、そして実際に試行錯誤して使ってみて皆さんの翻訳人生が楽になることを願ってやみませんだみつお。

2010年9月4日土曜日

夜の港とか

皆さんがサッカーのパラグアイ戦で盛り上がっているときに、パシャパシャやっていましたよー。

途中の公園
涼しいかなーなんて思って浜松町駅ぐらいまできたら、もう汗だくですよ。

某ポケモンセンターのイルミ
んでもって、埠頭に着いてやっと、風がビューって吹いてきて涼しくなってきました。

竹芝ふ頭から隅田川方向
夜景は手ブレがきついですね。

東京港方向 (屋形船)
いいなぁ、屋形船。最近はどのぐらいで貸しきりできるんだろう。このあと、街灯の下にバドワイザーのミニスカをはいた少女が!! でも男でした。離れて友達が見ていたので、大学生の罰ゲームかなんかみたいでした。かわいそうだから撮影しなかった。

レインボーマンブリッジ(嘘)
全部で150枚ぐらい撮影。使えるのは10枚くらい (´・ω・`) でも三脚は買いたくない、重いから。帰り際に、東京タワーがまた変な色になっていたので撮影。いつも左に傾いで撮影してしまう。

タワー (紫モード)
以上、ネオ・ニートの写真レポートでした。
(ちなみに写真クリックすれば拡大できますよ)

2010年9月3日金曜日

ビルとか雲とか

汐留までテクテクと出かけて行きました。

ビルの狭間から
写真関連のサイトを眺めていると、今日は雲に注目している人が多かったですね。確かに面白かった。今日一日で、雲の写真が何枚撮られたんだろう。

ビルに反射した雲
何だろうこのビル、随分綺麗に反射するんですけど。

鋭利なビルと雲
汐留付近はスタイリッシュなガラス張りビルが多いですね。なんか周囲の景色と同化してしまいそう。

コラムと雲
いやぁ、撮った撮った。ブログとしてはつまんないか~。

2010年9月2日木曜日

散歩っぽ

えぇ、今日も散歩しましたとも。カメラも持ち歩きましたよ。そして、今日も新橋で出会いがありました。

秀逸なデザイン
普通なら鉄パイプ組み合わせてリング締めて終わるところを、このデザインですよ。撮らずにはいられませんでしたよ、はい。そして浜松町に向かいましたところ路上ライブをやってました。





歌声も歌詞も良いのですが、ちょっと用があってこの場を離れたので「堀」何とかさんまでしかわかりませんでした。CD売ってたら是非買いたいです。新人さんでしょうか、それとも既に有名な人なんでしょうか? →「森 恵 (もりめぐみ)」さんと判明しました。ありがとうございます。

で、いつもの東京タワーですよ。

夕暮れタワー

数日前、紫色の凄い空を見ることができたんですが、その余韻かどうかわかりませんが、今日も紫雲を観察できました。ご清聴ありがとうございましタロー・ウルトラ。

飯田橋の乱



さて、PT2010 に参加する関西陣を横浜で迎え撃つための作戦会議が、飯田橋にて極秘裏に開かれました。

飯田橋歩道橋より

私 (sagtran) が特設会議場に到着したころには、gentapoppa 氏と m_toka 氏が既に密談を開始していました。なぜか正座してあいさつしてしまいました (本当と書いてマジ)。

次に隊長 ura_mami 氏、そして副隊長 ucchysnow 氏が到着。早速議題に写りました。

議題1

さまざまな意見が飛び交う中、一見答えは出ないかに見えました。


さまざまな意見1


さまざまな意見2

しかしながら、moko_uiro 氏も参戦し、あっという間に意見の一致を見ました。

意見の一致1

意見の一致2

かくして、綿密かつ盛大な計画が決定されたのでした。


と、おふざけモードはこの辺にして m(_ _)m、関西からいらっしゃる方々の都合や日時を考慮して http://tweetvite.com/event/sep10mgmg のように進んでおります (ucchysnow さん、夜遅くにまとめ投稿してくれてありがとう)。

TLの中の人と会うのがこんなに楽しいとは思いませんでした。病み付きになりそうです。

それではまた (・∀・)シャンティ♪ シャンティ♪ *・゜゚・*:.。. .。.:*・゜゚ (淀川長治風)