2010年10月29日金曜日

台風前の東京タワー

いやぁ、久々に真面目に仕事していますよw
更新もままならないのですが、見上げると東京タワーの近くを雲がすごい速度で流れていました。

短い動画ですがアップロードしておきます。PCパワーがある方は720pにして拡大すると迫力があります。手ぶれを抑えきれなくてすみません。



最後になりますが、台風の経路にお住いの方々の安全をお祈りしております。

2010年10月27日水曜日

翻訳便利ツール (5) - Tortoisesvn パージョン管理

今回は、バージョン管理のソフトウェアです。

翻訳者向けというより、翻訳会社や PM さん向けになると思います。ですが、翻訳者さんに SVN サーバーからのダウンロードを要求したり、SVN サーバーへの納品を要求するエージェントさんも存在するので、知っておいて損はないと思います。

また、バージョン管理を CAT ツール任せにしている翻訳会社さんが有償ツールから脱却する際に活用できると思います。

元々はプログラムのコードの管理に使用されていましたが、大手翻訳会社さんも採用しているようです。その中でも Windows OS で使用しやすい TortoiseSVN をお勧めします。

TortoiseSVN ホームページ

要は時系列で全てのバージョンを保持できるということです。大量のファイルを複数の翻訳者さんとやり取りする際にも役立ちます。それに、バージョン管理をコーディネーターさんの手作業に任せっぱなしだと引継ぎが大変だと思いますよ。

Windows OS にもファイル バージョンの管理システムがあるようですが、いつ消去されるかわかりませんので信用してませんw

この記事は紹介だけですので、詳細な操作方法は How-to 編 (仮名) で取り上げたいと思います。あっ、前に紹介したツールなども詳細に解説したいと思います。

しばらく待ってくださいね、だって今ちょっと忙しいんだもんぶらん。

2010年10月25日月曜日

増上寺 安国殿

昨日の写真です。
いつの間にか増上寺の隣の安国殿の内装が終わり、一般の方も参拝できるようになっておりました。

まずは、向かって左側を撮影いたしますと皇女和宮さまの像がございました。

IMG_3261
一番左が皇女和宮さま


幕末に第十四代将軍徳川家茂にご降嫁された皇女和宮さまにございます。ものの本には政略結婚などとか、幕末悲劇のヒロインとか書かれております。

皇女和宮さまについては、下記のエレキテル影絵がわかりやすいかと存じます。
http://www.youtube.com/watch?v=0SuzRHv3Stc

(口調戻します)
えっと、右側を見ると仏舎利なんとかと読めますが、不勉強な私にはよくわかりません。

IMG_3268

そして中央が安国殿の黒本尊の御代仏、2尺ちょっとの阿弥陀仏像です。本当の黒本尊は確か年に数回しか開帳されないはずです。

IMG_3265

徳川家康将軍は合戦場には、必ず御代仏を持っていったとのことです。そのおかげで、この地位に登りつめることができたとか。


まぁ、こういう場所に来るとなぜか、権力と幸福は別物だろうなということを感じます。

翻訳便利ツール (4.5) - ApSIC Xbench その後

七転八倒バナナ: 翻訳便利ツール (4) - ApSIC Xbench で紹介した ApSIC Xbench 2.8 ですが、他の言語 (ロシア語など) でも色々とバグが発生しているようです。

海外では、旧バージョンに戻して使用している人が多いようです。少し問題が多いので、全体的な修正には時間がかかるかもしれません。でも旧バージョンのリンクが残っていないので、持っていない人はしばらく我慢するしかないような気がします・・・。

とりあえずご連絡まデカメロン。

2010年10月24日日曜日

実りのない一日、充電の一日、日本の一日

昨日はゆっくりすごしました。早起きしたので都会の日の出をマンションから撮影。

IMG_3223


ま、風情はないですが、人工物からの日の出も良いものです。

でもって、ぼちぼち出かけて公園で花を撮影。

IMG_3228


IMG_3243


ここまでは良かったのですが、次の写真をご覧ください。茎を見るとバラのようですが、花びらの枚数が非常に少ないようです。色々調べてみると、バラの原種は花びらが 5 枚のようですので、それかもしれません。(訂正: ツイッターでご指摘をいただきました。ハマナスでしたっ m(_ _)m)

IMG_3249
バラの原種かなぁハマナスでした

で、面白い花も発見。葉っぱも花びらみたいなんです。例によって勝手に命名しました。花の部分はちっちゃいけど綺麗です。

IMG_3254
タイリョウノブーン

増上寺の安国殿も公開されていましたが、それらの写真はまたあとデルモンテ。

2010年10月22日金曜日

翻訳支援ツールを使用している方のためのブログ

ここはまだまだ新米ブログなので、歴史のあるテクニカル リソース ブログを紹介いたします。


禿頭帽子屋の独語妄言 side TRADOS
Trados 系の記事の量でここに勝るところはないと思います。以前にお会いしたことがありますが、とても良い人でした。SDL International さんは、この方の記事を見て改善していくべきです。

in Tandem
Transit NXT に関する記事が貴重です。Transit を使用している方は必見です。Transit について、ここまで詳しく書いている人なんかいるのでしょうか。まだお会いしたことはありませんが、きっと良い人です。シュタールジャパンさんは、この方にお中元のひとつでも贈るべきです。


そして翻訳会社さんは、私に割の良い仕事をよこすべきですw てへっ
---

陳謝

すみません。ブログのテンプレートをいじっていたときに、ブログリンクを壊してしまって、リンクしていたブログの一部が登録から外れていました (修正済みです)。

大変すみませんでした。m(_ _)m

2010年10月21日木曜日

今後の予定

まぁ、ちょっと仕事に飽きたので、ブログをセコセコ書いているわけですw

ブログは今までの内容でよかったのかなぁなんて思い始めています。写真記事は別にして、翻訳ツールなどの説明が優しくなかったかな。自分が翻訳支援ツールを使い始めたのは随分前ですが、当時の公開情報の少なさに辟易したものです。

なので、Trados なんかについては、当時の自分が喜ぶような内容が書ければベストかななんて思います。具体的には、トラブルシューティングやステップバイステップの操作説明かな。本当は、CAT ツールの開発元が無料で提供するべきものなんですがね。

まぁ、予定は未定ですーすースーダラダッタ。

Flower
花と呼んでいいのかな?

2010年10月19日火曜日

用語抽出の理論

用語抽出プログラムなるものが数万円で販売されていたりします。何か特殊なアルゴリズムを使用しているのかと思ったら、高い値段のものもフリーのものも基本は同じでした。

かなりシンプルです。多分プログラマさんなら簡単に作成できるんじゃないかなぁ。

1. 用語の語数範囲を決める
1~4 語ぐらいになると思います。通常はユーザーが指定します。

2. 出現頻度を指定します。
用語であれば、複数回出現するはずです。例えば 3 回以上などと指定します。

3. 除外リストを作成します。
冠詞や be 動詞にヒットしたらたまりませんから、用語から除外する単語のリストを作成します。まともな用語抽出ソフトウェアであれば、このパラメータを指定できます。

4. 文節から単語の組を抽出します。
例えば "This method is used in powder metallurgy" という文章に対して、適切に除外リストが作成されていれば、次のように検出されます。

powder
metallurgy
powder metallurgy

5. さらに、長い単語に含まれる短い単語を除外するオプションを使用すると、次のようになります。

powder metallurgy
(粉末冶金学)

-----------

用語抽出を試してみたい場合は、有償のプログラムを購入する前に、Okapi Framework などのフリーウェアを使いましょう。

rainbow
オカピーのレインボーちゃん


最後に Okapi Framework の Rainbow を使用して Wikipedia の Powder Metallurgy の記事から用語を抽出した結果を示します。

30 powder
20 metal
16 mold
15 particles
15 pressing
14 materials
14 sintering
12 edit
12 techniques
10 gas
10 isostatic pressing
10 material
10 pressure
9 compacting
9 die
9 powders
9 process
9 temperature
8 compaction
8 high
8 products
8 psi
8 strength
7 atomization
7 manufacturing
7 metallurgy
7 powder metallurgy
7 processes
7 range
6 action
6 alloys
6 distribution
6 extrusion
6 jet
6 operations
6 powder compaction
6 pressures
6 produce
6 sintered
6 thin
6 tooling
--- 以下省略 ---

まぁ、調整するとさらに精度が上がると思いますが、このままでも実使用に耐えうると思います。
他のソフトウェアとの統合が必要なければ、有償のものは買わなくても大丈夫だと思いますよこはま黄昏ホテルの小部屋。

2010年10月18日月曜日

ブログを長く続けるために

えーと、保留している投稿が 10 本ほどあるのですw ジャンルは、翻訳、エッセイ、愚痴、ツールなどさまざまです。

書き終えてから、「うーん世のため人のためにならぬ」とか考え始めて保留。

別に、世のためになる文章は期待されてはいないのに、[公開する] ボタンを押せない投稿ってあるんですよね。よく考えると、Twitter でも同じことがあります。

長く続けるためには、もう少しフリーダムになって、全裸で好きなことを書きまくったほうがいいんじゃないかなw 公開して後悔したら後で削除すればいいんだシュレディンガーの猫。


cat
吾輩はいつも全裸じゃ



2010年10月17日日曜日

勝手に命名

日比谷公園 (1 枚目) と青松寺 (2~4 枚目) が混ざっています。

珍しいなと感じた花を撮りました。珍しい = 名前を知らないので、勝手に命名w



IMG_3126
ロウソクトワラニンギョウ


IMG_3059
モモイロリクイソギンチャク


IMG_3066
キイロセンコウハナビ


IMG_3087
シロエノグポチョン
植物学者さんすみません m(_ _)m
-----

ずっと撮りたかった花

Trados 2009 のことを書いていたんですけど、結構イライラしてきてしまったので写真にします。

日比谷公園に行ってきました。他にもたくさん撮ったのですが、今日は一種類だけアップロードします。これは、写真サイトで他の人が撮っていて、自分もいつか撮影したいと思っていた花です。名前は・・・忘れましたw


IMG_3119
動画にしたら次々にニョローンって出てきそうです



IMG_3144
生き物のよう



IMG_3122
小鳥に見えたり、ザリガニに見えたり

とりあえず、小さな目標達成ですw

残りの写真は、また明日にしますだあけみ。
-----

2010年10月16日土曜日

フリーランス翻訳者について

友人の友人が翻訳に興味があって、ぜひ翻訳業になりたいということで、自分のエージェントを紹介したことがあります。どこにでも転職できるような語学の経歴を持っている人だったんですが、トライアルに不合格。少々気まずかったです。

ある程度の翻訳のルールを知らないと、英語力があっても失敗するという例でしょうか。あと、独立するという覚悟も足りなかったかもしれません。

フリーランス翻訳者になるということは、転職ではなく独立なので、それなりの覚悟が必要です。フリーランスの語源は、傭兵団にも入らずひとりで戦う兵士。所属のない兵士は、すべてを自分で片付けなくてはなりません。まぁ、金次第でどちらの味方にもなるポリシーのないやつとも言えますがw

Cat
翻訳は英語できるだけじゃだめだにゃー
私が同業者と一緒にいて安心するのは、しょっちゅうときどき辛い目に遭いながらも困難を乗り越えて、翻訳を続けてきた匂いを感じるからでしょうか。

格好良く言えば、フリーランスが戦場で出会い「よう」という感じかな。自分が経験したことを、この人も経験しているんだろうなという意識。

ツイッターでも、気持ちがわかりすぎるので翻訳関係の話題では「あるある」の連続。一致しないことといえば、「たい焼きの尻尾にあんこが入っているべきか否か」という翻訳とは関係のない話題ですw

今日は少しいいこと言った感じだニャロメ。

2010年10月15日金曜日

ひとやすーみ

そろそろ、翻訳のことについて書かないとなぁ。でも、写真撮ってきたので掲載。

IMG_2939

今さらですが、花ってよく観察するといろいろな発見があるんですよね。ちっちゃい花の下になんかいろいろあったりして。植物に詳しいわけではないので、よくわかりませんが (^^;

IMG_2949

次の写真も結構拡大しているんですが、花びらの隙間からなんか枝みたいなのが生えているんですよね。もっと拡大すると、その枝にまた花が咲いていたりしてw まさにマトリョーシカ状態。まぁ、これはたぶん雄しべとかだと思いますが・・・。

IMG_2956

野に咲く花になりたいやき食べたい。

2010年10月13日水曜日

今日も行くあてもなく

まぁ、今日も行くあてもなく、浜松町方面へ。通り道の東京タワーを撮影。今日は望遠を持っていたので、人間の視力では普段観察できない部分の写真を 2 枚。


IMG_2868
一番上の輪っかの下の部分



IMG_2869
展望台の直上の鉄骨構造


そして浜松町を素通りして、またもや竹芝ふ頭に到着。


IMG_2873
対岸の船を望遠で撮影
お約束のレインボーブリッジ。向こうの岸が燃えているように見えます。


IMG_2875

仕事は来たんだけどさぁ。来週からなんですよね。時間あり杉田玄白。



2010年10月11日月曜日

行くあてもなく

えーと、自然を撮影しにどっか行こうと山手線に向かいました。通り道の増上寺で撮った写真を何枚か。

IMG_2744
メカゴジラのような鬼瓦

随分珍しいですよね。メカ系の鬼瓦、それとも徳川家の伝統的なデザインなんでしょうか。個人的には、ナマハゲを思い出しました。


IMG_2738
増上寺の裏道

増上寺に参拝の際は、ぜひ裏側にも回ってください。期間限定ですが徳川家の霊廟が公開されていることがあります。

そして、浜松町駅から山手線に乗り、なぜか秋葉原で下車。だって、あてもなく歩くと、少しはあてがありそうなところに向かっちゃうんだもの、しょうがないでしょw 秋葉原では写真を撮りませんでした。回転寿司で飯食って、カメラ用のメモリを購入してリターン。

帰りも増上寺を通りました。いい感じの夕焼けをパシャリ。


IMG_2787
いい感じに雲がありました

で、増上寺の五時の鐘を録画したのでどうぞ。手持ち撮影なので、手ぶれが酷いです。



最後って 2 回突くんですね。知りませんでした。

それでは、またたび。

翻訳者と校正者のための正規表現 (12) - 空白検出のベース

前回は、正規表現を構築する際に最初に設定するべき正規表現を書きました。次に設定するのはスペースの検出でしょう。

以前から、正規表現の基本の説明に絡めて、スペース (正確には空白文字) の検出をしてきましたが、実務でベースとして使用する場合に適切と思われる正規表現を次に示します (折り返されていますが 1 行の表現です)。

(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})\s+(\p{IsCJKUnifiedIdeographs}|\p{IsHiragana}|\p{IsKatakana}|\p{IsCJKSymbolsandPunctuation})

はい、これで漢字、ひらがな、カタカナ、句読点の間の不要なスペースをすべて検出できます。IsBasicLatin が含まれていないのは、もちろん英数文字間や英数字と和文の空白を許容するためです。.NET 系以外のソフトウェァでは、[ぁーん] や文字コードに置き換える必要があります。


カタカナ間のスペースを許容する場合 (ダイアログ ボックスなど) は、上記から IsKatakana を取り去り、Terminology Verifier などの英和ペア方式の検出に任せます。カタカナの部分が少しなら、検出されるままにして自分の目で確認するのもよいでしょう。

前回の (11) の表現とこの (12) の表現は、広いジャンルでベースとして使用できると思います。あとは、クライアントさんごとに工夫していくだけです。

そろそろ書くことがなくなってきました。正規表現エンジンがいくつかあるので混乱しやすいのですが、覚えることは結構少なくて、あとは応用です。

とりあえず、今までの記事をまとめたページを近々作成しようと考えています。次回以降の記事は未定です。何か思いついたら書いてみたいと思います。「これを検出したい」というコメントをいただけたら、できるだけ回答していきたいと思います。

(・∀・)シゴトクレ♪ ヒマダシャンティ*・゜゚・*:.。. .。.:*・゜゚・*

夜の散歩

久しぶりに六本木方向へと散歩しました。夏の間は六本木方向は暑くて、散歩を避けていたんですよ。

Twitter 上でも「六本木って他より暑いよね」と同意してくれる人がいました。自分だけじゃないようです。だから、真夏はもっぱら新橋方面に散歩してました。あと、汐留とか。

で、お決まりのコース (国道319号) を歩いて行くと、10 分ほどで例のビルがあり、パシャリ。

誰が撮っても同じになる某ヒルズビル
さすがに、今日のこの時間は仕事している階が少ないようです。でそそのまま進んでいくと、ヒルズと美容専門学校の下の地下道。


滑降してくる自転車に注意

ここ、夏は暑かった~。で、ヒルズの広場から下の広場を見下ろしてパシャリ。

さすがに人が少ないですね
うーむ、笑いの取れる写真がないなw まぁ、たまにはいいかもがネギしょって土鍋に入った。

2010年10月9日土曜日

オフ会 (五反田の攻防編)

10 月 7 日に、翻訳クラスタのオフ会に行ってきました。大阪支部への報告も兼ねてブログに掲載します。

目的地は、五反田のフランクリン アベニュー。参加者の写真を掲載します。


左から順に・・・

ura_mami さん
エージェントが頭を下げて依頼してくるエース翻訳者さん。MGMG 隊の隊長でもあります。ラーメンLOVE

gentapoppa さん
役者でありながら特許翻訳もこなし、さらにフォークリフトまで運転できるマルチな方。MGMG 隊の宴会軍曹でもあります。奥様LOVE

ucchysnow さん
 DVD、海外ドラマなどを大量に翻訳している映像翻訳者さん。MGMG 隊の副隊長でもあります。ウサギLOVE

moko_uiro さん
翻訳関係の大規模なコンテストで最終選考に残る優秀な翻訳者さん。MGMG 隊の読書軍曹でもあります。ういろうLOVE

m_toka さん
登録するなりエージェントに羽交い締めにされる優秀な IT 系翻訳者さん。MGMG 隊の音楽軍曹でもあります。音楽LOVE

兵卒の私は、クラス写真の日に風邪で休んだみたいに、右上にアイコンで存在しております。

それではフランクリン アベニューのハンバーガー


続きましては、ファミレスに移動してカレーライス (いや、食ったのは私だけですが)


続きましては、スイーツ 3 点



 
夕方になり、ここで ura_mami 隊長がやむなく離脱。
続きましては、カラオケボックス


大丈夫だよね? 顔とかギリギリわからないよね? ちなみに歌っている姿のビデオも存在しますw

続きましては、居酒屋・・・あー、写真ないやw そしてほぼ全員終電。gentapoppa さんにいたっては終バスw


いい年のおっさんと遊んでいただいてありがたいと思っています。実際に仕事をバリバリされている方は顔つきが違うんですよ、ホントに。笑顔も皆さん素敵です。ぜひまた遊んでください。

sagtran より愛を込めてんやわんや

迷子のサイト

なんか、不まじめな教科書っぽいブログになってきたので、てきとーに雑文を。

実は、自分のサイトを真面目に (?) 作成するのは 2 回目です。最初は、30代の頃にアメリカの無料サーバーを使用して、個人事業主でもないのに翻訳事務所のサイトを立ち上げました。

「こんな、あからさまに無料の Web サイトに仕事なんかこねーだろ」とたかをくくっていたら、いきなりアメリカのソフトウェア会社から引き合いがきたので、もうびっくりしてしまいました。結構デカイ会社です。もうね、テンパって「すまぬ、今忙しいんでできない」なんて回答してしまいました。そしてサイト放置w

翻訳はじめた頃は、生意気盛りで「なんでもやってみせるぜ」みたいなノリで意気込んでいたんですが、実際は基礎もなく、「CAT って何」という有様でした。商取引の知識もありませんでした。正直、この仕事を引き受けなくてよかったと思います。

-----

と、懐かしい話のつもりで、ここまでブログを書いていて、「サイトはもう消えてるよね」なんてググってみたら、今でも生き残ってるんですよ!!! 無茶苦茶たまげましたよ。

私の出来心で作成したサイトが生き残ってるんですよ! 10 数年の間、問い合わせしても返事が来ないサイト。資源の無駄、ディスク領域の無駄、インターネット上のゴミ。

パスワードなんだっけ・・・、と思いながら当時の自分のパスワード パターンを次々に入力してみると、見事にログイン、そしてめでたく全消去 (今さっき)。

いや、なんか、罪悪感がありますね。今日は自分の罪をひとつ消せたような気がします。記事の題名も「ちょっと一休み」から「迷子のサイト」に変更しました。

こうして考えてみると、インターネット上にはオーナーが既に亡くなられたサイトが大量に存在する気がします。特に無料の Web スペースなんかは、自動的に消去されることが少ないように思えます。

2010年10月8日金曜日

翻訳便利ツール (4) - ApSIC Xbench

ApSIC Tools の ApSIC Xbench を紹介します。これも無料です。

用途1: 用語集作成
ソース クライアントさんから渡された資料を、エージェントさんが翻訳者に丸投げすることがあります。指定ツール以外の形式で用語集を送ってきたり、酷い時には、旧訳のバイリンガル ファイルをそのまま送ってきたり・・・。

そんな時に、下記の形式のファイルから、おまとめグロッサリーを作成できます。検索速度も、まあ高速だと思います。また、それぞれのファィルに優先度を指定できます。各種の変換が苦にならない方なら、そのまま指定ツールに変換すればいいので、特に使用する必要はないかも。





用途2: 品質管理
読み込んだファイルに、「そのファイルは何か」を割り当てできます。チェックするファイルを On-going translation 扱いにすれば、そのファイルに対して各種の品質管理を実行できます。Trados の Terminology Verifier のようなこともできます。


下記に品質管理項目の一覧を示します。
  • Untranslated segments
  • Segments that have the same source text but a different target text
  • Segments that have the same target text but a different source text
  • Segments where the target text matches the source text
  • Segments with tag errors
  • Segments with numerical errors
  • Segments with double blanks
  • Segments that deviate from the key terms of the project
  • Segments that meet the search criteria of entries in the Project or the Personal Checklist. 



また正規表現ペアでのチェックリスト作成も可能なので上級の処理もできます。しか~し、日本語での正規表現サポートが今ひとつなので、開発元にバグ報告中です。改善されたら報告します。

現時点で品質/用語管理を別のソフトウェアで実行している方には不要かもしれません。でもまぁ、使い込むと、スルメのように味が出てくると思いまするめ。

2010年10月7日木曜日

東京タワー (ノーマル ライティング)

なんか久し振りに白色光のタワーを見たような気がする。まだ日が暮れていないうちにライトアップが始まっていた。まずは、下から舐めるようにw




いいね。ノーマルいいね。紫やピンクもそそられるけど、
ノーマルもなかなか良い。
なので、ノーマル アングルで撮影してみた。




うーん、日が暮れる前のライトアップも魅力的だ。
ちょっと足元まで移動して、撮影してみた。




なんか凛々しいw
この後、新橋まで散歩しました~。
全然関係ないけど、途中で慈恵医大を撮影しておきましたw





これ、全部病床ですよね・・・なんか桁がちがうな。
あと最上階付近の室内灯の色が違うのは VIP ルーム?
いずれにしろ、ご快復をお祈りしています。


翻訳業って、たまに体動かさないとどんどん太るんですw
それではこのへんデカダンス。

2010年10月5日火曜日

翻訳者と校正者のための正規表現 (11) - 常識的な文字以外の検出

いい加減、すぐに使用できる実用的なものを提示しないと、投稿末尾のダジャレしか読んでくれなくなりそうですw

今回は、以下の .NET 表現を使用します。なので TagEditor とかの .NET ベース向けです。

  • IsBasicLatin (基本ラテン文字)
  • IsCJKUnifiedIdeographs (CJK 統合表意文字 (漢字))
  • IsHiragana (ひらがな)
  • IsKatakana (カタカナ)
  • IsCJKSymbolsandPunctuation (CJK 句読点)
この 5 つで、日本語の文章はほとんどカバーされます。というわけで、これらをクラスにまとめて否定形を作成すればよいのです。


[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}]

これで作業しても良いのですが、IsHalfwidthandFullwidthForms (半角カタカナ全角英数記号) が含まれていないので、割とよく許容される全角丸括弧がありません。なので文字クラスに加えてみます。他にも許容できる文字があったら、任意に加えていきます。


[^\p{IsBasicLatin}\p{IsCJKUnifiedIdeographs}\p{IsHiragana}\p{IsKatakana}\p{IsCJKSymbolsandPunctuation}()]

これで、常識的な文字以外はすべて検出されるはずです。Wikipedia の文章で試してみましょう (末尾に通常使用しない文字を追加しています)。


はい、無事に「通常使用しない文字」だけ検出されました。

英日の翻訳であれば、これをベースに改造するなり、別の正規表現を追加するなりして発展させるとよいでしょう。日本語以外への翻訳者は MSDNWiktionary で文字範囲を確認して工夫してください。

これからは、実用的なものをポツポツ書いていくつもりですこんぶうま。

2010年10月3日日曜日

翻訳者と校正者のための正規表現 (10) - 文字列の引き算

]  ミ(ノ ̄^ ̄)ノスチャッ!(o_ _)oドテッ(o― ―)oムクッ.......(o ̄ii ̄)ゞハナヂブー

いや、面白い AA をいただいたのでついw
今回は引き算です。数学の時間ではありません。文字の引き算です。

以前の投稿で、文字範囲を指定して記述する方法について書きましたが、その範囲内に 1 つだけ検出したくない文字が含まれていたら嫌ですよね。

[a-z] の範囲で g だけ外したいときに、[a-fh-z] とかにするのもありです。でも、飛び飛びで複数個あったら面倒ですよね。そんなときに、次のような正規表現を使用できます。

[a-z-[ikw]]

[ ] の中に -[ ] を書くと引き算になります。上の表現は、[a-z] の範囲から [ikw] の文字クラスを除外するという意味になります。ちょっと試してみましょう。



うむ、kiwi が消えましたね。でもこの表現は、反キウイフルーツ革命市民団体全国連絡会議しか使用できません。どんな場面に実用的でしょうか。

前に、.NET 系で使用できる IsHalfwidthandFullwidthForms (半角カタカナ、全角英数記号などを検出) を紹介しました。含まれる文字は
Unicord.org のこの PDF  
を参照してください。ほとんどの場合、そのまま使用できます。だって普通は使用しない文字ですから。

ところが、これには全角括弧類も含まれているんです。お客様の大半は、半角カタカナと全角英数記号を禁止しているんですが、かなりの数のクライアントさんが
「後生ですから丸括弧は、丸括弧だけは全角にしてあげたいんです。返済はもう少し待っていただけませんか (T^T)」と懇願します。

そういう場合に、次の表現を使用できます。


[\p{IsHalfwidthandFullwidthForms}-[()]]
文字コードの場合は
[\uFF00-\uFFEF-[()]]

これは半角カタカナと全角英数記号を検出しながら、全角丸括弧だけは例外という正規表現になります。実際にやってみましょう。



全角丸括弧にはヒットしませんでしたね。正規表現の引き算は、例外の作成に適しています。それではこの辺たいじゃないよ、変態という名の紳士だよ!

2010年10月2日土曜日

翻訳便利ツール (3) - 正規表現チェッカー

あーもー、1 日に何度も更新してごめんなさい。これ、「・・・のための正規表現」シリーズにしようかなと思ったんですけど、ちょっとちがうなと。どちらかというと、ツール扱いではないかと。

えーっと、CAT ツールで正規表現を組むときにイラつくことがあります。えぇ、間違った正規表現を登録してしまった時です。登録時点では、テストできないのです。

まずい正規表現を入れてしまったら、また数回クリックして、ダイアログ開いて、登録し直して、再度チェックするという作業になります。えらいめんどくさいんですよ、これが。

目的の正規表現を、登録前にテストできたらいいですよね。

-----

SDL Trados TagEditor の正規表現エンジン部分は .NET Framework ライブラリを使用しているようなので、.NET Framework で作成された正規表現チェッカーが必要です。そこで Asterworld さん開発のフリーソフト「正規表現チェッカー (vector へのリンク)」ですよ・・・名前がストレートすぎて男を感じます。Free と Share のモードがありますが、Free で全然問題ないです。


一番上の窓に、対象となる文章を張り付けて、二段目に正規表現を書いて [実行] ボタンをぽちりとおすと、一致した文字列のリストが三段目に表示されます。この例では、見えないけどスペースにもヒットしていることに注意してください。もちろん文字コードも \u0000 のパターンで指定できます。

元となるライブラリが同じはずなので、これでチェックしてから TagEditor の QA Checker に登録すると、余計な手間が必要ありません。正直 QA Checker 上で試行錯誤なんてできません。

この情報で、皆様の翻訳肉体労働が軽減されるといいですネモ船長。

良い天気の定義

いやぁ、2010/10/02 は良い天気でした。適度に雲がある晴の日っていいですね。良い天気とは、こんな日のことを言うんです。

うひゃひゃ
日本で日照量最低の県、しかもその内陸部出身の人間としては、カンカン照りのことは「良い天気」とは呼びたくないです。今日のような天気こそ「最高の天気」です。子どものころは、雲が見えない日なんか、年に数日しかなかった気がします。なんかもう、毎日積乱雲を見てた記憶が・・・。

雲から顔をのぞかせようとしている太陽
ガシガシ歩いて、適当な飯屋に入って、飯食って、また歩いて、写真撮って、喫茶店入って、珈琲飲んで・・・


個人的にイイ感じの雲
1000円ぐらいしか使わなかったけどw 幸福感でいっぱいです。うほほ、うひゃひゃ、げふんげふん。